Articles

Anvendt AI – Strategi og Rådgivning | InnoArchiTech

Artikler I Denne Serien

  1. Oversikt, mål, læringstyper og algoritmer

  2. datavalg, forberedelse og modellering

  3. modellevaluering, validering, kompleksitet og forbedring

  4. Modellytelse Og Feilanalyse

  5. unsupervised LEARNING, relaterte Felt og Maskinlæring i praksis

introduksjon

velkommen! Dette er den første artikkelen i en femdelers serie om maskinlæring.Maskinlæring Er et veldig hett tema av mange viktige årsaker, og Fordi Det gir muligheten til automatisk å få dyp innsikt, gjenkjenne ukjente mønstre og lage høypresterende prediktive modeller fra data, alt uten å kreve eksplisitte programmeringsinstruksjoner.til Tross for fagets popularitet, er maskinlæringens sanne formål og detaljer ikke godt forstått, unntatt av svært tekniske folk og / eller datavitenskapere.denne serien er ment å være en omfattende, grundig guide til maskinlæring, og bør være nyttig for alle fra bedriftsledere til maskinlæringsutøvere. Den dekker nesten alle aspekter av maskinlæring (og mange relaterte felt) på høyt nivå, og bør tjene som en tilstrekkelig introduksjon eller referanse til fagets terminologi, konsepter, verktøy, hensyn og teknikker.denne forståelsen på høyt nivå er kritisk hvis den noen gang er involvert i en beslutningsprosess rundt bruken av maskinlæring, hvordan den kan bidra til å oppnå forretnings-og prosjektmål, hvilke maskinlæringsteknikker som skal brukes, potensielle fallgruver og hvordan man tolker resultatene.

Merk at de fleste emnene som diskuteres i denne serien, også er direkte anvendelige for felt som prediktiv analyse, datautvinning, statistisk læring, kunstig intelligens og så videre.

Maskinlæring Definert

den ofte siterte og allment aksepterte formelle definisjonen av maskinlæring som angitt Av feltpioneren Tom M. Mitchell er:

et dataprogram sies å lære av erfaring E med hensyn Til noen klasse oppgaver T Og ytelsesmål P Hvis ytelsen ved oppgaver I T, målt ved P, forbedres Med erfaring E

følgende er min mindre formelle måte å beskrive maskinlæring på.Maskinlæring Er en delfelt innen informatikk, men blir ofte også referert til som prediktiv analyse, eller prediktiv modellering. Målet og bruken er å bygge nye og / eller utnytte eksisterende algoritmer for å lære av data, for å bygge generaliserbare modeller som gir nøyaktige spådommer, eller å finne mønstre, spesielt med nye og usynlige lignende data.

Maskinlæringsprosess Oversikt

Tenk deg et datasett som et bord, hvor radene er hver observasjon (aka måling, datapunkt osv.), og kolonnene for hver observasjon representerer funksjonene til den observasjonen og deres verdier.

i begynnelsen av et maskinlæringsprosjekt er et datasett vanligvis delt inn i to eller tre undergrupper. Minimum undergrupper er trening og test datasett, og ofte en valgfri tredje validering datasett opprettes også.

når disse datadelene er opprettet fra det primære datasettet, blir en prediktiv modell eller klassifikator trent ved hjelp av treningsdataene, og deretter bestemmes modellens prediktive nøyaktighet ved hjelp av testdataene.som nevnt bruker maskinlæring algoritmer til automatisk å modellere og finne mønstre i data, vanligvis med mål om å forutsi noen målutgang eller respons. Disse algoritmene er tungt basert på statistikk og matematisk optimalisering.

Optimalisering Er prosessen med å finne den minste eller største verdien (minima eller maxima) av en funksjon, ofte referert til som et tap eller kostnadsfunksjon i minimeringssaken. En av de mest populære optimaliseringsalgoritmer som brukes i maskinlæring kalles gradient descent, og en annen er kjent som den normale ligningen.i et nøtteskall handler maskinlæring om å automatisk lære en svært nøyaktig prediktiv eller klassifiseringsmodell, eller finne ukjente mønstre i data, ved å utnytte læringsalgoritmer og optimaliseringsteknikker.

Typer Læring

de primære kategoriene av maskinlæring er overvåket, uten tilsyn og semi-overvåket læring. Vi vil fokusere på de to første i denne artikkelen.

i overvåket læring inneholder dataene responsvariabelen (etiketten) som modelleres, og målet er at du vil forutsi verdien eller klassen av de usette dataene. Unsupervised learning innebærer å lære fra et datasett som ikke har noen etikett eller responsvariabel, og handler derfor mer om å finne mønstre enn prediksjon.Som jeg er en stor NFL Og Chicago Bears fan, vil laget mitt hjelpe eksemplifisere disse typer læring! Anta at Du har massevis Av Chicago Bears data og statistikk fra da laget ble et chartered medlem AV NFL (1920) til nåtiden (2016).Tenk deg at hver rad av dataene i hovedsak er et lagbilde (eller observasjon) av relevant statistikk for hvert spill siden 1920. Kolonnene i dette tilfellet, og dataene i hver, representerer funksjonene (verdiene) til dataene, og kan inkludere funksjonsdata som spilldato, spillmotstander, sesongvinner, sesongtap, sesongavsluttende divisjonsposisjon, post-season køye (Y/N), post-season statistikk og kanskje statistikk som er spesifikk for de tre fasene i spillet: angrep, forsvar og special teams.

i et overvåket tilfelle kan målet ditt være å bruke disse dataene til å forutsi Om Bears vil vinne eller tape mot et bestemt lag i løpet av en gitt kamp, og på et gitt felt (hjemme eller borte). Husk at alt kan skje i fotball når det gjelder skader før og spilletid, værforhold, dårlige dommersamtaler og så videre, så ta dette bare som et eksempel på en anvendelse av veiledet læring med et ja eller nei-svar (prediksjon), i motsetning til å bestemme sannsynligheten eller sannsynligheten for At ‘Da Bears’ får seieren.Siden du har historiske data om gevinster og tap (svaret) mot bestemte lag på bestemte fotballbaner, kan du utnytte veiledet læring for å lage en modell for å gjøre den prediksjonen.anta nå at målet ditt er å finne mønstre i de historiske dataene og lære noe du ikke allerede vet, eller gruppere teamet på bestemte måter gjennom historien. Hvis du vil gjøre dette, kjører du en maskinlæringsalgoritme uten tilsyn som klynger (grupper) dataene automatisk, og deretter analyserer resultatene for klynging.

med litt analyse kan man oppleve at disse automatisk genererte klyngene tilsynelatende grupperer laget i følgende eksempelkategorier over tid:

  • Sterkt forsvar, svak kjører krenkelser, sterk bestått krenkelser, svake spesielle lag, playoff køye

  • Sterkt forsvar, sterk kjører krenkelser, svak bestått krenkelser, gjennomsnittlig spesielle lag, playoff køye

  • Svakt forsvar, sterk all-around krenkelser, sterke spesielle lag, tapte sluttspillet

  • og så videre

  • t eksempel på ukontrollert klyngeanalyse ville være å finne en potensiell grunn til at de savnet playoffs i den tredje klyngen ovenfor. Kanskje på grunn av det svake forsvaret? Bears har tradisjonelt vært et sterkt defensivt lag, og noen sier at forsvaret vinner mesterskap. Bare si…

    i begge tilfeller kan hver av de ovennevnte klassifikasjonene bli funnet å forholde seg til en viss tidsramme, som man ville forvente. Kanskje laget ble preget av en av disse grupperingene mer enn en gang i hele sin historie, og for ulike tidsperioder.for å karakterisere teamet på denne måten uten maskinlæringsteknikker, må man hente gjennom alle historiske data og statistikk, manuelt finne mønstrene og tildele klassifiseringene (klynger) for hvert år som tar hensyn til alle data, og kompilere informasjonen. Det ville definitivt ikke være en rask og enkel oppgave.Alternativt kan du skrive et eksplisitt kodet program for å hente gjennom dataene, og det må vite hvilken lagstatistikk du skal vurdere, hvilke terskler du skal ta hensyn til for hver stat, og så videre. Det ville ta en betydelig mengde tid å skrive koden, og ulike programmer må skrives for hvert problem som trenger et svar.

    Eller … du kan bruke en maskinlæringsalgoritme for å gjøre alt dette automatisk for deg om noen få sekunder.

    Maskinlæringsmål og Utganger

    maskinlæringsalgoritmer brukes primært for følgende typer utdata:

    • Clustering (Unsupervised)

    • To-klasse og multi-klasse klassifisering (Overvåket)

    • Regresjon: Univariate, Multivariate, etc. (Overvåket)

    • Anomali deteksjon (Uten Tilsyn og Overvåket)

    • Anbefaling systemer (aka anbefaling motor)

    Spesifikke algoritmer som brukes for hver utgang type er omtalt i neste avsnitt, men først, la oss gi en generell oversikt over hver av de ovennevnte utgang, eller problemtyper.som diskutert er clustering en uovervåket teknikk for å oppdage sammensetningen og strukturen til et gitt sett med data. Det er en prosess med klumping av data i klynger for å se hvilke grupperinger som oppstår, om noen. Hver klynge er preget av et inneholdt sett med datapunkter, og en klynge centroid. Cluster centroid er i utgangspunktet gjennomsnittet (gjennomsnittet) av alle datapunktene som klyngen inneholder, på tvers av alle funksjoner.Klassifiseringsproblemer innebærer å plassere et datapunkt (aka observasjon) i en forhåndsdefinert klasse eller kategori. Noen ganger klassifiseringsproblemer bare tildele en klasse til en observasjon, og i andre tilfeller er målet å estimere sannsynlighetene for at en observasjon tilhører hver av de gitte klassene.et godt eksempel på en to-klasse klassifisering er å tildele klassen Spam eller Skinke til en innkommende e-post, hvor skinke bare betyr ‘ikke spam’. Multi-klasse klassifisering betyr bare mer enn to mulige klasser. Så i spam eksempel, kanskje en tredje klasse ville Være ‘Ukjent’.Regresjon Er bare et fancy ord for å si at en modell vil tildele en kontinuerlig verdi (respons) til en dataobservasjon, i motsetning til en diskret klasse. Et godt eksempel på dette ville forutsi sluttprisen På Dow Jones Industrial Average på en gitt dag. Denne verdien kan være et hvilket som helst tall, og vil derfor være en perfekt kandidat for regresjon.Merk at noen ganger brukes ordet regresjon i navnet på en algoritme som faktisk brukes til klassifiseringsproblemer, eller for å forutsi en diskret kategorisk respons (f.eks. spam eller skinke). Et godt eksempel er logistisk regresjon, som forutsier sannsynligheter for en gitt diskret verdi.

    en annen problemtype er anomali deteksjon. Mens vi vil gjerne tro at data er veloppdragen og fornuftig, dessverre er dette ofte ikke tilfelle. Noen ganger er det feilaktige datapunkter på grunn av feil eller feil i måling, eller noen ganger på grunn av svindel. Andre ganger kan det være at uregelmessige målinger indikerer et sviktende stykke maskinvare eller elektronikk.noen ganger er anomalier tegn på et reelt problem og er ikke lett å forklare, for eksempel en produksjonsfeil, og i dette tilfellet gir detektering av anomalier et mål for kvalitetskontroll, samt innsikt i om tiltak for å redusere feil har virket eller ikke. I begge tilfeller er det tider hvor det er gunstig å finne disse uregelmessige verdiene, og visse maskinlæringsalgoritmer kan brukes til å gjøre nettopp det.

    den endelige typen problem er adressert med et anbefalingssystem, eller også kalt anbefalingsmotor. Anbefalingssystemer er en type informasjonsfiltreringssystem, og er ment å gi anbefalinger i mange applikasjoner, inkludert filmer, musikk, bøker, restauranter, artikler, produkter og så videre. De to vanligste tilnærmingene er innholdsbasert og samarbeidsfiltrering.To gode eksempler på populære anbefalingsmotorer er De Som Tilbys Av Netflix og Amazon. Netflix gir anbefalinger for å holde seerne engasjert og levert med mye innhold å se på. Med andre ord, for å holde folk bruker Netflix. De gjør dette med sine » Fordi du så på…»,» Toppvalg For Alex «og» Forslag til deg » anbefalinger.

    Amazon gjør en lignende ting for å øke salget gjennom oppsalg, opprettholde salg gjennom brukerengasjement og så videre. De gjør dette gjennom Sine «Kunder Som Kjøpte Denne Varen Kjøpte også»,» Anbefalinger For Deg, Alex»,» Relatert Til Varer Du Så på «og» Flere Varer Å Vurdere » anbefalinger.

    Maskinlæringsalgoritmer

    Vi har nå dekket maskinlæringsproblemtyper og ønskede utganger. Nå vil vi gi et høyt nivå oversikt over relevante maskinlæringsalgoritmer.

    her er en liste over algoritmer, både overvåket og uten tilsyn, som er svært populære og verdt å vite om på høyt nivå. Merk at noen av disse algoritmene vil bli diskutert i større dybde senere i denne serien.

    Regulær regresjon

    • Enkel og flerline lineær regresjon

    • beslutningstreet eller skogregresjon

    • Kunstige Nevrale nettverk

    • Poisson regresjon

    • nærmeste nabo metoder (f. eks. To-klasse& Multi-klasse Klassifisering

      • Logistisk regresjon og multinomial regresjon

      • Kunstige Nevrale nettverk

      • Beslutningstre , skog og jungler

      • svm (Støttevektormaskin)

      • Perceptron-metoder

      • bayesianske klassifiserere (f. Eks. naive bayes)

      • nærmeste nabo-metoder (f. eks. alle multiclass

      Unsupervised

      • K-betyr clustering

      • Hierarkisk clustering

    • Anomali Deteksjon

      • Støtte vektor maskin (en klasse)

      • pca (principle component analysis)

      merk at en teknikk som ofte brukes til å forbedre modellytelsen , Er Å Kombinere resultatene fra flere modeller. Denne tilnærmingen utnytter det som kalles ensemblemetoder, og tilfeldige skoger er et godt eksempel (diskutert senere).

      Hvis ikke noe annet, er det en god ide å i det minste gjøre deg kjent med navnene på disse populære algoritmene, og ha en grunnleggende ide om hvilken type maskinlæringsproblem og utgang de kan være godt egnet for.

      Sammendrag

      Maskinlæring, prediktiv analyse og andre relaterte emner er veldig spennende og kraftige felt.Selv om disse emnene kan være veldig tekniske, er mange av de involverte konseptene relativt enkle å forstå på høyt nivå. I mange tilfeller er en enkel forståelse alt som kreves for å ha diskusjoner basert på maskinlæringsproblemer, prosjekter, teknikker og så videre.del to av denne serien vil gi en introduksjon til modellytelse, dekke maskinlæringsprosessen og diskutere modellvalg og tilhørende avvik i detalj.

      Følg med!

      Om Forfatteren

      Alex er grunnleggeren Av INNOARCHITECH Og Innoarchitech Institute, samt forfatteren AV AI For People and Business publisert Av O ‘ Reilly Media.