AI Aplikovaná Strategie a Poradenství | InnoArchiTech
Články v Této Sérii
-
Přehled, cíle učení, typy a algoritmy
-
výběr Dat, přípravu a modelování
-
Model hodnocení, ověření, složitosti a zlepšení
-
Model výkon a analýza chyb
-
učení bez učitele, souvisejících oborech, a strojové učení v praxi,
Úvod
Vítejte! Toto je první článek pětidílné série o strojovém učení.
Strojové učení je velmi žhavé téma pro mnoho klíčových důvodů, a proto, že poskytuje možnost automaticky získat hluboký vhled, poznat neznámé vzory, a vytvářet vysoce výkonné prediktivní modely od data, to vše bez nutnosti explicitní programovací instrukce.
Navzdory popularitě předmětu, učení stroje je pravda, účel a podrobnosti nejsou známy, kromě velmi technické, přátelé a/nebo dat vědci.
Tato série je určena k být komplexní, in-hloubkové průvodce strojového učení, a měla by být užitečné pro každého, od obchodní vedení strojového učení lékařů. Pokrývá prakticky všechny aspekty strojového učení (a mnoha souvisejících oblastech) na vysoké úrovni, a měly by sloužit jako dostatečný zavedení nebo odkazem na terminologii, pojmy, nástroje, úvahy a techniky z oboru.
Tato vysoká úroveň porozumění je rozhodující, jestli někdy zapojeni do rozhodovacího procesu v okolní použití strojového učení, jak to může pomoci dosáhnout obchodní a cílů projektu, které strojového učení technik pro použití, možných úskalí, a jak interpretovat výsledky.
Všimněte si, že většina témat v této sérii se také přímo vztahuje na oblasti, jako jsou prediktivní analýzy, dolování dat, statistické učení, umělé inteligence, a tak dále.
Pratelné Učení Definovanými
oft citoval a široce přijímané formální definice strojového učení jak uvedl pole pioneer Tom M. Mitchell je:
počítačový program, je řekl, aby učit se ze zkušeností E s ohledem na některé třídy úloh T a výkon opatření P, pokud jeho výkon na úkoly v T, měřeno P, zvyšuje se zkušeností E.
následující je můj méně formální způsob, jak popsat strojové učení.
strojové učení je subpole informatiky, ale často se také označuje jako prediktivní analytika nebo prediktivní modelování. Jeho cíle a využití je vybudovat nové a/nebo využití stávajících algoritmů se učit z dat, za účelem vybudování zobecnit modely, které poskytují přesné předpovědi, nebo najít vzory, zejména s novými a neviditelné podobné údaje.
Pratelné Proces Učení Přehled
Představte si, že dataset jako tabulku, kde řádky jsou jednotlivé pozorování (aka měření, datový bod, atd.), a sloupce pro každé pozorování představují vlastnosti, které pozorování a jejich hodnoty.
na začátku projektu strojového učení je datová sada obvykle rozdělena na dvě nebo tři podmnožiny. Minimální podmnožiny jsou tréninkové a testovací datové sady, a často je také vytvořen volitelný třetí ověřovací datový soubor.
jakmile jsou tyto podmnožiny dat vytvořeny z primárního datového souboru, je pomocí tréninkových dat vyškolen prediktivní model nebo klasifikátor a poté je pomocí testovacích dat určena prediktivní přesnost modelu.
Jak již bylo zmíněno, strojové učení využívá algoritmy automaticky model a najít vzory v datech, obvykle s cílem předpovídat nějaký cíl výstupu nebo reakci. Tyto algoritmy jsou silně založeny na statistikách a matematické optimalizaci.
Optimalizace je proces hledání nejmenší nebo největší hodnoty (minima nebo maxima) funkce, často odkazoval se na jako ztráta, nebo nákladové funkce v případě minimalizace. Jeden z nejpopulárnějších optimalizačních algoritmů používaných ve strojovém učení se nazývá gradient descent a další je známý jako normální rovnice.
Ve zkratce, strojové učení je především o učení automaticky vysoce přesné prediktivní nebo klasifikátor model, nebo najít neznámé vzory v datech, díky využití algoritmů a optimalizačních technik.
typy učení
primární kategorie strojového učení jsou učení pod dohledem, bez dozoru a částečně pod dohledem. V tomto článku se zaměříme na první dva.
v supervizovaném učení obsahují data modelovanou proměnnou odezvy (štítek) as cílem je předpovědět hodnotu nebo třídu neviditelných dat. Učení bez dozoru zahrnuje učení se z datové sady, která nemá proměnnou štítků ani odpovědí, a je tedy spíše o hledání vzorců než o predikci.
protože jsem obrovský fanoušek NFL a Chicago Bears, můj tým pomůže ilustrovat tyto typy učení! Předpokládejme, že máte tunu dat a statistik Chicago Bears z doby, kdy se tým stal chartered členem NFL (1920) až do současnosti (2016).
Představte si, že každý řádek dat je v podstatě tým snímek (nebo pozorování) příslušné statistiky pro každou hru od roku 1920. Sloupce, v tomto případě, a údaje obsažené v každé, představují vlastnosti (hodnoty) data, a může zahrnovat funkce, data, jako jsou herní data, hry soupeře, vítězství v sezóně, sezóna ztráty, sezóna končí divizní pozice, post-sezóna lůžko (Y/N), post-sezóna statistiky, a možná, statistiky, specifické pro tři fáze hry: útok, obrana a speciální týmy.
ve sledovaném případě může být vaším cílem použít tato data k předpovědi, zda medvědi během dané hry a na daném poli (doma nebo venku) vyhrají nebo prohrají proti určitému týmu. Mějte na paměti, že se může stát cokoliv ve fotbale, pokud jde o pre a hra-time zranění, počasí, špatný rozhodčí hovory, a tak dále, tak se to prostě jako příklad aplikace učení s učitelem s ano nebo ne odpověď (predikce), jako protiklad k určení pravděpodobnosti nebo pravděpodobnost ‚Da Medvědů získání vítězství.
Vzhledem k tomu, máte historická data z výhry a ztráty (reakce) proti některým týmům v určitých fotbalových hřišť, můžete využít učení s učitelem vytvořit model, aby se tato předpověď.
nyní předpokládejme, že vaším cílem je najít vzory v historických datech a naučit se něco, co ještě nevíte, nebo seskupit tým určitými způsoby v celé historii. Chcete-li tak učinit, spusťte algoritmus strojového učení bez dozoru, který automaticky shlukuje (seskupuje) data, a poté analyzujte výsledky shlukování.
S trochou analýzy, jeden může zjistit, že tyto automaticky generované shluky zdánlivě skupiny týmu do následující příklad kategorie v průběhu času:
-
Silná obrana, slabá běží urážky, silný procházející přestupku, slabý speciálních týmů, play-off kotviště
-
Silnou obranu, silné běží urážky, slabý procházející přestupku, průměrná speciálních týmů, play-off kotviště
-
Slabá obrana, silné všichni-kolem urážky, silný speciální týmy, minul play-off,
-
a tak dále
příklad bez dozoru shlukové analýzy by bylo najít potenciální důvod, proč se minul play-off ve třetím clusteru výše. Možná kvůli slabé obraně? Medvědi jsou tradičně silným obranným týmem, a někteří říkají, že obrana vyhrává mistrovství. Jen říkám …
v obou případech může být zjištěno, že každá z výše uvedených klasifikací souvisí s určitým časovým rámcem, který by člověk očekával. Možná, že tým byl charakterizován jedním z těchto seskupení více než jednou v celé své historii a pro různá časová období.
charakterizovat tým v této cestě, aniž techniky strojového učení, jeden by musel nalít přes všechny historické údaje a statistiky, ručně najít vzory a přiřadit klasifikace (klastrů) za každý rok, přičemž všechny údaje v úvahu, a shromažďovat informace. To by rozhodně nebyl rychlý a snadný úkol.
Případně můžete napsat explicitně kódovaný program nalít přes data, a že musí vědět, co tým statistiky, aby zvážila, jaké prahové hodnoty vzít v úvahu pro každý stat, a tak dále. Psaní kódu by trvalo značné množství času a pro každý problém, který potřebuje odpověď, by bylo třeba napsat různé programy.
nebo … můžete použít algoritmus strojového učení, který to vše za vás provede automaticky během několika sekund.
Pratelné Učení Cíle a Výstupy
Strojového učení algoritmy se používají především pro následující typy výstupu:
-
Clustering (bez Dozoru)
-
Dvě třídy a multi-class classification (s Dohledem)
-
Regrese: Jednorozměrné, Vícerozměrné, atd. (Pod dohledem)
-
detekce Anomálií (bez dohledu a pod Dohledem)
-
Doporučení systémy (aka doporučení motor)
Specifické algoritmy, které jsou použity pro každý typ výstupu jsou popsány v další části, ale nejprve, pojďme dát obecný přehled o každé z výše uvedených výstupu, nebo problémové typy.
jak bylo diskutováno, shlukování je bez dozoru technika pro objevování složení a struktury dané sady dat. Je to proces shlukování dat do klastrů, aby se zjistilo, jaké seskupení se objeví, pokud existují. Každý cluster je charakterizován obsaženou sadou datových bodů a centroidem clusteru. Centroid clusteru je v podstatě průměr (průměr) všech datových bodů, které cluster obsahuje, napříč všemi funkcemi.
klasifikační problémy zahrnují umístění datového bodu (aka pozorování) do předem definované třídy nebo kategorie. Někdy klasifikační problémy jednoduše přiřadí třídu pozorování a v jiných případech je cílem odhadnout pravděpodobnost, že pozorování patří do každé z daných tříd.
skvělým příkladem klasifikace dvou tříd je přiřazení třídy spamu nebo šunky příchozímu e-mailu, kde šunka znamená „ne spam“. Vícetřídová klasifikace znamená pouze více než dvě možné třídy. Takže v příkladu spamu by možná třetí třída byla „neznámá“.
regrese je jen efektní slovo, které říká, že model přiřadí spojitou hodnotu (odpověď) pozorování dat, na rozdíl od diskrétní třídy. Skvělým příkladem by bylo předpovídání závěrečné ceny průmyslového průměru Dow Jones v daný den. Tato hodnota by mohla být libovolným číslem, a proto by byla dokonalým kandidátem na regresi.
Všimněte si, že někdy se slovo regrese používá ve jménu algoritmu, který se skutečně používá pro klasifikační problémy, nebo k předpovědi diskrétní kategorické odpovědi (např. spam nebo ham). Dobrým příkladem je logistická regrese, která předpovídá pravděpodobnosti dané diskrétní hodnoty.
dalším typem problému je detekce anomálií. I když bychom si rádi mysleli, že data jsou dobře vychovaná a rozumná, bohužel tomu tak často není. Někdy existují chybné datové body kvůli poruchám nebo chybám v měření nebo někdy kvůli podvodu. Jindy by se mohlo stát, že anomální měření svědčí o selhání hardwaru nebo elektroniky.
Někdy anomálie jsou orientační skutečný problém, a nejsou snadno vysvětlit jako výrobní vadu, a v tomto případě, detekci anomálií, stanoví opatření, řízení kvality, stejně jako vhled do toho, zda opatření přijatá ke snížení vady pracoval nebo ne. V obou případech jsou chvíle, kdy je prospěšné najít tyto anomální hodnoty, a k tomu lze použít určité algoritmy strojového učení.
konečný typ problému je řešen systémem doporučení, nebo se také nazývá motor doporučení. Doporučení systémy jsou typ informací, systém filtrování, a jsou určeny, aby se doporučení v mnoha aplikacích, včetně filmů, hudby, knih, restaurace, články, produkty a tak dále. Dva nejběžnější přístupy jsou filtrování založené na obsahu a spolupráce.
dva skvělé příklady populárních doporučovacích motorů jsou ty, které nabízejí Netflix a Amazon. Netflix vydává doporučení, aby udržel diváky v záběru a dodával jim dostatek obsahu ke sledování. Jinými slovy, aby lidé používali Netflix. Dělají to se svými doporučeními “ protože jste sledovali…“,“ Nejlepší tipy pro Alexe „a“ návrhy pro vás“.
Amazon dělá podobnou věc, aby zvýšil prodej prostřednictvím up-selling, udržoval prodej prostřednictvím zapojení uživatelů atd. Dělají to prostřednictvím svých“ zákazníků, kteří si koupili tuto položku také koupili“,“ doporučení pro vás, Alex“,“ související s položkami, které jste si prohlíželi“, a“ další položky, které je třeba zvážit “ doporučení.
algoritmy strojového učení
nyní jsme se zabývali typy problémů strojového učení a požadovanými výstupy. Nyní poskytneme přehled o relevantních algoritmech strojového učení na vysoké úrovni.
zde je seznam algoritmů, pod dohledem i bez dozoru, které jsou velmi populární a stojí za to vědět na vysoké úrovni. Všimněte si, že některé z těchto algoritmů budou podrobněji diskutovány později v této sérii.
pod Dohledem Regrese
-
Jednoduché a vícenásobné lineární regrese
-
Rozhodovací strom, nebo les regrese
-
Umělé Neuronové sítě,
-
Ordinální regrese
-
Poissonova regrese
-
Nejbližší soused metody (např.,, k-NN nebo k-Nejbližších Sousedů)
pod Dohledem Dvou-class & Multi-třídy Klasifikace
-
Logistické regrese a multinomické regrese
-
Umělé Neuronové sítě,
-
Rozhodovací strom, les, a džungle
-
SVM (support vector machine),
-
Perceptron metody,
-
Bayesovské klasifikátory (např. Naivní Bayes)
-
Nejbližší soused metody (např.,, k-NN nebo k-Nejbližších Sousedů)
-
Jeden proti všem multiclass
Dozoru
-
K-means clustering
-
Hierarchical clustering
Detekce Anomálií
-
Support vector machine (jedna třída).
-
PCA (Princip component analysis)
Všimněte si, že technika, která je často používán ke zlepšení modelu, výkon je kombinovat výsledky z více modelů. Tento přístup využívá to, co je známé jako metody souboru, a náhodné lesy jsou skvělým příkladem (diskutováno později).
Pokud nic jiného, je dobré se alespoň seznámit s názvy těchto populárních algoritmů a mít základní představu o typu problému strojového učení a výstupu, pro který mohou být vhodné.
shrnutí
strojové učení, prediktivní analytika a další související témata jsou velmi vzrušující a výkonná pole.
i když tato témata mohou být velmi technická, mnoho konceptů je relativně snadno pochopitelných na vysoké úrovni. V mnoha případech, jednoduché porozumění je vše, co je zapotřebí k diskusi založené na problémech strojového učení, projekty, techniky, a tak dále.
druhá část této série poskytne úvod do výkonu modelu, pokryje proces strojového učení a podrobně diskutuje výběr modelu a související kompromisy.
zůstaňte naladěni!
O Autorovi
Alex je zakladatelem InnoArchiTech a InnoArchiTech Ústavu, stejně jako autor AI pro Lidi a Podnikání, publikoval O ‚ reilly Media.