Articles

seznámení s Výztuží Učení prostřednictvím Markovovy Rozhodovací Proces

Tento článek byl publikován jako součást vědeckých Dat Blogathon.

Úvod

Výztuž Učení (RL) je učení metodiky, pomocí níž se žák učí se chovat v interaktivním prostředí s využitím vlastních akcí a odměny pro své akce. Student, často nazývaný agent, zjistí, které akce poskytují maximální odměnu tím, že je využijí a prozkoumají.

posílit algoritmus

klíčovou otázkou je-jak se RL liší od učení pod dohledem a bez dozoru?

rozdíl je v perspektivě interakce. Supervised learning přímo řekne uživateli / agentovi, jakou akci musí provést, aby maximalizoval odměnu pomocí tréninkové datové sady označených příkladů. Na druhou stranu RL přímo umožňuje agentovi využívat odměny (pozitivní a negativní), které si vybere svou akci. Liší se tedy od učení bez dozoru, protože učení bez dozoru je především o hledání struktury skryté ve sbírkách neoznačených dat.

Posílení Učení, Formulace pomocí Markovovy Rozhodovací Proces (MDP)

základní prvky výztuže učení problém, jsou:

  • životní Prostředí: vnější svět, s nímž agent interaguje
  • Stav: Aktuální situace agent
  • Odměna: Numerické signál zpětné vazby z prostředí,
  • Podmínky: Metoda na mapě zástupce státu činy. Politika slouží k výběru akce v daném stavu
  • Hodnota: Budoucí odměnu (odložená odměna), že agent by dostávat tím, že se akce v daném stavu

Markovovy Rozhodovací Proces (MDP) je matematický rámec k popisu prostředí, v posílení učení. Následující obrázek ukazuje interakci agent-prostředí v MDP:

výztuže učení markov

přesněji řečeno, agent a prostředí, komunikovat v každém diskrétním časovém kroku, t = 0, 1, 2, 3…Na každém kroku, agent získá informace o prostředí státu Svatého Založené na prostředí státu, v okamžiku t, agent vybere akci. V následujícím okamžiku agent také obdrží číselný signál odměny Rt+1. To tedy vede k sekvenci jako S0, A0, R1, S1, A1, R2,…

náhodné proměnné Rt a St mají dobře definované diskrétní rozdělení pravděpodobnosti. Tato rozdělení pravděpodobnosti závisí pouze na předchozím stavu a akci na základě Markovovy vlastnosti. Nechť S, A A R jsou sady stavů, akcí a odměn. Pak pravděpodobnost, že hodnoty St, Rt, a V přijímání hodnot s‘, r a s předchozí stav s je dána tím,

výztuže učení markov - vzorec

funkce p ovládací prvky dynamiky procesu.

pojďme to pochopit pomocí příkladu

pojďme nyní diskutovat o jednoduchém příkladu, kde lze RL použít k implementaci řídicí strategie pro proces ohřevu.

cílem je řídit teplotu místnosti v rámci stanovených teplotních limitů. Teplota uvnitř místnosti je ovlivněna vnějšími faktory, jako je venkovní teplota, generované vnitřní teplo atd.

agent, v tomto případě, je ohřívací cívka, která má rozhodnout o množství tepla potřebné k regulaci teploty uvnitř místnosti tím, interakci s prostředím a zajistit, že teplota uvnitř místnosti je ve specifikovaném rozsahu. Odměnou jsou v tomto případě v podstatě náklady zaplacené za odchylku od optimálních teplotních limitů.

akce pro agenta je dynamické zatížení. Toto dynamické zatížení je pak přiváděno do simulátoru místnosti, což je v podstatě model přenosu tepla, který vypočítává teplotu na základě dynamického zatížení. V tomto případě je tedy prostředí simulačním modelem. Státní proměnná St obsahuje současné i budoucí odměny.

následující blokové schéma vysvětluje, jak MDP mohou být použity pro řízení teploty v místnosti:

příklad

Omezení této Metody

Výztuž učení učí od státu. Stát je vstup pro tvorbu politiky. Proto by měly být správně uvedeny státní vstupy. Také, jak jsme viděli, existuje více proměnných a dimenzionalita je obrovská. Takže jeho použití pro skutečné fyzické systémy by bylo obtížné!

Další Čtení

vědět více o RL, tyto materiály by mohly být užitečné:

  • Posílení Učení: Úvod Richard.S. Sutton a Andrew.G. Barto: http://incompleteideas.net/book/the-book-2nd.html
  • Video Přednášky Davida Stříbrná k dispozici na YouTube
  • https://gym.openai.com/ je sada nástrojů pro další výzkum

můžete Si také přečíst tento článek na naší Mobilní APLIKACE Získat ji na Google Play