Articles

Ismerkedés a megerősítési tanulással Markov döntési folyamaton keresztül

szeptember 10, 2021 by admin

Ez a cikk a Data Science Blogathon részeként jelent meg.

Bevezetés
megerősítés tanulási megfogalmazás Markov döntési folyamaton (MDP) keresztül
értsük meg ezt egy példa segítségével
A módszer korlátai
további olvasmányok

Bevezetés

a megerősítő tanulás (RL) egy olyan tanulási módszertan, amellyel a tanuló megtanulja, hogy interaktív környezetben viselkedjen saját cselekedeteivel és cselekedeteiért járó jutalmakkal. A tanuló, akit gyakran ügynöknek hívnak, felfedezi, hogy mely cselekedetek adják a maximális jutalmat, kihasználva és feltárva őket.

algoritmus megerősítése

kulcskérdés – miben különbözik az RL a felügyelt és a felügyelet nélküli tanulástól?

a különbség az interakció szempontjából jön létre. A felügyelt tanulás közvetlenül megmondja a felhasználónak/ügynöknek, hogy milyen műveletet kell végrehajtania a jutalom maximalizálása érdekében a címkézett példák képzési adatkészletének felhasználásával. Másrészt az RL közvetlenül lehetővé teszi az ügynök számára, hogy kihasználja a jutalmakat (pozitív és negatív), hogy kiválassza a műveletét. Így különbözik a felügyelet nélküli tanulástól is, mert a felügyelet nélküli tanulás a címkézetlen adatok gyűjteményében rejtett struktúra megtalálásáról szól.

megerősítés tanulási megfogalmazás Markov döntési folyamaton (MDP) keresztül

a megerősítési tanulási probléma alapvető elemei a következők:

környezet: a külvilág, amellyel az ügynök kölcsönhatásba lép
állapot: az ügynök jelenlegi helyzete
jutalom: numerikus visszacsatolási jel a környezetből
politika: módszer az ügynök állapotának cselekvésekhez való leképezésére. A házirend egy adott állapotú művelet kiválasztására szolgál
érték: jövőbeli jutalom (késleltetett jutalom), amelyet egy ügynök egy adott állapotú művelet végrehajtásával kapna

Markov döntési folyamat (MDP) egy matematikai keretrendszer a megerősítő tanulás környezetének leírására. Az alábbi ábra az ügynök-környezet kölcsönhatást mutatja az MDP-ben:

pontosabban, az Ágens és a környezet kölcsönhatásba lép minden egyes különálló időpontban, t = 0, 1, 2, 3…At minden alkalommal lépés, az ügynök információt kap a környezeti állapotról St. A környezeti állapot alapján t pillanatban, az ügynök egy műveletet választ a. A következő pillanatban az ügynök numerikus jutalomjelet is kap Rt + 1. Ez tehát olyan szekvenciát eredményez, mint az S0, A0, R1, S1, A1, R2…

Az Rt és St véletlen változók jól definiált diszkrét valószínűségi eloszlásokkal rendelkeznek. Ezek a valószínűségi eloszlások csak az előző állapottól és a Markov-tulajdonságon alapuló cselekvéstől függenek. Legyen S, A és R az állapotok, cselekedetek és jutalmak halmaza. Ezután a valószínűsége, hogy az értékek St, Rt és a figyelembe értékek S’, r és a korábbi állapot s adja meg,

a függvény p szabályozza a dinamika a folyamat.

értsük meg ezt egy példa segítségével

most beszéljünk meg egy egyszerű példát, ahol az RL felhasználható egy fűtési folyamat vezérlési stratégiájának végrehajtására.

az ötlet egy szoba hőmérsékletének szabályozása a megadott hőmérsékleti határokon belül. A helyiség hőmérsékletét olyan külső tényezők befolyásolják, mint a külső hőmérséklet, a keletkező belső hő stb.

az ágens ebben az esetben a fűtőtekercs, amelynek el kell döntenie a helyiség belső hőmérsékletének szabályozásához szükséges hőmennyiséget a környezettel való kölcsönhatás révén, és biztosítania kell, hogy a helyiség belső hőmérséklete a megadott tartományon belül legyen. A jutalom ebben az esetben alapvetően az optimális hőmérsékleti határértékektől való eltérésért fizetett költség.

az ügynök művelete a dinamikus terhelés. Ezt a dinamikus terhelést ezután betáplálják a helyiségszimulátorba, amely alapvetően egy hőátadási modell, amely kiszámítja a hőmérsékletet a dinamikus terhelés alapján. Tehát ebben az esetben a környezet a szimulációs modell. Az állami változó St tartalmazza a jelen, valamint a jövőbeli jutalmak.

a következő blokkdiagram elmagyarázza, hogyan használható az MDP a helyiség belső hőmérsékletének szabályozására:

A módszer korlátai

megerősítési tanulás tanul az államtól. Az állam a politika kialakításának bemenete. Ezért az állami bemeneteket helyesen kell megadni. Ahogy láttuk, több változó is létezik, és a dimenzió hatalmas. Tehát nehéz lenne valódi fizikai rendszerekhez használni!

további olvasmányok

Ha többet szeretne tudni az RL-ről, a következő anyagok hasznosak lehetnek:

megerősítő tanulás: Richard bevezetése.S. Sutton és Andrew.G. Barto: http://incompleteideas.net/book/the-book-2nd.html
Videó előadások David Silver elérhető a YouTube-on
https://gym.openai.com/ egy eszközkészlet a további feltáráshoz

ezt a cikket a mobilalkalmazásunkon is elolvashatja Szerezd meg a Google Playen

Company Pride

Ismerkedés a megerősítési tanulással Markov döntési folyamaton keresztül

Bevezetés

megerősítés tanulási megfogalmazás Markov döntési folyamaton (MDP) keresztül

értsük meg ezt egy példa segítségével

A módszer korlátai

további olvasmányok

Vélemény, hozzászólás? Kilépés a válaszból

Archívum

Meta