Az EITC/AI/ARL Advanced Reinforcement Learning a DeepMind mesterséges intelligenciában való megerősítő tanulási megközelítésére vonatkozó európai IT-tanúsítási program.
Az EITC/AI/ARL Advanced Reforcement Learning tananyaga a megerősítő tanulási technikák elméleti szempontjaira és gyakorlati készségeire összpontosít a DeepMind szemszögéből, az alábbi struktúrában szervezett, átfogó videodidaktikai tartalmat foglal magában, amely referenciaként szolgál ehhez az EITC-tanúsítványhoz.
A megerősítő tanulás (RL) a gépi tanulás területe, amely azzal foglalkozik, hogy az intelligens ügynököknek miként kellene cselekedniük egy környezetben a kumulatív jutalom fogalmának maximalizálása érdekében. A megerősítő tanulás a gépi tanulás három alapvető paradigmájának egyike, a felügyelt tanulás és a felügyelet nélküli tanulás mellett.
A megerősítő tanulás abban különbözik a felügyelt tanulástól, hogy nem kell címkézett bemeneti/kimeneti párokat bemutatni, és nem kell optimálisan alacsonyabb szintű intézkedéseket kifejezetten korrigálni. Ehelyett az egyensúly megtalálása a feltérképezés (feltérképezetlen terület) és a kiaknázás (a jelenlegi ismeretek) között.
A környezet jellemzően Markov-döntési folyamat (MDP) formájában van megadva, mert sok megerősítő tanulási algoritmus ehhez a kontextushoz dinamikus programozási technikákat alkalmaz. A fő különbség a klasszikus dinamikus programozási módszerek és a megerősítő tanulási algoritmusok között az, hogy az utóbbiak nem feltételezik az MDP pontos matematikai modelljének ismeretét, és olyan nagy MDP-ket céloznak meg, ahol a pontos módszerek megvalósíthatatlanná válnak.
Általánossága miatt a megerősítő tanulást számos tudományterületen tanulmányozzák, így például a játékelméletben, a kontrollelméletben, a műveletek kutatásában, az információelméletben, a szimuláció alapú optimalizálásban, a több ügynököt tartalmazó rendszerekben, a raj intelligenciájában és a statisztikákban. Az operációs kutatási és kontroll irodalomban a megerősítéstanulást közelítő dinamikus programozásnak vagy neuro-dinamikus programozásnak nevezik. A megerősítő tanulás iránti érdeklődéssel járó problémákat az optimális kontroll elméletében is tanulmányozták, amely főleg az optimális megoldások és algoritmusok létezésével és jellemzésével, pontos kiszámításuk algoritmusaival foglalkozik, kevésbé pedig a tanulással vagy a közelítéssel, különösen a a környezet matematikai modellje. A közgazdaságtanban és a játékelméletben megerősítő tanulással lehet elmagyarázni, hogyan alakulhat ki az egyensúly korlátozott racionalitás mellett.
Az alapvető megerősítést Markov-döntési folyamatként (MDP) modellezik. A matematikában a Markov-döntési folyamat (MDP) diszkrét idejű sztochasztikus szabályozási folyamat. Matematikai keretet biztosít a döntéshozatal modellezéséhez olyan helyzetekben, amikor az eredmények részben véletlenszerűek, részben pedig egy döntéshozó ellenőrzése alatt állnak. Az MDP-k hasznosak a dinamikus programozással megoldott optimalizálási problémák tanulmányozásához. Az MDP-k legalább az 1950-es években ismertek voltak. A Markov döntési folyamataival kapcsolatos kutatások alapja Ronald Howard 1960-as könyve, a Dinamikus programozás és a Markov-folyamatok. Számos tudományterületen használják, beleértve a robotikát, az automatikus vezérlést, a közgazdaságtant és a gyártást. Az MDP-k neve Andrey Markov orosz matematikustól származik, mivel ezek Markov-láncok meghosszabbítását jelentik.
Minden egyes lépésben a folyamat valamilyen S állapotban van, és a döntéshozó választhat bármelyik a műveletet, amely elérhető az S állapotban. A folyamat a következő időpontban válaszol, véletlenszerűen lépve át egy új S 'állapotba, és megadva a döntéshozónak megfelelő jutalom Ra (S, S ').
Annak valószínűségét, hogy a folyamat új S 'állapotba kerül, a választott a művelet befolyásolja. Pontosabban a Pa (S, S ') állapotátmeneti függvény adja. Így a következő S 'állapot az S aktuális állapottól és a döntéshozó a. De ha S és a, feltételesen független az összes korábbi állapottól és cselekedettől. Más szavakkal, az MDP állapotátmenetei kielégítik a Markov tulajdonságot.
A Markov-döntési folyamatok a Markov-láncok kiterjesztését jelentik; a különbség a cselekvések (választási lehetőségek) és a jutalmak (motiváció adása) hozzáadása. Ezzel szemben, ha minden államhoz csak egy művelet létezik (pl. „Várakozás”), és minden jutalom megegyezik (pl. „Nulla”), akkor egy Markov-döntési folyamat Markov-lánccá redukálódik.
A megerősítő tanuló diszkrét időbeli lépésekben lép kölcsönhatásba a környezetével. Az ügynök minden t időpontban megkapja az S (t) aktuális állapotot és r (t) jutalmat. Ezután a rendelkezésre álló műveletek közül kiválaszt egy a (t) műveletet, amelyet később elküld a környezetnek. A környezet új S (t + 1) állapotba költözik, és meghatározzák az átmenethez kapcsolódó r (t + 1) jutalmat. A megerősítő tanulási ügynök célja olyan politika elsajátítása, amely maximalizálja a várható összesített jutalmat.
A probléma MDP-ként történő megfogalmazása feltételezi, hogy az ügynök közvetlenül figyeli az aktuális környezeti állapotot. Ebben az esetben állítólag a probléma teljes megfigyelhetőségű. Ha az ügynök csak az államok egy részhalmazához fér hozzá, vagy ha a megfigyelt állapotokat zaj károsítja, akkor azt mondják, hogy az ügynök részleges megfigyelhetőségű, és formálisan a problémát részben megfigyelhető Markov-döntési folyamatként kell megfogalmazni. Mindkét esetben korlátozható az ügynök rendelkezésére álló műveletek halmaza. Például a számlaegyenleg állapota pozitívra korlátozható; ha az állapot aktuális értéke 3, és az állapotátmenet megkísérli 4-vel csökkenteni az értéket, akkor az átmenet nem engedélyezett.
Ha az ügynök teljesítményét összehasonlítjuk az optimálisan működő szerével, a teljesítménybeli különbség a megbánás fogalmát kelti. Annak érdekében, hogy közel optimálisan járjon el, az ügynöknek gondolkodnia kell cselekedeteinek hosszú távú következményeiről (azaz maximalizálnia kell a jövedelem jövedelmét), bár az ezzel járó azonnali jutalom negatív lehet.
Így a megerősítő tanulás különösen jól alkalmazható olyan problémákra, amelyek hosszú távú vagy rövid távú jutalom-kompromisszumot tartalmaznak. Sikeresen alkalmazták különböző problémákra, ideértve a robotok vezérlését, a liftek ütemezését, a telekommunikációt, a backgammonokat, az ellenőröket és a Go (AlphaGo) problémákat.
Két elem teszi erőteljesé a megerősítő tanulást: minták használata a teljesítmény optimalizálásához és a funkció-közelítés használata a nagy környezetek kezeléséhez. Ennek a két kulcskomponensnek köszönhetően az erősítő tanulás nagy környezetekben alkalmazható az alábbi helyzetekben:
- A környezet modellje ismert, de analitikai megoldás nem áll rendelkezésre.
- Csak a környezet szimulációs modelljét adják meg (a szimuláció alapú optimalizálás tárgya).
- A környezettel kapcsolatos információk gyűjtésének egyetlen módja a kölcsönhatás.
Ezen problémák közül az első kettő tervezési problémának tekinthető (mivel létezik valamilyen modell-forma), míg az utolsó valódi tanulási problémának tekinthető. A megerősítő tanulás azonban mindkét tervezési problémát gépi tanulási problémává alakítja.
A feltárás és a kizsákmányolás közötti kompromisszumot alaposabban a többkarú rablóprobléma és a véges állapotú űr MDP-k tanulmányozták Burnetasban és Katehakisban (1997).
A megerősítéshez szükséges okos feltárási mechanizmusokra van szükség; a véletlenszerűen kiválasztott cselekvések, becsült valószínűségi eloszlás nélkül, gyenge teljesítményt mutatnak. A (kis) véges Markov-döntési folyamatok esete viszonylag jól ismert. Azonban az algoritmusok hiánya miatt, amelyek jól skálázódnak az állapotok számával (vagy a végtelen állapotú terekkel kapcsolatos problémákra skálázódnak), az egyszerű feltárási módszerek a legpraktikusabbak.
Még akkor is, ha a feltárás kérdését figyelmen kívül hagyják, és még akkor is, ha az állam megfigyelhető volt, a probléma továbbra is a múlt tapasztalatainak felhasználásával derül ki, mely cselekedetek vezetnek magasabb kumulatív jutalomhoz.
A tanúsítási tanterv részletes megismeréséhez bővítheti és elemezheti az alábbi táblázatot.
Az EITC/AI/ARL Advanced Reforcement Learning Certification Curriculum nyílt hozzáférésű didaktikai anyagokra hivatkozik videó formában. A tanulási folyamat lépésről lépésre tagolódik (programok -> órák -> témák), amely lefedi a megfelelő tantervi részeket. Korlátlan szaktanácsadás is biztosított domain szakértőkkel.
A tanúsítási eljárás részleteiért ellenőrizze Hogyan működik.
Tantervi referencia-források
Emberi szintű kontroll a Deep Reinforcement Learning kiadványon keresztül
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Nyílt hozzáférésű tanfolyam mélymegerősítő tanulásról az UC Berkeley-n
http://rail.eecs.berkeley.edu/deeprlcourse/
Az RL a K karfás bandita problémára vonatkozott a Manifold.ai oldalról
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Töltse le a teljes offline öntanuló előkészítő anyagokat az EITC/AI/ARL Advanced Reforcement Learning programhoz PDF-fájlban
EITC/AI/ARL előkészítő anyagok – standard változat
EITC/AI/ARL előkészítő anyagok – kibővített változat felülvizsgálati kérdésekkel