A gépi tanulás területe számos módszert és paradigmát ölel fel, amelyek mindegyike különböző típusú adatokhoz és problémákhoz igazodik. E paradigmák közül a felügyelt és a felügyelet nélküli tanulás a két legalapvetőbb.
A felügyelt tanulás magában foglalja egy modell betanítását egy címkézett adatkészleten, ahol a bemeneti adatok párosítva vannak a megfelelő kimenettel. A modell megtanulja leképezni a bemeneteket a kimenetekre úgy, hogy minimalizálja az előrejelzései és a tényleges kimenetek közötti hibát. A felügyelet nélküli tanulás viszont címkézetlen adatokkal foglalkozik, ahol a cél az adatpontok halmazán belüli természetes struktúra kikövetkeztetése.
Létezik egyfajta tanulás, amely magában foglalja mind a felügyelt, mind a nem felügyelt tanulási technikákat, gyakran félig felügyelt tanulásnak nevezik. Ez a megközelítés a címkézett és a címkézetlen adatokat egyaránt felhasználja a képzési folyamat során. A félig felügyelt tanulás mögött az az indoklás áll, hogy a címkézetlen adatok kis mennyiségű címkézett adattal együtt használva jelentős javulást eredményezhetnek a tanulási pontosságban. Ez különösen hasznos olyan esetekben, amikor a címkézett adatok beszerzése kevés vagy költséges, de a címkézetlen adatok bőségesek és könnyen gyűjthetők.
A félig felügyelt tanulás azon a feltevésen alapul, hogy a címkézetlen adatok mögöttes szerkezete értékes információkat nyújthat, amelyek kiegészítik a címkézett adatokat. Ez a feltevés többféle formát ölthet, például klaszter-feltevésben, sokrétű feltételezésben vagy kis sűrűségű elválasztási feltételezésben. A fürt feltevése azt feltételezi, hogy ugyanabban a fürtben lévő adatpontok valószínűleg ugyanazzal a címkével rendelkeznek. A sokrétű feltételezés azt sugallja, hogy a nagydimenziós adatok egy sokkal kisebb dimenziójú sokaságon rejlenek, és a feladat ennek a sokaságnak a megismerése. Az alacsony sűrűségű elválasztási feltételezés azon az elképzelésen alapul, hogy a döntési határnak egy alacsony adatsűrűségű régióban kell lennie.
A félig felügyelt tanulásban alkalmazott egyik gyakori technika az önképzés. Az önképzésben a modellt kezdetben a címkézett adatok alapján képezik ki. Ezután a saját előrejelzéseit használja a címkézetlen adatokon álcímkéként. A modell továbbképzése ezen a kibővített adatkészleten történik, iteratívan finomítva az előrejelzéseit. Egy másik technika a kotréning, amikor két vagy több modellt egyidejűleg tanítanak az adatok különböző nézeteire. Mindegyik modell felelős a címkézetlen adatok egy részének címkézéséért, amelyet aztán a többi modell betanításához használnak fel. Ez a módszer kihasználja a redundanciát az adatok több nézetében a tanulási teljesítmény javítása érdekében.
A félig felügyelt tanulásban is elterjedtek a gráf alapú módszerek. Ezek a módszerek olyan gráfot hoznak létre, ahol a csomópontok az adatpontokat, az élek pedig a köztük lévő hasonlóságokat. A tanulási feladatot ezután gráf alapú optimalizálási feladatként fogalmazzuk meg, ahol a cél a címkék terjesztése a címkézett csomópontokról a címkézetlenekre, miközben megőrzi a gráf szerkezetét. Ezek a technikák különösen hatékonyak azokon a területeken, ahol az adatok természetesen hálózatot alkotnak, mint például a közösségi hálózatok vagy a biológiai hálózatok.
A felügyelt és felügyelet nélküli tanulás egy másik megközelítése a többfeladatos tanulás. A többfeladatos tanulás során egyszerre több tanulási feladatot oldanak meg, miközben kihasználják a feladatok közös vonásait és különbségeit. Ez felfogható az induktív transzfer egy formájának, ahol az egyik feladatból megszerzett tudás segíti a másik feladat tanulását. A többfeladatos tanulás különösen előnyös lehet, ha a feladatok között megosztott reprezentáció vagy jellemző tér van, lehetővé téve az információk átvitelét.
A félig felügyelt tanulás gyakorlati példája a természetes nyelvi feldolgozás (NLP) területén. Tekintsük a hangulatelemzés feladatát, ahol egy adott szöveg pozitív vagy negatív besorolása a cél. A címkézett adatok, például a hangulatcímkékkel ellátott vélemények korlátozottak lehetnek. Azonban hatalmas mennyiségű címkézetlen szöveg áll rendelkezésre. A félig felügyelt tanulási megközelítés magában foglalhatja egy hangulatosztályozó betanítását a címkézett adatokon, és ennek segítségével megjósolhatja a címkézetlen adatok hangulatát. Ezek az előrejelzések ezután további edzési adatokként használhatók, javítva az osztályozó teljesítményét.
Egy másik példa a képosztályozásban található. Sok esetben a címkézett képek beszerzése munkaigényes és költséges, míg a címkézetlen képek bőségesek. A félig felügyelt megközelítés magában foglalhatja egy kis címkézett képkészlet használatát a kezdeti modell betanításához. Ezt a modellt ezután a címkézetlen képekre lehet alkalmazni pszeudocímkék generálására, amelyeket később a modell átképzésére használnak.
A felügyelt és felügyelet nélküli tanulás félig felügyelt tanuláson és a kapcsolódó módszertanokon keresztül történő integrációja hatékony megközelítést jelent a gépi tanulásban. Mindkét paradigma erősségeit kihasználva jelentős javulást lehet elérni a modell teljesítményében, különösen azokon a területeken, ahol a címkézett adatok korlátozottak, de a címkézetlen adatok bőségesek. Ez a megközelítés nem csak javítja a modellek azon képességét, hogy korlátozott adatokból általánosíthassanak, hanem szilárdabb keretet is biztosítanak az összetett adatkészletek mögöttes szerkezetének megértéséhez.
További friss kérdések és válaszok ezzel kapcsolatban EITC/AI/GCML Google Cloud Machine Learning:
- Milyen kritériumok alapján kell kiválasztani a megfelelő algoritmust egy adott problémára?
- Ha valaki egy Google-modellt használ, és saját példányán oktatja azt, a Google megtartja a képzési adatokból végzett fejlesztéseket?
- Honnan lehet tudni, hogy melyik ML-modellt kell használni a betanítás előtt?
- Mi az a regressziós feladat?
- Hogyan lehet áttérni a Vertex AI és az AutoML táblák között?
- Használható a Kaggle pénzügyi adatok feltöltésére, valamint statisztikai elemzések és előrejelzések végrehajtására ökonometriai modellek, például R-négyzet, ARIMA vagy GARCH segítségével?
- Használható-e a gépi tanulás a szívkoszorúér-betegség kockázatának előrejelzésére?
- Melyek a tényleges változások a Google Cloud Machine Learning Vertex AI-vé való átnevezése miatt?
- Melyek egy modell teljesítményértékelési mutatói?
- Mi a lineáris regresszió?
További kérdések és válaszok az EITC/AI/GCML Google Cloud Machine Learningben