Az AutoML Vision egy Google Cloud által fejlesztett gépi tanulási termék, amelyet kifejezetten képadatok osztályozására, észlelésére és értelmezésére szolgáló egyéni modellek létrehozására terveztek. Fő funkciói a mélytanulási modellek betanításának, kiértékelésének és telepítésének automatizálására összpontosulnak képalapú feladatokhoz, például képosztályozáshoz, objektumészleléshez és képszegmentáláshoz. Annak eldöntéséhez, hogy az AutoML Vision testreszabható-e a képeken kívüli adattípusok elemzésére, meg kell vizsgálni az architektúráját, a beviteli módokat és a Google Cloud AutoML-ajánlatainak tágabb kontextusát.
AutoML Vision: Hatókör és tervezés
Az AutoML Vision az automatizált képelemzés elvén működik. Felhasználói felülete, adatbeviteli mechanizmusai, előfeldolgozási lépései, modellarchitektúrái és kiértékelési mutatói mind vizuális adatokhoz vannak szabva. A szolgáltatás bemeneti adatokat vár képfájlok (pl. JPEG, PNG) és a hozzájuk tartozó címkék formájában a felügyelt tanulási feladatokhoz. A felhasználó feltölti a képadatkészleteket a Google Cloud Console-on vagy API-n keresztül, megadja a kívánt feladatot (osztályozás vagy objektumészlelés), és a rendszer kezeli az adatok felosztását, a jellemzők kinyerését, a modell kiválasztását, a hiperparaméterek hangolását és a betanítási folyamatot anélkül, hogy mélyreható gépi tanulási szakértelmet igényelne a felhasználótól.
Az alapul szolgáló technológiai rendszer konvolúciós neurális hálózatokat (CNN) és kapcsolódó architektúrákat használ, amelyek különösen alkalmasak a térben korrelált adatokból, például képek pixeltömbjeiből származó jellemzők kinyerésére. Az AutoML Vision kimenete jellemzően egy betanított modell, amely felhasználható képosztályok vagy határolókeret-koordináták előrejelzésére láthatatlan képek esetén.
Adattípusok elemzése
Az AutoML Vision tervezési sajátosságai miatt hasznossága kép típusú adatokra korlátozódik. Nem kép típusú adatok (például táblázatos adatok, idősoros adatok, hangfájlok vagy szöveges dokumentumok) bevitele több rétegen inkompatibilitást eredményezne, az adatbeviteltől a modellfeldolgozásig. A rendszer nem biztosít mechanizmusokat a nem kép típusú adatok elemzésére, jellemzőtervezésére vagy modellezésére.
Tegyük fel például, hogy egy felhasználó egy táblázatos adatokat (például ügyféltranzakciókat vagy érzékelőadatokat) tartalmazó CSV-fájlt próbál feltölteni az AutoML Vision szolgáltatásba. A szolgáltatás nem fogadja el ezt a formátumot, mivel nem ismeri fel érvényes képbemenetként. Még ha a táblázatos adatokat valahogy képformátumba konvertálnánk is (például hőtérkép vagy diagram megjelenítésével és PNG formátumban történő mentésével), az adatok szemantikai jelentése nem őrződne meg, és a betanított modellek nem lennének alkalmasak a táblázatos adatokhoz kapcsolódó eredeti analitikai célokra.
Hasonlóképpen, a hangadatok (például beszéd vagy környezeti hangok) vagy a szöveges adatok (dokumentumok, e-mailek, közösségi média bejegyzések) speciális előfeldolgozási és modellarchitektúrákat igényelnek. Bár léteznek olyan kutatási technikák, amelyek a hangjeleket spektrogram képekké alakítják CNN-alapú elemzéshez, vagy a szöveges adatokat képszerű mátrixokként kódolják, ezeket a megközelítéseket az AutoML Vision natívan nem támogatja, és megvalósításukhoz egy egyedi előfeldolgozási folyamatra lenne szükség, amely kívül esik a termék tervezett felhasználási körén.
AutoML család: Képeken túli modalitások
Bár az AutoML Vision a képadatokra korlátozódik, a Google Cloud AutoML termékek széles skáláját foglalja magában, amelyek mindegyike különböző adattípusokhoz igazodik:
1. AutoML táblázatokStrukturált, táblázatos adatokhoz, például táblázatokhoz, adatbázisokhoz és CSV-fájlokhoz tervezve. Az AutoML Tables automatizált jellemzőtervezést, modellkiválasztást (beleértve a gradiensnövelést, a véletlenszerű erdőket és a neurális hálózatokat), valamint kiértékelési metrikák használatát teszi lehetővé, amelyek alkalmasak táblázatos adatokon végzett regressziós és osztályozási feladatokhoz.
2. AutoML természetes nyelvKifejezetten szöveges adatokhoz készült, olyan feladatokat támogat, mint a hangulatelemzés, az entitások kinyerése és a szövegosztályozás. Természetes nyelvi feldolgozási (NLP) modelleket használ, amelyeket dokumentum- és mondatszintű értelmezésre optimalizáltak.
3. AutoML videóintelligenciaVideoadatokhoz készült, olyan feladatok elvégzésére, mint a videók osztályozása, objektumkövetés és cselekvésfelismerés. Időbeli és térbeli modellezési technikákat is alkalmaz.
4. AutoML fordításLehetővé teszi a különböző nyelveken írt szöveges adatok egyéni fordítási modelljeinek automatizált betanítását.
Ezen AutoML-termékek mindegyikének közös célja a gépi tanulás demokratizálása a modellfejlesztés összetett lépéseinek automatizálásával. Mindazonáltal mindegyiket az adott adatmodalitás által támasztott egyedi követelményekhez és kihívásokhoz tervezték.
Didaktikai példa: Használati esetek és termékkiválasztás
Vegyünk egy olyan vállalkozást, amely a gyártási folyamat minőségellenőrzését automatizálni kívánja a termékek képeinek hibáinak vizsgálatával. Az AutoML Vision ideális erre a felhasználási esetre, mivel betanítható a termék megjelenésében mutatkozó finom különbségek felismerésére, valamint a hibák osztályozására vagy megtalálására. A felhasználó feltölt egy címkézett termékkép-adatbázist, az AutoML Vision pedig kezeli a hibaészlelési modell betanítását.
Ezzel szemben egy olyan forgatókönyvvel, amikor egy vállalkozás strukturált adatok, például demográfiai adatok, vásárlási előzmények és elköteleződési mutatók alapján szeretné megjósolni az ügyfélelvándorlást. Ebben az esetben az adatok teljesen nem vizuálisak, és táblázatokban a legjobban reprezentálhatók. Az AutoML Tables a megfelelő eszköz, mivel képes táblázatos adatok feldolgozására, automatikus funkciótervezésre (pl. hiányzó értékek kezelése, kategorikus változók kódolása), és optimális modellek kiválasztására az osztályozáshoz.
Hangelemzéshez, például környezeti hangok osztályozásához vagy beszéd átírásához a Google Cloud olyan szolgáltatásokat nyújt, mint a Speech-to-Text és az AutoML Natural Language (a későbbi szövegelemzéshez), de az AutoML Vision nem lenne alkalmas, hacsak a hangadatokat először képformátumba (például spektrogramba) nem alakítják át, és még ebben az esetben is az eredmények nagymértékben függenének az ilyen jellemzőtervezés analitikai célhoz való alkalmasságától.
Technikai áttekintés: Miért nem lehet az AutoML Visiont kiterjeszteni nem képadatokra?
Az AutoML Vision architektúrájának specializációja számos technikai aspektusban gyökerezik:
- Adatbeviteli rétegAz AutoML Vision API-jai és felhasználói felületei úgy vannak kialakítva, hogy meghatározott formátumú képfájlokat tudjanak betölteni. Nincs lehetőség a nem képadat-formátumok elemzésére.
- Előfeldolgozási csővezetékAz előfeldolgozási lépések képekre vannak szabva, beleértve az átméretezést, a pixelértékek normalizálását és az adatkiegészítési technikákat, mint például az elforgatás, tükrözés és vágás. A nem képadatok nem profitálnak az ilyen átalakításokból.
- ModellarchitektúraA modellarchitektúrák (CNN-ek, esetleg egyedi rétegekkel az érzékeléshez vagy szegmentáláshoz) úgy vannak kialakítva, hogy kihasználják a képadatok térbeli lokalitását és változatlanságát. A nem képadatok, például az értékesítési rekordok táblázata, nem rendelkeznek ezekkel a tulajdonságokkal, ezért nem lennének alkalmasak az ilyen modellekhez.
- Címkézés és értékelésA címkézőeszközöket és az értékelési metrikák (pontosság, precizitás, képosztályok visszahívása; objektumdetektálás átlagos pontossága) képalapú feladatok köré definiálták.
- Exportálás és telepítésAz AutoML Visionben betanított modellek képkikövetkeztetésre alkalmas formátumokban exportálódnak (pl. TensorFlow SavedModel, Edge TPU). A bemeneti szignatúrák képeket várnak bemenetként.
Ezen okok miatt az AutoML Vision nem testreszabható nem képadatok elemzésére anélkül, hogy alapvetően meg kellene változtatni az előfeldolgozási, modellezési és telepítési infrastruktúráját, amely esetben jelenlegi formájában megszűnne AutoML Vision lenni.
Ajánlott gyakorlatok: A megfelelő AutoML-termék kiválasztása
Gépi tanulási problémák megközelítése során az adattípusnak kell vezérelnie a megfelelő AutoML-termék kiválasztását:
– Képadatokhoz (pl. fényképek, orvosi vizsgálatok, műholdképek): Használja az AutoML Vision programot.
– Strukturált táblázatos adatokhoz (pl. táblázatok, adatbázistáblák): Használja az AutoML-táblázatokat.
– Szabad formátumú vagy strukturált szövegekhez (pl. dokumentumok, vélemények, e-mailek): Használja az AutoML Natural Language nyelvet.
– Videók esetén (pl. térfigyelő felvételek, sportfelvételek): Használja az AutoML Video Intelligence szolgáltatást.
– Fordítási feladatokhoz: Használja az AutoML Translation szolgáltatást.
A termék rendeltetésszerű adatfeldolgozási módjától eltérő használata szuboptimális eredményekhez, inkompatibilitási problémákhoz vagy az adatfeldolgozás teljes meghiúsulásához vezethet.
Példák a modell testreszabására az AutoML Vision-ben
Bár az AutoML Visionon belül lehetséges az egyéni címkék definiálása, az egyéni képfelosztások megadása és az értékelési kritériumok módosítása, ezek a testreszabások a képadatokra korlátozódnak. Például egy növénybetegségeket tanulmányozó kutató feltölthet betegségtípus szerint kategorizált levélképeket, és módosíthatja a betanítási-érvényesítési felosztást, vagy kiegészítheti a képeket tartományspecifikus transzformációkkal (pl. színcsatornák módosítása a különböző fényviszonyok szimulálásához). Ezek a testreszabások javítják a modell teljesítményét a képelemzési tartományon belül, de nem terjesztik ki a termék hasznosságát nem képadatokra.
Alternatív stratégiák nem képadatokhoz
Azoknak a szervezeteknek, amelyek nem képadatokhoz automatizált gépi tanulást keresnek, a megfelelő AutoML terméket kell használniuk, vagy a következő alternatívákat kell megfontolniuk:
- Egyedi modellfejlesztésHa az adattípust vagy feladatot nem fedik le a meglévő AutoML-termékek, a szervezeteknek egyéni folyamatokat kell fejleszteniük nyílt forráskódú könyvtárak (pl. scikit-learn, TensorFlow, PyTorch) vagy más, szélesebb körű testreszabást támogató felügyelt szolgáltatások használatával.
- AdatátalakításRitka esetekben az adatok képszerű reprezentációvá alakíthatók (pl. idősoros adatok visszatérési diagramokká vagy Gramian-szögmezőkké konvertálhatók), majd képalapú modellekkel feldolgozhatók. Ehhez azonban jelentős szakértelemre és gondos validálásra van szükség az értelmes eredmények biztosítása érdekében.
- Harmadik féltől származó megoldásokLéteznek harmadik féltől származó AutoML megoldások (pl. H2O.ai, DataRobot), amelyek egységes felületen belül szélesebb körű adatmodalitásokat támogatnak.
Az AutoML Vision kizárólag képadatokon végzett automatizált gépi tanulásra készült, és nem használható testreszabottan a vizuális tartományon kívüli adattípusok elemzésére. Nem képadatok, például táblázatos, szöveges, hang- vagy videóadatok esetében a Google Cloud dedikált AutoML-termékeket biztosít testreszabott folyamatokkal, interfészekkel és modellarchitektúrákkal. A sikeres gépi tanulási eredmények eléréséhez elengedhetetlen a megfelelő AutoML-termék kiválasztása az adattípusnak megfelelően.
További friss kérdések és válaszok ezzel kapcsolatban Haladás a gépi tanulásban:
- Hogyan használhatja egy adattudós a Kaggle-t fejlett ökonometriai modellek alkalmazására, az adathalmazok szigorú dokumentálására és a közösséggel megosztott projekteken való hatékony együttműködésre?
- Mi a különbség a BigQuery ML-ben a CREATE MODEL és a LINEAR_REG használata, illetve egy egyéni modell TensorFlow-val történő betanítása között a Vertex AI-ban idősoros előrejelzéshez?
- Hogyan gyakorolhatom az AutoML Vision használatát Google Cloud Platform nélkül (nincs hitelkártyám)?
- A TensorFlow újabb verzióiban automatikusan be van kapcsolva a lelkesedés mód?
- Hogyan hozhatok létre modellt és verziót a GCP-n a model.joblib feltöltése után a vödörbe?
- Telepíthető a Kubeflow saját szerverekre?
- Automatikusan kikapcsol a lelkesedés mód, amikor új cellába lépek a jegyzetfüzetben?
- Lehet-e a TensorFlowHubon belül dolgozni privát modelleken, amelyekhez csak a céges munkatársak férhetnek hozzá?
- Lehetséges egy modellt JSON formátumból H5-be visszakonvertálni?
- Lehetővé teszi-e a Keras könyvtár a tanulási folyamat alkalmazását a modellen végzett munka során, a teljesítmény folyamatos optimalizálása érdekében?
További kérdések és válaszok az Advancing in Machine Learning című témakörben

