Ha egy képből kivont szöveget a Google Vision API-val szeretne elérni, akkor kövesse az API optikai karakterfelismerő (OCR) képességeinek használatát. A Google Vision API OCR technológiája lehetővé teszi a szöveg észlelését és a képekből való kiemelését, beleértve a kézírást is. Ez a funkció különösen hasznos azokban az alkalmazásokban, amelyek megkövetelik a vizuális adatokban található szöveges információk elemzését és megértését.
Először is be kell állítania a szükséges környezetet a Google Vision API használatához. Ez magában foglalja egy projekt létrehozását a Google Cloud Console-ban, a Vision API engedélyezését, valamint a szükséges hitelesítési adatok, például API-kulcs vagy szolgáltatásfiókkulcs beszerzését.
A környezet beállítása után használhatja a Vision API "asyncBatchAnnotateFiles" metódusát az OCR végrehajtásához egy képfájlon. Ez a módszer lehetővé teszi a képfájlok listájának átadását feldolgozásra, és az eredmények aszinkron fogadását. Alternatív megoldásként használhatja az "asyncBatchAnnotateImages" metódust is a képek listájának közvetlen feldolgozásához.
Ha szöveget szeretne kivonni egy képből, létre kell hoznia egy példányt az "AnnotateImageRequest" objektumból, és meg kell adnia a kívánt jellemzőket. Ebben az esetben be kell állítania a "TEXT_DETECTION" funkciót, hogy jelezze, hogy szöveget szeretne kivonni a képből. Az OCR pontosságának javítása érdekében további paramétereket is megadhat, például a nyelvi tippet.
Ezután a képfájlt egy base64 kódolású karakterláncba kell kódolnia, és létre kell hoznia az "Image" objektum példányát a kódolt képadatok felhasználásával. Ezt az "Image" objektumot hozzá kell adni a korábban létrehozott "AnnotateImageRequest" objektumhoz.
A kérés beállítása után elküldheti azt a Vision API-nak a "batchAnnotateImages" vagy a "batchAnnotateFiles" metódussal, a választott megközelítéstől függően. Az API feldolgozza a képet, és a kivont szöveget tartalmazó választ ad vissza.
A válaszból kivont szöveg eléréséhez ismételje meg az 'AnnotateImageResponse' objektum "textAnnotations" mezőjét. Ez a mező tartalmazza az "EntityAnnotation" objektumok listáját, amelyek mindegyike egy-egy észlelt szövegelemet képvisel a képen. Az egyes 'EntityAnnotation' objektumok "leírás" mezője tartalmazza a kivont szöveget.
Íme egy példa kódrészlet a Pythonban, amely bemutatja, hogyan lehet elérni a képből kivont szöveget a Google Vision API segítségével:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
Ebben a példában az "extract_text_from_image" függvény egy képfájl elérési útját veszi be bemenetként, és a Google Cloud Vision ügyfélkönyvtárát használja a kérés küldésére a Vision API-nak. A kivont szöveget ezután kinyomtatják.
A képből kivont szövegnek a Google Vision API segítségével való eléréséhez be kell állítania a környezetet, létre kell hoznia egy "AnnotateImageRequest" objektumot a kívánt funkciókkal, kódolnia kell a képfájlt, el kell küldenie a kérést az API-nak, és le kell kérnie a kivont szöveget. a válaszból. A Vision API OCR képességei lehetővé teszik a szöveg észlelését és a képekből való kiemelését, beleértve a kézírást is.
További friss kérdések és válaszok ezzel kapcsolatban Szöveg felismerése és kivétele kézírásból:
- Milyen korlátozások merülhetnek fel összetett dokumentumokból a Google Vision API használatával történő szöveg kinyerésekor?
- Mi a jelentősége a megbízhatósági szinteknek a Google Vision API szövegértelmezésében?
- Hogyan tud a Google Vision API pontosan felismerni és kivonni a szöveget a kézzel írt jegyzetekből?
- Milyen kihívásokat jelent a kézzel írt képek szövegének észlelése és kinyerése?
- A Google Vision felismeri a kézírást?