23.06.2010, 08:55

Hans-Christian Dirscherl

OCR/Texterkennung

Google Docs konvertiert Text aus Bildern & PDFs

Google hat seine kostenloses Online-Textverarbeitung um eine spannende Funktion erweitert: Google Texte/Docs konvertiert jetzt auch PDF- und Grafikdateien in Text.
Die neue Optical Character Recognition-Funktion (OCR) von Google Texte scannt Bilddateien und PDFs auf darin enthaltenen Text und wandelt diesen dann in das Textformat um. Diese Texte können Sie dann formatieren, löschen oder umschreiben, ganz wie es Ihnen beliebt. Und danach speichern.
Sie finden die erweitere Upload- und Konvertierungsfunktion links im Startmenü von Google Docs unter dem Button „Hochladen“. Klicken Sie darauf und setzen Sie auf der folgenden Seite das Häkchen in der Checkbox „Text aus PDF- oder Bilddateien in Google Text & Tabellen-Dokumente konvertieren“. Dann klicken Sie auf „Hochzuladende Dateien auswählen“ und wählen die Bild- oder PDF-Dateien aus. Anschließend starten Sie den Upload.
Anschließend öffnen Sie die konvertierte Datei wie gehabt in Google Docs/Texte. Nun wird es spannend: Denn die OCR-Funktion ist noch nicht ganz ausgereift und kann nicht den kompletten Text von PDFs oder Bildern in das Textformat konvertieren.
Kurztest: Bei einem PDF mit Steuertipps wurde zirka die Hälfte des im PDF enthaltenen Textes in einen solchen umgewandelt und kann dementsprechend wie Text bearbeitet werden. Bei einer Bilddatei wurde im Test gar kein Text umgewandelt. Das überrascht allerdings nicht, weil Google ganz klare Vorgaben dafür macht, wann eine Konvertierung funktioniert. So muss der Text auf JPGs, GIFs und PNGs horizontal von links nach rechts verlaufen, schräg gestellten Text kann Googles OCR nicht erkennen. Der Text muss zudem aus lateinischen Buchstaben bestehen. Die Bilder sollen zudem möglichst hochauflösend sein, die Textbestandteile sollten mindestens 10 Pixel hoch sein.
Konvertierte Bilddateien und PDFs dürfen maximal 2 MB groß sein. Bei PDFs werden nur die ersten zehn Seiten konvertiert. Das Konvertieren und anschließende Öffnen der Dateien dauert einige Sekunden.
Fazit: Auch wenn die OCR-Funktion noch gewissen Einschränkungen unterliegt, ist das ein spannender Schritt in die richtige Richtung, der bei der täglichen Arbeit mit Google Docs/Texte gerade im Unternehmenseinsatz eine deutliche Arbeitserleichterung verspricht.
OCR-Software gehört normalerweise zum typischen Softwareumfang eines Scanners.
Diskutieren Sie mit anderen Lesern über dieses Thema:
PC-WELT-Experten lösen Ihr PC-Problem
Immer informiert mit dem PC-WELT Newsletter
Best-of PC-WELT   PC-WELT Apps
PC-WELT Business-IT   PC-WELT Community
3x PC-WELT testen!
Ja, ich teste 3x die PC-WELT mit DVD für nur 11,90 € (19,- Sfr). Den 4 GB USB-Stick erhalte ich gratis dazu.
PC-WELT 3 / 2012
Anrede:
Vorname:
Nachname:
Straße/Nr:
PLZ/Ort:
Land:
E-Mail:
Nur wenn ich innerhalb von 2 Wochen nach Erhalt der 3. Ausgabe nichts von mir hören lasse, möchte ich die PC-WELT mit DVD zum gleichen Preis weiterbeziehen (D: 55,80 €/Jahr, EU: 64,80 €/Jahr, CH: 103,70 Sfr/Jahr). Nach dem Testzeitraum ist der Bezug jederzeit kündbar.
Ich bin damit einverstanden, dass die IDG Magazine Media GmbH und ihre Partner mich per E-Mail über interessante Vorteilsangebote informieren.
2937
Content Management by InterRed