2376715

Dokumente per OCR in editierbaren Text umwandeln

25.09.2018 | 13:34 Uhr |

Die Notwendigkeit zum Umwandeln von gedrucktem in wieder zu verarbeitenden, also editierbaren Text stellt sich eher selten: Wann bekommt man schon einmal ein Fax, dessen Inhalt man digital benötigt, und wann muss man den Text einer Buchseite digitalisieren?

Und doch gibt es Situationen, in denen OCR, die Abkürzung steht für „Optical Character Recognition“, benötigt wird – sei es, weil es keine Möglichkeit gibt, das digitale Original zu bekommen, oder weil eine wichtige Datei versehentlich unwiderruflich gelöscht wurde. Hat man den Inhalt eines Schreibens oder gar einer wichtigen Arbeit aber ausgedruckt, lässt sich der Text per OCR redigitalisieren. Dazu sind die Ausdrucke im ersten Schritt durch Abfotografieren mit der Digitalkamera beziehungsweise dem Smartphone oder durch Einscannen mit einem Scanner oder Multifunktionsgerät digital zu erfassen. Wer solche Scan-Hardware besitzt, hat häufig ein OCR-Programm dazu bekommen und kann dieses zum Umwandeln des Textes im zweiten Schritt verwenden.

Über die Convertio-Webseite lassen sich zuvor eingescannte oder abfotografierte Texte gratis, schnell und akkurat per OCR in editierbare Dokumente umwandeln.
Vergrößern Über die Convertio-Webseite lassen sich zuvor eingescannte oder abfotografierte Texte gratis, schnell und akkurat per OCR in editierbare Dokumente umwandeln.

Ohne solche Software bieten sich spezielle OCR-Konvertierungsdienste im Internet an. Einige dieser Services sind in der kostenlosen Version funktional oder hinsichtlich des erlaubten Umfangs stark eingeschränkt; gute Erfahrungen haben wir im Praxistest mit Convertio gemacht. Ohne Kosten und Anmeldung lassen sich bis zu zehn Seiten als Text erkennen, als Ausgangsformate werden PDF- und diverse Bilddateien unterstützt, unter anderem JPG, BMP, GIF, PNG. Wenn Sie mehrseitige Dokumente zu einem ZIP-Archiv zusammenfassen, müssen die darin enthaltenen Bilder der Reihenfolge der Seiten folgen: beispielsweise als „Bild 1“, „Bild 2“ und so weiter. Alternativ lassen sich mehrere einzelne PDF-Seiten mit PDF SAM (PDF Split and Merge) vorab zu einer Datei zusammenfügen.

Zum Hochladen ziehen Sie die PDF- oder Bilddatei auf die Convertio-Seite im Browser, wählen die richtige Sprache und legen das Ausgabeformat fest. Bei Textdokumenten wird dies in den meisten Fällen ein Word- oder anderes Textdokument sein, für Tabellen bietet sich zum Weiterverarbeiten eine Excel-Datei an. Selbst PDF ist möglich, wobei der entscheidende Unterschied zum Ausgangs-PDF darin besteht, dass es sich beim Original nur um ein „Bild“ handelt, während die umgewandelte Datei eine zusätzliche, durchsuchbare Textebene besitzt. Nun müssen Sie auf der Convertio-Seite noch ein Captcha lösen, also bestimmte Bildinhalte erkennen, bevor Sie auf „Konvertieren“ klicken können und dann nach wenigen Sekunden das Resultat in Form eines grünen Buttons zum Download bereitsteht. In unseren Tests machte die OCR-Engine bei normaler Schriftgröße und guten Scans nur ganz vereinzelt Fehler – so wurde etwa ein „H“ in die beiden Buchstaben „FI“ zerlegt.

Tipp: Die besten Multifunktionsgeräte zum Drucken, Scannen, Kopieren und Faxen im Test.

PC-WELT Marktplatz

0 Kommentare zu diesem Artikel
2376715