1663973

Texterkennungs-Tools in der Cloud

17.01.2013 | 11:26 Uhr |

Ein Bild sagt mehr als tausend Worte, heißt es. Aber was tun, wenn das Bild einen abfotografierten oder gescannten Text zeigt, der möglichst schnell digital weiterverarbeitet werden muss? Wir stellen Ihnen die besten Gratis-Web-Apps vor, die das Problem für Sie lösen: OCR aus der Cloud.

Der Begriff der optischen Zeichenerkennung (englisch: Optical Character Recognition = OCR) entstand in den Sechzigerjahren des zwanzigsten Jahrhunderts. Damals ging es zumeist darum, Formulare maschinell lesbar zu gestalten, um Inhalte in großen Mengen automatisiert zu erfassen und zu verarbeiten. Dazu wurden spezielle Schriften entwickelt, die für die Erkennung durch opto-elektronische Systeme (Scanner) optimiert waren. Infolge der Verbesserung von Scanner-Hardware und -Software wurde das OCR-Verfahren später auch für die Digitalisierung von Papierdokumenten verwendet. Zum Einsatz kommen dabei zumeist eigene Scan-Systeme, die von speziell geschulten Mitarbeitern bedient wurden.

Alternative zum Abschreiben

Allerdings ist die Einrichtung eines eigenen Scan-Arbeitsplatzes mit geeigneter Hard- und Software nicht billig und weder Anschaffung noch Installation und laufende Wartung lohnen sich wirklich, wenn man nur selten Gebrauch davon macht.  Oft heißt es deshalb gerade in kleineren Firmen und Büros: „Da schreibe ich im Zweifel doch lieber mal eben schnell eine Seite manuell ab.“ Nur wird in der Praxis aus „ich“ dann oft die Auszubildende oder der Praktikant.  Und aus „mal eben schnell“ werden Tage, weil die Auszubildende in der Schule Blockunterricht hat und der Praktikant in der Poststelle unabkömmlich ist.
Im Zeitalter von Unified Communications und elektronischer Post bietet sich deshalb die Nutzung von Online-Diensten zur Texterkennung an. Schließlich liegen immer mehr Geschäftsdokumente originär elektronisch vor und müssen somit nicht eigens umgewandelt werden. Von „optischer“ Erkennung der Zeichen kann also eigentlich keine Rede mehr sein  – denn egal ob als PDF, JPEG oder TIFF – viele texthaltige Bilder und Dokumente werden bereits digital erstellt. Gleichwohl tragen die meisten der hier vorgestellten Dienste das Kürzel OCR im Namen. Was für den jeweiligen Anbieter den Vorteil hat, dass seine Leistung nicht auf ein  bestimmtes Format reduziert wird – wie etwa bei einem PDF-Konverter.

Einfache Abläufe, aber Vorsicht mit sensiblen Daten

Der Prozess der Online-Texterkennung läuft im Prinzip bei allen Diensten gleich ab: Der User ruft die Seite des Anbieters seiner Wahl auf, lädt die zu konvertierende Datei hoch und löst dann den Konvertierungsprozess aus. Anschließend kann das Ergebnis in einem vom User gewählten Format heruntergeladen und weiter verarbeitet werde. Der ganze Prozess dauert in der Regel nur Sekunden.
Je nach Anbieter, Qualität des Inputs und gewünschtem Output kann es aber auch einige Minuten dauern, bis das Ergebnis vorliegt. Allen hier vorgestellten Gratis-Diensten ist gemeinsam, dass das Leistungsangebot in der einen oder anderen Weise beschränkt ist. Art und Umfang der Einschränkungen unterscheiden sich von Anbieter zu Anbieter: Während beispielsweise bei einigen die Zahl der zu bearbeitenden Dokumente begrenzt ist, lassen andere nur eine bestimmte Dateigröße zu.
Grundsätzlich gilt: Wer oft und viel zu konvertieren hat, fährt mit einer kommerziellen Lösung besser. Und da der Upload ins Web bei großen Dateien immer noch einige Zeit benötigt, lohnt in diesen Fällen wohl auch meist die Installation vor Ort. Zumal die Online-Dienste zwar alle die Sicherheit der Daten betonen, der User jedoch keine Möglichkeit hat, die Einhaltung dieser Versprechen zu kontrollieren. Sensible Daten sollten also nicht online konvertiert werden. Dies gilt insbesondere angesichts der Tatsache, dass die meisten Anbieter eher sparsam mit Informationen über die eigene Organisation umgehen.

Ergebnisse: ausreichend bis sehr gut

Die Qualität derScans ist hingegen bei den hier vorgestellten Services bei einfachen Texten zumindest ausreichend, in manchen Fällen sogar gut bis sehr gut. Hundertprozentig fehlerfreie Resultate verspricht und erreicht kein Anbieter, der Korrekturdurchgang sollte daher immer mit eingeplant werden. Doch schneller und besser als abschreiben funktionieren die Dienste allemal. Problematisch wird es häufig bei anspruchsvolleren Mehrspalten-Layouts. Sie stellen für die meisten Dienste noch eine große Herausforderung dar. Zwar wird der Text als solcher auch hier in der Regel mit gleicher Zuverlässigkeit erkannt, doch die Darstellung lässt  im Output  in der Regel zu wünschen übrig.

0 Kommentare zu diesem Artikel
1663973