Windows XP, Vista, 7

Text aus PDF-Dateien und Bildern auslesen

Montag, 29.08.2011 | 11:05 von Christian Löbering
Wenn Sie eingescannte Formulare als Bild- oder PDF-Datei abspeichern, können Sie den Text darauf nicht weiternutzen. Es gibt aber Spezialprogramme, die Text aus Bildern auslesen können. Die dabei verwendete Erkennungsfunktion trägt den Namen OCR („Optical Character Recognition“).
Free OCR installieren: Ein sehr gutes und kostenloses OCR-Programm ist Free OCR . Nachdem Sie es installiert und gestartet haben, wählen Sie „Settings ­ Open Language Folder“. Entpacken Sie dann das Archiv Tesseract (zum Beispiel mit 7-Zip ) in den geöffneten Ordner. Nun schließen Sie Free OCR und starten es erneut. Ab sofort können Sie auch deutschen Text erkennen lassen. Dazu wählen Sie in der Aufklappliste neben „OCR Language“ den Eintrag „deu“.

Free OCR nutzen: Dann können Sie mit der Texterkennung beginnen. Falls Sie Text aus einem Bild auslesen möchten, klicken Sie auf „Open“, wählen das Bild aus und klicken auf „Öffnen“. Für eine PDF-Datei wählen Sie stattdessen „Open PDF“. Nun sehen Sie in der linken Fensterhälfte eine Vorschau des Bildes oder der PDF-Datei. Falls der Text darin in verschiedene Spalten aufgeteilt oder durch Illustrationen unterbrochen ist, sollten Sie den zu erkennenden Textbereich markieren. Falls nötig, vergrößern Sie dazu zunächst den Vorschau-Ausschnitt mit Klicks auf das Lupensymbol mit dem Pluszeichen. Dann wählen Sie das unterste Werkzeug in der Leiste und ziehen ein Auswahlrechteck um den gewünschten Textbereich auf. Danach klicken Sie auf „OCR“.
 
Erkannten Text weiterverwenden: Der vom Programm erkannte Text erscheint dann in der rechten Fensterhälfte. Je nach Qualität der Vorlage ist das Ergebnis unterschiedlich gut, selten aber völlig fehlerfrei. Sie müssen den Text also meist noch korrigieren. Über das Pfeilsymbol können Sie alle Zeilenumbrüche entfernen. Danach können Sie den Text entweder per Klick auf das Disketten-Symbol speichern, per Klick auf das Symbol mit den zwei überlappenden Blättern in die Zwischenablage kopieren oder per Klick auf das unterste Symbol als Word-Datei speichern.

Finereader 8 (Texterkennung)
Finereader 8 (Texterkennung)
Montag, 29.08.2011 | 11:05 von Christian Löbering
Kommentieren Kommentare zu diesem Artikel (0)
1102015