855777

Text aus geschützten PDF-Dateien extrahieren

17.06.2011 | 10:35 Uhr |

PDF-Dateien können Sie am Computer nicht nur ansehen und ausdrucken. Wir zeigen, wie Sie sogar kopiergeschützten Text problemlos extrahieren können.

Um den Text aus einer PDF-Datei zu holen, müssen Sie zunächst herausfinden, welche Methode beim vorliegenden PDF nötig ist. Dazu öffnen Sie die PDF-Datei mit Perfect PDF 6 Office , wählen „Auswahl, Text“ und versuchen dann, einzelne Textbereiche mit der Maus zu markieren. Wenn sich die Textpassagen markieren lassen, also grau hinterlegt werden, kann der Text direkt exportiert werden. Falls nicht, handelt es sich um eine PDF-Datei, deren Seiten aus einzelnen eingescannten Bildern bestehen. In diesem Fall müssen Sie ein OCR-Programm (Optical Character Recognition) nutzen, um den Text zu extrahieren.

Methode 1 – direkter Textexport: Klicken Sie in Perfect PDF 6 ganz oben links auf die Programmschaltfläche („Sx“-Symbol), und wählen Sie „Speichern als, Text“. Im folgenden Fenster markieren Sie die Zeile „Textdatei“ und klicken auf „...“. Im sich dann öffnenden Fenster wählen Sie Speicherort und Name der neuen Textdatei aus, in die exportiert werden soll, und klicken auf „Speichern“. In der Zeile „Seiten“ können Sie noch wählen, ob der Text aller oder einzelner Seiten exportiert werden soll. Im zweiten Fall gehen Sie vor, wie in Kapitel 2 beschrieben. Danach klicken Sie auf „OK“, um den Export zu starten.

Kopierschutz von PDF-Dateien umgehen

Methode 2 – OCR-Texterkennung: Ein sehr gutes und kostenloses Texterkennungs-Programm ist Free OCR . Nachdem Sie das englischsprachige Programm installiert und gestartet haben, klicken Sie auf „Settings, Open Language Folder“. Entpacken Sie dann das Archiv Tesseract Deutsch 2.00 in das geöffnete Verzeichnis. Anschließend schließen Sie Free OCR und starten das Programm neu. Danach können Sie damit deutschen und englischen Text erkennen lassen.

Wählen Sie in der Aufklappliste neben „OCR Language“ den Eintrag „deu“. Jetzt können Sie mit der Texterkennung beginnen. Klicken Sie auf „Open PDF“. Daraufhin sehen Sie in der linken Fensterhälfte eine Vorschau der PDF-Datei. Falls der Text darin in verschiedene Spalten aufgeteilt oder durch Illustrationen unterbrochen ist, sollten Sie den zu erkennenden Textbereich markieren. Manchmal ist es hilfreich, herfür den Vorschau-Ausschnitt zu vergrößern. Dazu klicken Sie auf das Lupensymbol mit dem Pluszeichen. Dann wählen Sie das unterste Werkzeug in der Leiste und ziehen ein Auswahlrechteck um den gewünschten Textbereich. Danach klicken Sie auf „OCR“.

0 Kommentare zu diesem Artikel
855777