716628

Acrobat Reader: Text und Bilder extrahieren

Sie haben eine PDF-Datei aus dem Internet heruntergeladen und wollen Text oder Bilder aus dem Dokument kopieren und weiterverarbeiten. PC-WELT erklärt Ihnen, wie es funktioniert. Hilfreich sind auch zwei kostenlose Tools, mit denen eine komplette PDF-Datei in ein Text- oder HTML-Dokument konvertiert werden kann. Dabei werden auch die Bilder extrahiert.

Anforderung

Fortgeschrittener

Zeitaufwand

Mittel

Problem:

Sie haben eine PDF-Datei aus dem Internet heruntergeladen und wollen Text oder Bilder aus dem Dokument kopieren und weiterverarbeiten.

Lösung:

Öffnen Sie die Datei im Acrobat Reader, und wählen Sie das Werkzeug "Textauswahl" oder "Grafikauswahl" in der Symbolleiste. Bei mehrspaltigen Dokumenten verwenden Sie für optimale Ergebnisse das Werkzeug "Spaltenauswahl". Anschließend markieren Sie den gewünschten Textabschnitt mit der Maus oder ziehen einen Rahmen um das Bild.

Mit "Bearbeiten, Kopieren" übertragen Sie die ausgewählten Objekte in die Windows-Zwischenablage. In Ihrem Text- oder Bildbearbeitungsprogramm fügen Sie dann den Inhalt der Zwischenablage ein.

Dieses Verfahren funktioniert allerdings nur bei nicht geschützten Dokumenten. Ob der Autor des Dokuments das Kopieren von Inhalten erlaubt oder nicht, erfahren Sie über "Datei, Sicherheitsinformationen" (über Acrobat Reader 5.0) oder in "Datei, Dokumentinfo, Sicherheit" (Version 4.0).

Sie wollen die komplette PDF-Datei in ein Text- oder HTML-Dokument konvertieren und dabei gleichzeitig die Bilder extrahieren? In diesem Fall können Sie beispielsweise eines von zwei kostenlosen Kommandozeilen-Tools verwenden:Xpdf(970 KB) oderPdftohtml(295 KB).

Bei komplexen, etwa mehrspaltigen Dokumenten übernehmen beide Tools das Layout jedoch nur teilweise in die Text- beziehungsweise HTML-Datei. In diesem Fall müssen Sie das Ergebnis nachbearbeiten.

0 Kommentare zu diesem Artikel
716628