723854

PDF-Dateien selbst erstellen und auslesen

Anforderung

Zeitaufwand

Um Dateien sowohl auf Windows-, Mac- als auch Unix-Rechnern problemlos darzustellen, verwende ich PDF-Dateien. Allerdings bietet Adobes Acrobat Reader unter anderem nur eine sehr unkomfortable Funktion zur Textübernahme. Gibt es eine Software, mit der sich Texte aus solchen PDF-Dateien extrahieren lassen?Florian Z., Salzgitter

PDF (Portable Document Format) von Adobe ist ein Format, das den Dokumentenaustausch über Systemgrenzen hinweg ermöglichen soll. Universelle Austauschformate wie beispielsweise Postscript gibt es zwar schon länger. Wer jedoch größere Mengen von Dokumenten archivieren und weitergeben will, benötigt zusätzliche Möglichkeiten wie Volltextsuche, Indexerstellung oder die Einbettung von Multimedia-Objekten.Das PDF-Format erweitert Postscript um genau diese Funktionen. PDF-Dateien lassen sich mit dem Programm Acrobat Distiller aus Postscript-Dateien erzeugen. Der Distiller ist in einigen Adobe-Produkten wie etwa Pagemaker 6.5 als Zubehör enthalten (Anbieter etwa: Schulz Bürozentrum, München, Tel. 089/159200, Fax 089/15920180, 1799 Mark).Lesen lassen sich die PDF-Dateien mit dem Acrobat Reader, den Adobe als Freeware für die wichtigsten Betriebssysteme zur Verfügung stellt (http://www.adobe.com/prodindex/acrobat/readstep.html).Das Freeware-Programm Aladdin Ghostscript besitzt jedoch eine Funktion, um Text aus PDF-Dateien zu extrahieren. Allerdings sollten Sie sehr viel Geduld mitbringen und den extrahierten Text anschließend gründlich korrigieren, denn speziell bei Texten mit Fontwechseln und Grafiken ist Ghostscript nicht immer zuverlässig. Mit Ghostscript können Sie übrigens auch Postscript-Dateien ins PDF-Format umwandeln. Ghostscript und die zugehörige Oberfläche sind Freeware und im Internet unter http://www.cs.wisc.edu/~ghost/aladdin/obtain.html, aber auch in den PC-WELT-Foren in Compuserve und AOL zu finden.

0 Kommentare zu diesem Artikel
723854