688433

PDF-Dateien ins HTML-Format konvertieren

Sie möchten PDF-Dokumente in ein anderes Format konvertieren, beispielsweise nach HTML. Dabei soll das Layout so weit wie möglich erhalten bleiben. Wir zeigen Ihnen, wie Sie dieses Problem mittels Open-Source-Programmen und einem PC-WELT Skript bequem lösen können.

Anforderung:

Fortgeschrittener

Zeitaufwand:

Mittel

Problem:

Sie möchten PDF-Dokumente in ein anderes Format konvertieren, beispielsweise nach HTML. Dabei soll das Layout so weit wie möglich erhalten bleiben.

Lösung:

Adobe Reader 6.0 bietet mit "Datei, Als Text speichern" bereits eine Funktion zum Speichern von Dokumenten als TXT-Dateien. Bei komplexen Dokumenten mit mehrspaltigem Satz und Bildern kann das Ergebnis damit jedoch nicht befriedigen. Zeilen geraten durcheinander, und Bilder exportiert der Reader überhaupt nicht.

Eine bessere Lösung bietet das kostenlose Tool :Pdftohtml 0.36 für die Kommandozeile. Es exportiert PDF-Dateien nach HTML und erzeugt dabei mit Hilfe von :GNU Ghostscript aus den grafischen Elementen ein Hintergrundbild, über das es den Text legt. Dadurch bleiben auch Texturen, Linien und Abbildungen erhalten. Kleinere Fehler müssen Sie allerdings auch bei Pdftohtml in Kauf nehmen: Die Schriftgrößen stimmen nicht immer, senkrecht laufender Text erscheint meist waagerecht, und komplexe Tabellen sind anders als das Original formatiert und so mitunter schwer lesbar. Im Allgemeinen erzielt das Tool jedoch ansehnliche Ergebnisse im HTML-Format.

Um den Umgang mit Pdftohtml so komfortabel wie möglich zu gestalten, haben wir ein eigenes Front-End erstellt ( :pcwPdf2html 0.1 ). Damit exportieren exportieren Sie einzelne oder mehrere Dateien, aber auch ganze Ordner mit PDFDokumenten nach HTML. Pdftohtml und GNU Ghostscript 7.07 sind in dieses PCWELT- Programm bereits integriert.

Nach der Installation starten Sie das Programm standardmäßig über das Start-Menü und "PC-WELT, pcwPDF2HTML". Über "Hinzufügen" wählen Sie die Dateien zum Konvertieren aus. Die Dateinamen lassen sich auch per Drag & Drop aus dem Windows-Explorer in die Liste ziehen. Legen Sie dann die Exportoptionen fest. Bei mehrspaltigen Dokumenten mit Bildern aktivieren Sie beispielsweise "komplexe Dokumente". Klicken Sie dann auf "Konvertieren". Die HTML- und PNG-Dateien legt das Programm im Ordner "Out" im Installationsverzeichnis ab. Wenn Sie ein anderes Zielverzeichnis wünschen, aktivieren Sie die Klickbox vor "Ausgabe in" und geben dahinter einen anderen Ordner an. Infos zu den einzelnen Exportoptionen finden Sie nach einem Klick auf "Hilfe" in der beigelegten Dokumentation.

0 Kommentare zu diesem Artikel
688433