2081832

Dokumente in PDF, HTML oder Epub konvertieren

10.06.2015 | 09:31 Uhr |

Wer seine Word-Texte nahtlos als E-Book, PDF oder gar HTML-Datei abspeichern will, kann dazu den PC-WELT-Docbook-Exporter nutzen.

Die Vielzahl unterschiedlicher Dokumentformate erschwert den Ex- und Import von Texten erheblich. Jedes Textverarbeitungsprogramm kennt einige Spezialitäten, die bei der Umwandlung verloren gehen. Moderne Programme wie Microsoft Word ab 2007 sowie Open Office und Libre Office bieten durch ein standardkonformes, XML-basierendes Dateiformat bereits weit mehr Möglichkeiten als die Vorgängerversionen, fremde Formate ohne Fehler zu importieren. Aus XML-Dateien lassen sich alle Informationen extrahieren und in beliebigen Formaten neu darstellen. Wie die erzeugten PDF- oder HTML-Dateien danach aussehen, ist flexibel steuerbar.

Was sich einfach anhört, ist in der Praxis jedoch nicht ohne Weiteres umzusetzen, denn die Textverarbeitungsprogramme nutzen die Möglichkeiten von XML bislang kaum. Außerdem müssten sich auch die Nutzer umstellen und Texte logisch mit Formatvorlagen strukturieren. Derartige Dokumente eignen sich dann auch für die automatisierte Weiterverarbeitung. Für ein paar Briefe muss man diesen Aufwand nicht treiben. Wer allerdings umfangreiche Dokumentationen oder wissenschaftliche Arbeiten verfasst, kann einen Nutzen daraus ziehen. Der Vorteil: Aus einem Dokument lassen sich HTML-Dateien, PDF-Dokumente und komplette E-Books inklusive individueller Anpassungen erstellen.

Im wissenschaftlichen und technischen Bereich gibt es mehrere Formate, die für strukturierte Texte entwickelt wurden. Eines davon ist Docbook , ein offener Standard, der von der Organization for the Advancement of Structured Information Standards (OASIS) gepflegt wird. Es ist aber nicht gerade einfach, Texte im Docbook-Format in einem Editor zu verfassen.

Mit dem Tool PC-WELT-Docbook-Exporter können Sie jedoch Open-Office/Libre-Office-Dokumente in das Docbook-Format konvertieren. Die Programme müssen nicht auf dem Rechner installiert sein. Das Tool kann auch mit den Docx-Dateien von Word ab Version 2007 umgehen. Aufgrund einiger Einschränkungen des genutzten Konverters funktioniert das aber noch nicht ganz fehlerfrei.

PC-WELT-Docbook-Exporter besteht aus zahlreichen Tools und Vorlagen, die aus einer Docbook- XML-Datei HTML- oder PDF-Dateien erzeugen können. Zusätzlich gibt es noch Spezialformate wie HTML-Help (CHM-Datei) oder das für E-Book-Reader nutzbare Epub-Format. „Webhelp“ stellt ein Dokument inklusive Sidebar für die bequeme Navigation dar.

Konvertierung starten: Wir haben PC-WELT-Docbook-Exporter für die einfache Verwendung vorkonfiguriert. Aus diesem Grund kommen Sie damit auch schnell zu brauchbaren Ergebnissen. Wir wollen allerdings nicht verschweigen, dass für individuelle Anpassungen ein ausführliches Studium der Docbook-Dokumentation notwendig ist, die sich über das Menü „Hilfe“ aufrufen lässt.

Auf der Registerkarte „Konverter“ wählen Sie eine oder mehrere Dateien für die Konvertierung aus. Für einen ersten Test verwenden Sie die Datei „Beispiel_de.odt“ aus dem Verzeichnis „In“ der Installation.Wechseln Sie auf die Registerkarte „Optionen“, wählen Sie als Ausgabeformat beispielsweise „PDF“, und klicken Sie auf „Start“. Die erstellte PDF-Datei öffnet sich dann automatisch im PDF-Reader, der auf Ihrem PC installiert ist.

Wenn Sie „Beispiel_de.odt“ in Open Office/Libre Office öffnen, sehen Sie, wie die unterschiedlichen Elemente wie Überschriften, Zitate, Listen, Tabellen und Bilder formatiert sind.

Für die Funktionen ist es entscheidend, dass Formatvorlagen wie etwa „Überschrift 1“, „Überschrift 2“ oder „Vorformatierter Text“ zugewiesen sind.

Bei Bildern sollte beachtet werden, dass nur eingebettete Grafiken funktionieren und keine verknüpften. Jedes Bild muss einen Namen und einen Alternativtext haben (Kontextmenü „Bild“ und Registerkarte „Optionen“). Die Bilder werden aus der ODT-Datei extrahiert, im Verzeichnis „images“ gespeichert und in HTML-Dateien per Img-Tag verknüpft. Die tatsächliche Formatierung mit Schriftarten und Schriftgrößen, Einrückungen und Zeilenabständen spielt dabei keine Rolle, weil die erzeugte Docbook-XML-Datei „beispiel_de.xml“ im Verzeichnis „Out“ nur den reinen Text sowie die logische Struktur enthält. Die Struktur wird durch XML-Tags wie „<section>“ und „<title>“ abgebildet. Erst durch die XSL-Transformation oder bei HTML durch eine CSS-Datei gelangen Formatierungen in den Text.

Struktur und Inhalt sowie Formatierung sind damit getrennt, was Voraussetzungen für crossmediale Aufbereitung, optimale Katalogisierung und die Durchsuchbarkeit von Dokumenten sind.

Format der Ausgabedatei anpassen: Auf der Registerkarte „Optionen“ sehen Sie bei jedem Dateiformat Parameter, die das Format im konvertierten Dokument bestimmen. Bei HTML beispielsweise legen Sie mit „toc.section.depth“ fest, welche Überschriftenhierarchien berücksichtigt werden. Bei „0“ tauchen nur die ursprünglich mit „Überschrift 1“ definierten Überschriften auf, bei „1“ auch die mit „Überschrift 2“ definierten. Setzen Sie „chapter.autolabel“ und „section.autolabel“ jeweils auf „1“, damit die Überschriften automatisch nummeriert werden.

Für den Fall, dass einem Textrahmen die Rahmenvorlage „Note“ zugewiesen ist, taucht dieser eingerückt als „Anmerkung“ im konvertierten Dokument auf und ist mit einer kleinen Hinweisgrafik versehen. Setzen Sie „admon.graphics“ auf den Wert „0“, damit die Grafik nicht erscheint.

Mit der Angabe hinter „html.style sheet“ geben Sie den relativen Pfad zu einer CSS-Datei an. Voreingestellt ist „../common/dbk_ html_2.css“. Passen Sie entweder diese Datei an, oder erstellen Sie eine neue im Ausgabeverzeichnis. Ändern Sie daraufhin die Pfadangabe entsprechend.

Welche Parameter bei den jeweiligen Formaten möglich sind, erfahren Sie über „Hilfe > Docbook“ und Links zu den Dateiformaten.

Office 2016 für Windows 10 - Demo-Video von Microsoft
0 Kommentare zu diesem Artikel
2081832