Channel Header
2394498

Pandoc: Konvertiert Dateiformate aller Art – auch ohne die passende Textverarbeitung

10.12.2018 | 15:00 Uhr |

Wer häufig vor der Aufgabe steht, Textdokumente in unterschiedlichen Formaten weitergeben zu müssen, sollte sich das Multitalent Pandoc anschauen. Es konvertiert Dateiformate aller Art – auch ohne die passende Textverarbeitung.

Die meisten Unternehmen sind auf das Office-Format von Microsoft fixiert. Das kennen nicht nur Journalisten. Es ist faktisch der Standard bei Textverarbeitungen. Aber man braucht nicht unbedingt Libre Office zu installieren, nur weil einmal eine Datei im Word-Format benötigt wird. Pandoc ( https://pandoc.org/ ) hat sich in den vergangenen Jahren eine große Fangemeinde erobert, ist aber noch nicht so richtig populär. Ein Grund ist sicherlich, dass Pandoc nur auf der Kommandozeile funktioniert. Das ist aber auch der einzige Haken an einer ansonsten tadellosen Software, die eine breite Palette an Textformaten problemlos konvertiert und dabei Großartiges leistet.

Plattformübergreifend und leicht zu installieren

Pandoc funktioniert unter Linux, Windows und auf dem Mac. Für die letztgenannten Betriebssysteme gibt es auf der Projektseite auch passende Installationsprogramme. Unter Linux gibt es verschiedene Wege, um Pandoc auf das System zu holen. Am schnellsten funktioniert das über den Paketmanager der Distribution. Debian, Ubuntu, Arch und Open Suse bringen die Software mit. So ist es etwa auf Ubuntu mit

sudo apt install pandoc

schnell installiert. Auf der Projektseite gibt es ebenfalls Binärpakete. Diese sind etwas aktueller, weil Pandoc recht zügig weiterentwickelt wird. Die Änderungen umfassen häufig aber lediglich Fehlerkorrekturen von eher selten auftretenden Problemen. Probieren Sie also ruhig erst einmal die Version aus den Standard-Paketquellen. Außerdem wird Pandoc inzwischen auch von einigen Editoren mitgeliefert oder es gibt entsprechende Erweiterungen für den jeweiligen Editor.

Lesetipp Dokumente per OCR in editierbaren Text umwandeln

Das Grundprinzip von Pandoc

Pandoc wurde mit dem Ziel entwickelt, das formatübergreifende Publizieren zu erleichtern. Der Autor nutzt lediglich ein Dokument und erstellt daraus dann HTML-Seiten, ein Word-Dokument oder ein E-Book. Pandoc nutzt dafür zwei Filter. Einmal einen „Reader“ für die verschiedenen Ausgangsformate und einen „Writer“, der die Konvertierung in das Zielformat erledigt. Ausgangsformate sind hier unter anderem Word, Epub, HTML, Markdown, Mediawiki oder auch ODT, das von Libre Office erzeugt wird. Das Tool ist somit nicht nur eine Hilfe für alle, die einen Text in ein anderes Format konvertieren müssen, sondern auch für Autoren, deren Text in unterschiedlichen Formaten veröffentlicht wird, zum Beispiel Seminar- oder Hausarbeiten. Den größten Nutzen erzielen die Autoren dann aus einfachen Textdateien, die mit Markdown-Befehlen formatiert wurden. Pandoc selbst erweitert die Syntax von Markdown um einige weitere Kommandos und Formatierungen. Mit dieser Erweiterung können dann beispielsweise Nummerierungen und Aufzählungen flexibler gestaltet werden, als es der ursprüngliche Ansatz von Markdown erlaubt. Wer sich nicht weiter mit Markdown beschäftigen mag, kann Pandoc natürlich trotzdem für die Konvertierung nutzen.

Pandoc kann HTML-Seiten aus dem Web abrufen und konvertieren.
Vergrößern Pandoc kann HTML-Seiten aus dem Web abrufen und konvertieren.

Texte umwandeln

Pandoc arbeitet auf der Kommandozeile. Öffnen Sie ein Terminal und prüfen Sie, ob Pandoc auch im Pfad liegt. Dazu geben Sie pandoc -v ein. Das Programm sollt sich jetzt mit seiner Versionsnummer und einem Hinweistext melden. Um sich Tipparbeit zu sparen, ist es am einfachsten, im Terminal vorher in das Verzeichnis zu wechseln, in dem sich das Ausgangsdokument befindet. Der allgemeine Funktionsaufruf für das Programm lautet dann:

pandoc <ausgangsdatei> -f <ausgangsformat> -t <zielformat> -o <zieldatei>

Um ein Dokument „test.txt“, das Markdown-Syntax enthält, in eine Word-Datei mit dem Namen „Referat.docx“ zu konvertieren, nutzen Sie dann dieses Kommando:

pandoc text.txt -f markdown -t docx -o Referat.docx

Soll daraus eine HTML-Datei gleichen Namens werden, verwenden Sie nach „-t“ das Format „html“ und nutzen auch die entsprechende Endung. Ergänzen Sie in diesem Fall noch zusätzlich den Schalter „-s“. Dieser sorgt dafür, dass das Ergebnis einen vollständigen Dateiheader erhält. Das erleichtert die Bearbeitung mit Drittanwendungen. Pandoc kann häufig Ausgangsund Zielformat auf Basis der Dateierweiterungen selbst ermitteln. So lässt sich etwas Tipparbeit sparen:

pandoc test.md -s -o dokument.pdf

Damit erzeugen Sie aus einer Markdown-Datei ein PDF-Dokument. Bei der Generierung von PDF-Dateien ist Pandoc allerdings auf Hilfe angewiesen. Pandoc selbst erzeugt dann eine Datei im TEX-Format. Um daraus dann ein PDF zu generieren, wird das Satzsystem Latex auf dem System benötigt. Darauf werden Sie im Zweifel aber auch auf der Konsole hingewiesen.

Der Befehl „pandoc -h“ zeigt alle Optionen und Schalter von Pandoc an. Diese sind in der Dokumentation des Projekts ausführlich beschrieben. Die meisten Schalter werden Sie kaum benötigen. Diese regeln beispielsweise das automatische Nummerieren von Überschriften, wenn Markdown-oder Pandoc-Dateien verwendet werden oder am Ende eine Satzdatei für Latex stehen soll.

Auch interessant PDFs umwandeln in Word & Co.

Onlinedokumente offline ablegen

Eine sehr gelungene Funktion ist der direkte Abruf von HTML-Seiten von einem Server. Diese können dann direkt in das Zielformat konvertiert werden. Die Ergebnisse hängen stark davon ab, wie das Ausgangsmaterial gestaltet wurde. Der Funktionsaufruf sieht so aus:

pandoc -f html -t markdown http://www.irgendwas.tld -o test.md

In diesem Beispiel würden Sie den Inhalt der Ziel-URL in eine Markdown-Datei schreiben lassen. Sicherlich ist es Ihnen auch bereits passiert, dass sich ein Server weigerte, den Inhalt mit dem gewählten Browser abzurufen. Deswegen können Sie Pandoc bei Bedarf auch einen User-Agent mitteilen, der dann an den Server übermittelt wird:

pandoc -f html -t markdown --request-header User-Agent:"Mozilla/5.0“ \ http://irgendwass.org -o text.docx

Als Zielformate stehen nahezu alle integrierten Writer der Software zur Verfügung. Pandoc wirkt auf den ersten Blick etwas spröde, spart aber nach der Einarbeitung in das Werkzeug Zeit und Speicherplatz auf dem System. Denn um zwei Office-Dateien zu konvertieren oder deren Inhalt in einer Textdatei zu schreiben, müssen Sie keinen Office-Boliden installieren.

Editoren mit Pandoc-Unterstützung

Die Vorteile von Pandoc erkennen auch immer mehr Entwickler von Texteditoren. Ein paar Auszeichnungen im Text genügen, um am Ende ein Word-Dokument oder ein PDF zu erhalten. Den Editor Typora ( https://www.typora.io/ ) gibt es für Linux, Mac-OS und Windows. Er bietet Wysiwyg bei der Arbeit mit Markdown-Dateien und ist bestens für die Zusammenarbeit mit Pandoc vorbereitet, bringt den Konverter allerdings nicht selbst mit. Direkt aus den Menüs heraus können dann aus den Dokumenten die Zieldateien erzeugt werden oder sie werden über „Import“ eingelesen. Auch für Atom, der sich in den vergangenen Jahren einer immer größeren Beliebtheit erfreut, gibt es eine Erweiterung. Das Paket „Pandoc“ integriert sich direkt in das Schreibwerkzeug und installiert eine eigene Instanz von Pandoc. Diese kommt dabei einer eventuell bereits installierten Version nicht in die Quere.

PC-WELT Marktplatz

0 Kommentare zu diesem Artikel
2394498