1876865

Die PDF-Werkstatt für Linux

20.01.2014 | 11:24 Uhr |

Schneiden – Kleben – Kombinieren: Wer PDFs erstellen oder bearbeiten will, bekommt unter Linux einiges geboten, um jedes Dokument in Form zu bringen zu können.

PDF-Dokumente sind dann ideal, wo es um den unkomplizierten Austausch von Dokumenten zwischen Geräten aller Art geht – egal ob Linux-PC, Windows-Notebook oder Smartphone. Das Format sorgt dafür, dass ein Dokument immer gleich aussieht, da auch die Beschreibung von Schriftarten im Dokument mit enthalten ist. Layout, Vektorelemente und Text sind problemlos skalierbar. Ursprünglich entwickelte Adobe 1993 das Portable Document Format (PDF) als geschlossenen, kommerziellen Standard, dem erst die kostenlose Version des Acrobat Reader auf die Sprünge half. Seit 2008 ist das Format eine ISO-Norm und damit zum offenen Standard avanciert.

Okular: Der PDF-Reader unter KDE ist das Gegenstück zu Evince (Dokumentbetrachter) und bietet ein nützliches Werkzeug, um Ausschnitte in die Zwischenablage zu befördern.
Vergrößern Okular: Der PDF-Reader unter KDE ist das Gegenstück zu Evince (Dokumentbetrachter) und bietet ein nützliches Werkzeug, um Ausschnitte in die Zwischenablage zu befördern.

PDF-Reader als Grundausstattung

Ein PDF-Betrachter ist heute Teil einer jeden Linux-Distribution, die auf den Desktop abzielt: Bei Linux-Systemen mit Gnome und Gnome-affinen Desktop-Umgebungen wie XFCE und Cinnamon ist dies meist das Programm Evince. Bei KDE kümmert sich Okular um die Darstellung von PDF-Dateien. Und in schlanken Distributionen ist meist das schlichte Xpdf an Bord.

Die Linux-Version des Acrobat Reader sollten Sie hingegen links liegen lassen, denn das Programm wird von Adobe für Linux seit der Version 9 nicht mehr aktiv weiterentwickelt und ist damit anfällig für Sicherheitslücken, die von eingebetteten Javascript-Schnipseln in PDFs ausgenutzt werden könnten. Die alternativen Anzeigeprogramme sind dem Adobe-Produkt unter Linux also sogar vorzuziehen.

Adobe übergab mit der Standardisierung des Formats auch die Urheberrechte über die Spezifikationen zum Erstellen und Bearbeiten von PDF an die ISO-Vereinigung. Damit fiel die Monopolstellung des Adobe Distiller als eines der wenigen Programme, das PDFs erzeugen konnte. Gerade unter Linux entstanden seitdem zahlreiche Open-Source-Lösungen zur Erstellung und Bearbeitung von PDFs. Die folgenden Programme und Tools helfen dabei, auch trickreiche Aufgaben rund um das nützliche Dokumentformat zu meistern.

Linux: PDF-Generator einrichten

Front-End für pdftk: PDF Chain stellt mehrere PDFDokumente neu zusammen, kann Dateien in einzelne Seiten aufteilen, mit Wasserzeichen versehen und Dateien in ein PDF einbetten.
Vergrößern Front-End für pdftk: PDF Chain stellt mehrere PDFDokumente neu zusammen, kann Dateien in einzelne Seiten aufteilen, mit Wasserzeichen versehen und Dateien in ein PDF einbetten.

PDF Chain: Dokumente neu zusammenstellen

Aus mehreren PDF-Dateien macht PDF Chain ein neues Dokument. Bis zu 26 Einzeldateien kann das Open-Source-Programm dazu öffnen. Auch einzelne Seiten lassen herauspicken und in eine neue PDF-Datei schreiben. Zudem kann es alle Seiten eines Dokuments automatisch in einzelne PDFs zerlegen und ganze Dokumente mit Wasserzeichen versehen. Im Hintergrund nutzt PDF Chain für viele Aktionen das mächtige Kommandozeilen-Tool pdftk. Die grafische Oberfläche fällt zwar weitgehend in Englisch aus, die Bedienung ist aber weitgehend intuitiv.

Installation: PDF Chain ist den meisten Linux-Distributionen bekannt und dort in den Software-Quellen enthalten. Unter Ubuntu, Debian und Fedora liegt es im Paket mit dem Namen „pdfchain“ vor, und für Open Suse gibt es immerhin ein inoffizielles Paket im Build Service unter http://software.opensuse.org/package/pdfchain . Quelltext und Dokumentation bietet die Webseite der Entwickler unter http://pdfchain.sourceforge.net an.

Verwendung: Nach dem Start des von PDF Chain präsentiert ein mehrseitiges Programmfenster alle einzelnen Funktionen mit jeweils eigenen Menüs: Unter „Concatenate“ fügen Sie Dateien zusammen, „Burst“ teilt eine Datei in einzelne PDFs auf, „Background/Stamp“ dient für Wasserzeichen, und „Attachment“ kann fremde Dateien in ein PDF einbetten. Weitere Funktionen, etwa zum Komprimieren eines PDFs und zum Abspeichern eingebetteter Dateien, finden sich unter dem Menüpunkt „Tools“.

Um aus mehreren PDF-Dokumenten eines zu machen, laden Sie über das Plus-Zeichen unter „Merge“ die gewünschten Dateien. Zur Auswahl einzelner Seiten markieren Sie eines der geladenen Dokumente in der Liste, klicken in der ersten Spalte die Angabe „1-end“ an und tragen dort stattdessen die gewünschten Seiten ein. Beispielsweise übernimmt die Angabe „2-5“ die Seiten zwei bis fünf und „8,11,15“ würde die Seiten 8, 11 und 15 aus einem Dokument übernehmen. Die Seitenorientierung stellen Sie in Schritten von 90 Grad unter „Rotation“ ein. Ein Klick auf „Speichern“ erzeugt das neue Dokument.

PDFs per Mausklick mischen: Die Java-Anwendung PDF Split and Merge bringt einen grafischen Editor, um Dokumente und Einzelseiten zu neuen PDFs zusammenzufügen.
Vergrößern PDFs per Mausklick mischen: Die Java-Anwendung PDF Split and Merge bringt einen grafischen Editor, um Dokumente und Einzelseiten zu neuen PDFs zusammenzufügen.

PDF Split and Merge: Teilen und umsortieren

Dieses Programm ist in Java geschrieben und bietet eine umfangreiche grafische Oberfläche zum Zusammenfügen und Zerlegen von PDF-Dokumenten. PDF Split and Merge (kurz PDF Sam) kann dabei Seiten drehen, umsortieren, einzeln abspeichern und einfügen. Anders als PDF Chain können Sie damit Dokumente per Maus zusammenstellen und sehen dabei stets eine Vorschau des fertigen PDFs. Die Oberfläche lässt sich auch nach Deutsch umschalten.

Installation: In den Software-Quellen von Ubuntu und Debian finden Sie nur veraltete Versionen von PDF Split and Merge, die wichtige Funktionen noch nicht bieten. Es empfiehlt sich stattdessen die Installation der neuesten Variante direkt von der Entwicklerwebseite www.pdfsam.org/download .

Kompilieren brauchen Sie dazu nichts, da es sich um ein plattformunabhängiges Java-Programm handelt. Es muss aber eine Java-Runtime auf dem Zielsystem verfügbar sein. In Ubuntu und seinen Varianten installieren Sie dazu die Runtime mit

sudo apt-get install openjdk-7-jre

Laden Sie dann die ZIP-Datei „pdfsam-2.2.2-out.zip“ herunter, und entpacken Sie den Inhalt in ein beliebiges Verzeichnis. Sie führen dann von dort aus das Java-Programm über das mitgelieferte Start-Script mittels

sh bin/run.sh

in einem Terminal-Fenster aus.

Verwendung: Nach dem ersten Start liegt PDF Sam zunächst in Englisch vor, was Sie links in der vertikalen Menüleiste unter „Settings -> Language“ auf Deutsch umstellen können. Nach einem Klick auf „Save“ müssen Sie das Programm erneut starten. Die Menüleiste links zeigt alle Funktionen, die als Plug-ins realisiert sind. Den grafischen Editor für PDFs finden Sie dort unter „Visuelle Dokumentzusammenstellung“, um aus mehreren PDF-Dateien eine neue zu machen. Die Seiten der geladenen PDFs können Sie dazu mit der Maus in das untere neue Dokument ziehen und auch die Reihenfolge einfach ändern.

Desktop-Delikatessen für Linux

Gescannte Seiten optimieren: Scantailor macht aus Bildern vom Scanner oder aus der Digitalkamera perfektes Quellmaterial für ein ansehnliches PDF.
Vergrößern Gescannte Seiten optimieren: Scantailor macht aus Bildern vom Scanner oder aus der Digitalkamera perfektes Quellmaterial für ein ansehnliches PDF.

Scantailor: Saubere Scans für PDFs

Um aus nicht ganz sauber eingescannten, verzerrten oder schief abfotografierten Seiten ein ansehnliches PDF zu schneidern, müssen Sie nicht für jede Seite ein Bildbearbeitungsprogramm zur Korrektur von Kontrast, Ausrichtung und Pixelfehlern bemühen. Die Open-Source-Software Scantailor macht die Zusammenstellung von Scans zu einem PDF bequem: Es fasst alle Schritte bis zur Ausgabe von fertigen Einzelseiten als TIFFs in einem übersichtlichen Arbeitsablauf auf einer englischsprachigen Oberfläche zusammen. Die resultierenden, korrigierten TIFF-Bilder müssen Sie dann noch manuell zu einem PDF zusammenbauen, wofür sich das gleich im Anschluss beschriebene Tool Gscan2pdf eignet.

Installation: Scantailor ist in den Software-Quellen von Ubuntu und Co. Sowie von Fedora enthalten und über den Paketmanager flott installiert. Das weniger gut bestückte Open Suse bekommt unter http://software.opensuse.org/package/scantailor wieder ein inoffizielles Paket serviert. Debian- Anwender finden derzeit ein fertiges Paket nur im Unstable-Zweig, und der Quelltext des Open-Source-Programms liegt auf http://scantailor.sourceforge.net bereit.

Verwendung: Der erste Schritt ist immer das Erstellen eines neuen Projekts mit „New Project“. Hier legen Sie dann auch gleich den Eingabe- und Ausgabe-Pfad fest. Als Quellmaterial erwartet Scantailor einzelne Scans im Format JPG, PNG und TIFF, die zusammen im Input-Directory liegen. Die Dateinamen sollten bereits der gewünschten Reihenfolge im Dokument entsprechen. Eine automatische Korrektur der DPI mit „Fix DPIs“ ist immer empfehlenswert. Die geladenen Seiten zeigt Scantailor dann auf der rechten Seite an und links, in der Seitenleiste, arbeiten Sie dann die vorgegebenen Schritte ab. Am Ende erzeugt Scantailor jede Seite als TIFF im Ausgabeverzeichnis, die dann noch auf den Zusammenbau zu einem PDF warten.

Aus Bildern PDFs backen: Gscan2pdf kann Bilderserien einlesen, sortieren und ein PDF erstellen. Die optionale Texterkennung benötigt ein externes Programm wie Tesseract-OCR.
Vergrößern Aus Bildern PDFs backen: Gscan2pdf kann Bilderserien einlesen, sortieren und ein PDF erstellen. Die optionale Texterkennung benötigt ein externes Programm wie Tesseract-OCR.
© PC-WELT

Gscan2pdf: Aus Bildern PDFs erzeugen

Wenn das Material für ein PDF nicht als Text vorliegt, sondern als Einzelbilder, was beispielsweise bei eingescannten Dokumenten der Fall ist, hilft das kompakte Programm Gscan2pdf weiter. Es bietet eine einfache grafische Oberfläche zum Einlesen und Sortierung von Seiten.

In Verbindung mit einer optionalen Texterkennung (OCR) wie Tesseract-OCR kann Gscan2pdf zudem versuchen, Scans in Texte umzuwandeln. Generell ist das Tool aber auch einfach zur Erzeugung von PDFs aus Bildern nützlich.

Installation: Das Programm gehört bei den meisten Distributionen zur leicht nachrüstbaren optionalen Ausstattung. Über die Paketmanager von Debian, Ubuntu, Fedora installieren Sie dazu das gleichnamige Paket „gscan2pdf“. Für Open Suse gibt es ein fertiges Einzelpaket zur Installation unter http://software.opensuse.org/package/gscan2pdf .

Verwendung: Nach dem Aufruf von Gscan2pdf laden Sie über das Öffnen-Symbol in der oberen Menüleiste die gewünschten Bilder, wobei Sie im Dateidialog auch gleich mehrere auswählen können. In der linken Leiste lassen sich die Einzelseiten per Ziehen und Ablegen neu sortieren. Ein fertiges PDF erhalten Sie dann über das Speichern- Symbol.

Suchen und finden: Pdfgrep funktioniert ähnlich wie Grep, ist aber für PDF-Dateien maßgeschneidert. Die Optionen entsprechen weitgehend jenen von Grep.
Vergrößern Suchen und finden: Pdfgrep funktioniert ähnlich wie Grep, ist aber für PDF-Dateien maßgeschneidert. Die Optionen entsprechen weitgehend jenen von Grep.

Pdfgrep: Textsuche in PDFDateien

Für die Archivierung und Volltextsuche in PDF-Dokumenten bieten sich unter Linux Desktop-Suchmaschinen wie Recoll und Tracker an, die einen Index der Dateien und deren Inhalt aufbauen und pflegen. Diese Suchmaschinen stehen aber nicht immer zur Verfügung. Wer mal eben nur in einer Reihe von PDF-Dateien eine Textstelle finden will, braucht zusätzlich ein schlankes und schnelles Tool wie Pdfgrep. Das Kommandozeilenprogramm orientiert sich in seiner Funktion am bekannten Grep, durchsucht aber nur PDF-Dateien.

Installation: Alle populären Distributionen kennen Pdfgrep in ihren Paketquellen, auch Open Suse. Es lässt sich ganz einfach aus den Standard-Repositories mit den jeweiligen Paketmanager über das Paket mit gleichem Namen nachrüsten.

Verwendung: Als Kommandozeilen-Tool ist Pdfgrep genauso wie das normale Grep eine Sache für das Terminal- Fenster. Angenommen, Sie möchten alle PDFs im Ordner „/home/benutzer/ archiv“ nach dem Ausdruck „Wo ist das Wort“ durchsuchen, wechseln in der Shell mit

cd /home/benutzer/archiv

in dieses Verzeichnis und geben dort den Befehl

pdfgrep "Wo ist das Wort" *

ein. Genauso wie Grep unterstützt auch Pdfgrep reguläre Ausdrücke sowie wichtige Optionen wie „-i“ für eine Suche ohne Berücksichtigung der Groß- und Kleinschreibung.

Druckertreiber: PDFs einfach erzeugen

Einige der Linux-Platzhirsche wie Libre Office, Apache Open Office, Inkscape und Gimp können Dokumente direkt als PDF speichern und brauchen dafür weder Plug-ins noch Extra-Tools.

Aber auch unabhängig davon gibt es unter Linux eine einfache Methode, PDFs aus fast beliebigen Anwendungen heraus über die Druckfunktion zu erzeugen. Denn diese arbeitet sowieso mit dem Format Postscript, das sich leicht nach PDF konvertieren lässt. Über einen virtuellen Drucker werden dazu die Daten aus der Anwendung heraus erst in die Beschreibungssprache Postscript umgewandelt, dann aber nicht zu einem tatsächlichen Drucker geschickt, sondern in eine PDF-Datei geschrieben.

Diese Fähigkeit bringen Ubuntu & Co, Debian, Open Suse und Fedora bereits mit, und es muss dazu nicht mal das Drucksystem Cups installiert sein. In einer Anwendung gehen Sie dazu einfach auf die Druckfunktion und wählen dann im Druckdialog den Eintrag „In Datei drucken“.

Bei Distributionen, die den PDF-Drucker nicht vorinstalliert mitbringen, hilft aber auch Cups weiter: Das Paket „cups-pdf“, welches in den Paketquellen von Ubuntu, Debian und Fedora enthalten ist sowie unter http://software.opensuse.org/package/cups-pdf für Open Suse bereitsteht, bietet ebenfalls einen PDF-Drucker, der allerdings über Cups funktioniert.

Jede Anwendung, die Cups nutzt, um Dokumente zum Drucker zu schicken, kann damit ebenfalls PDFs erstellen.

0 Kommentare zu diesem Artikel
1876865