Tabellen aus PDF-Dateien kopieren

Zahlen Einsen und Nullen

Sie müssen Daten in Tabellenform aus einem PDF-Dokument extrahieren, um diese in MS Excel oder anderen Anwendungen in Tabellenform weiterzuverarbeiten?

Ein mühsamer Schritt. Tabellarische Daten sind oft nicht als “Tabellen” kopierbar, d. h. es werden lediglich die Inhalte der Zellen kopiert und die Struktur der Tabelle geht verloren bzw. muss manuell wieder aufgebaut werden.

Eine Aufgabe, die immer wieder auch im Umfeld von Datenübernahmen und -migrationen stattfindet, in denen das PDF die einzige verbliebene Quelle ist in der die zu nutzenden Daten in der notwendigen Qualität und Zusammenstellung vorliegen.

Vor einiger Zeit bin ich über das frei verfügbare Tool “Tabula” gestolpert. Aktuell gekennzeichnet als “experimentell” – aber nach Nutzung und Tests basierend auf echten Daten eine bereits jetzt sehr brauchbare Lösungsoption für diese Aufgabenstellung.

Wie funktioniert das Tool?

Hier einige Beispiele:

Das PDF “The Mobile Economy 2013” enthält eine Tabelle auf Seite 56, welche nach MS Excel übernommen werden soll:
Grafik 1 Tabellen aus PDF-Dateien kopieren

Die folgenden Schritte zeigen die grundsätzliche Arbeitsweise für dieses Beispiel:

  • Installationsdatei auf Ihre lokale Festplatte von der Homepage des Tools herunterladen
  • Installieren und Starten des Tools basierend auf den Anweisungen auf der Homepage des Tools
  • Hochladen des PDF und “Submit” drücken
  • Zur angegebenen Seite navigieren und die Tabelle auswählen:
    Grafik 2 Tabellen aus PDF-Dateien kopieren
  • Wenn auch Tabellen auf den folgenden Seiten mit den gleichen Koordinaten übernommen werden sollen: “Repeat this selection” wählen.
  • “Download all data” auswählen und Sie erhalten:
    Grafik 3 Tabellen aus PDF-Dateien kopieren
  • “Download data” auswählen, um die CSV-Datei herunterzuladen. Diese Datei kann dann mit MS Excel oder anderen Anwendungen, die das verbreitete CSV-Format lesen können, weiterverarbeitet werden.

Das ist ziemlich hilfreich und es funktioniert auch bei solchen Daten:
Grafik 4 Tabellen aus PDF-Dateien kopieren
Grafik 5 Tabellen aus PDF-Dateien kopieren

Aktuell funktioniert es nur, wenn Tabellen nicht als Grafik im PDF eingebunden sind – das ist wieder eine ganz andere Geschichte.

Es existiert noch ein weiteres sinnvolles Tool für diese Problemstellung – nicht frei verfügbar, aber mit deutlich umfangreicherer Funktionalität: Nitro PDF.

Alexander Witzigmann ist seit Beginn des Jahrtausends bei TANNER und bekleidet aktuell die Position des Chief Technology Officer (CTO). Als solcher trägt er dazu bei, dass aus Technik echte Mehrwerte für die Kunden von TANNER entstehen. Das heißt, er hilft Kunden, die beinahe unüberschaubare Vielfalt an IT so einzuordnen und zu nutzen, dass daraus einfache und machbare Unterstützung für die Herausforderungen der Zukunft entsteht.
0 Response
  1. Stefan Bark

    Zunächst habe ich mich gefragt, ob es hier wirklich eine “extra” Software braucht.

    Nach Ausschneiden der Tabelle aus dem PDF Dokument lässt sich diese problemlos in einem Texteditor (z.B. das Standard – MS Notepad) einfügen. Hier zeigt sich, dass die Spalten durch Leerzeichen getrennt sind. Ein Import in Excel mit der Auswahl des Trennzeichens „Leerzeichen“ könnte also eine einfache Lösung sein.

    Dies funktioniert aber für die genannte Tabelle leider nicht ohne manuellen Eingriff, da auch innerhalb der ersten Spalte Leerzeichen verwendet werden, zum Beispiel beim Eintrag “Asia Pacific”. Damit würde das Wort “Asia” in die erste und “Pacific” in die zweite Spalte eingefügt. Dieses Problem lässt sich wiederum einfach durch das Einfügen von Hochkommas vor und hinter den Wörtern mit Leerzeichen lösen.

    Tabellen bei denen in den einzelnen Zellen keine Leerzeichen verwendet werden, lassen sich nach oben beschriebener Vorgehensweise einfach auch ohne Hilfssoftware in Excel importieren. Für die genannte Tabelle mit insgesamt 8 Zeilen bei denen lediglich 4 Einträge in Zeile 1 mit Hochkommas geklammert werden müssten, lässt sich über den Einsatz eines separaten Tools noch streiten. Bei größeren Tabellen und speziell bei Tabellen in denen auch in anderen Feldern Leerzeichen verwendet werden, sind aber separate Tools wie von Herrn Witzigmann genannt sicherlich ein deutlicher Zeitgewinn.

Hinterlasse einen Kommentar