Viele Dokumente werden heutzutage direkt als PDF erstellt. Dennoch hat die Funktion „Scan & OCR“ in Adobe Acrobat noch ihre Berechtigung. Damit werden gescannte Dokumente wie alte Datenbestände oder Rechnungen, die mit der Post kommen, optimiert. In folgendem Beitrag  möchte ich dazu einige Tipps geben.

Optische Verbesserung

Oft kommt es vor, dass gescannte Dokumente optisch nicht einwandfrei sind. Sie wurden beispielsweise schräg eingescannt oder haben Flecken. Mit der „Verbessern“-Funktion in „Scan & OCR“ können solche Mängel schnell behoben werden.

  1. Wenn das Dokument in Adobe Acrobat geöffnet ist: Aktivieren Sie das Tool „Scan & OCR“ in der rechten Seitenleiste. Wenn dieses hier nicht gelistet ist, finden Sie es unter den weiteren Werkzeugen (letztes Icon in dieser Leiste).
  2. Wählen Sie im Menü „Verbessern“ die Option „Gescanntes Dokument“.
  3. In den „Einstellungen“ unter „Filter“ können Sie die Verbesserungsoptionen präzise bestimmen.
  4. Die Option für die Texterkennung können Sie hier bereits aktivieren und einstellen oder deaktivieren.
  5. Bestätigen Sie die Auswahl der Einstellungen mit „OK“ und klicken Sie dann auf den blauen Button „Verbessern“, um den Vorgang zu starten.

Folgende Verbesserungsoptionen stehen zur Verfügung:

  • Wählt, welche Seiten bearbeitet werden sollen: Alle Seiten, die aktuelle Seite oder ein ausgewählter Seitenbereich.
  • Kleine Größe/Hohe Qualität: Mit diesem Regler legen Sie das Verhältnis zwischen der Dateigröße und der Qualität fest. Diese beiden Merkmale sind komplementär. Es gilt, einen geeigneten Mittelwert zu finden, bei dem die Bildqualität gut genug und die Dateigröße möglichst klein ist.
  • Filter geben weitere Verbesserungsmöglichkeiten:
  • Verzerrung entfernen: Wurde ein Dokument schräg eingescannt, kann es durch die Aktivierung automatisch geradegerückt werden.
    • Hintergrund entfernen: Das Programm macht nahezu weiße Bereiche auf grau abgestuften oder farbigen Seiten ganz weiß. Dies funktioniert natürlich nicht bei 1-Bit-Bildern (schwarz-weiße Seiten ohne Graustufen).
    • Rasterung entfernen: Entfernt Rasterpunkte, die potenziell die JPEG-Komprimierung beeinträchtigen, Moiré-Muster hervorrufen und die Texterkennung erschweren können.
    • Textschärfe erhöhen: Erhöht den Kontrast, um die Textqualität zu verbessern. Der Standardwert „Niedrig“ kann für die meisten Dokumente verwendet werden. Der Wert sollte bei geringer Qualität des Papierdokuments und undeutlichem Text erhöht werden.

In älteren Versionen von Adobe Acrobat gab es drei weitere Optionen, die vermutlich in die eben beschriebenen Filteroptionen integriert wurden: Flecken entfernen,  Halo-Effekt/Farbe entfernen Kantenschatten entfernen.

Text erkennen (OCR)

OCR steht für Optical Character Recognition. Diese Technologie erkennt Buchstaben in verschiedenen Bild-Dokumenten (gescannte Papiere, PDF-Dateien, mit einer Digitalkamera aufgenommene Bilder) und wandelt diese in bearbeitbare und durchsuchbare Daten um. Die Funktion kann in Adobe Acrobat direkt für mehrere Dateien ausgewählt werden, sodass schnell ganze Verzeichnisse von Dokumenten mit der Texterkennung optimiert werden können.  Die optische Verbesserung für mehrere Dateien hingegen kann nur über ein anderes Adobe-Acrobat-Werkzeug („Aktionsassistent“) ausgeführt werden.

Die Funktion „Text erkennen“ im Acrobat hat drei Einstellungen, die sich unter „Ausgabe“ verbergen:

  • Durchsuchbares Bild

Diese Option stellt sicher, dass der Text durchsucht und ausgewählt werden kann. Sie erhält das Originalbild, entfernt gegebenenfalls eine Verzerrung und platziert darüber eine unsichtbare Textebene. Die Auswahl für „Neuberechnen auf“ im selben Dialogfeld entscheidet, auf welche Auflösung das Bild neu berechnet wird. Achtung: 600 dpi sind voreingestellt und machen die Datei unter Umständen größer. Hier kann auch eine kleinere Auflösung gewählt werden, um die Dateigröße zu verringern.

  • Durchsuchbares Bild (exakt)

Diese Option macht den Text ebenfalls durchsuch- und auswählbar. Die Möglichkeit, das Bild mit einer anderen Auflösung neu zu berechnen, gibt es hier allerdings nicht. Die Option ist zu empfehlen, wenn das Originalbild unverändert bleiben muss.

  • Bearbeitbare Texte und Bilder (ehemals „ClearScan“)

Bei der dritten Funktion analysiert Adobe Acrobat den Seitenaufbau. Textbereiche werden erkannt und in tatsächlichen Text umgewandelt. Bilder bleiben weiterhin Bilder. Auffällig dabei ist, dass es sich bei der Schriftart nicht um Arial oder Times handelt, vielmehr „zeichnet“ das Programm die Texte mit einem eigens aus dem Bild generierten Zeichensatz nach. Dieser Vorgang wird auch bei der Funktion „PDF bearbeiten“ aufgerufen und automatisch ausgeführt.

Erkannten Text korrigieren

Nachdem die Texterkennung bei den ersten beiden Optionen („Durchsuchbares Bild“ und „Durchsuchbares Bild (exakt)“) abgeschlossen ist, haben Sie die Möglichkeit, Textstellen zu prüfen, die Adobe selbst als problematisch einstuft. Diese Funktion finde sich ebenfalls bei „Scan & OCR“ unter „Text erkennen“. Zwar gibt es keine hundertprozentige  Sicherheit, dass der Text nur hier nicht korrekt erkannt wurde, aber die Funktion ist dennoch hilfreich, um das Ergebnis zu optimieren. Weil der Text bei der dritten Option „Bearbeitbare Texte und Bilder“ nachgezeichnet wird, gibt es diese Korrekturmöglichkeit hier nicht.

Hintergrund zu dieser Artikelreihe

Die Auswahl der Themen und deren Umfang orientieren sich an den Fragen und Problemen, mit denen Anwenderinnen und Anwender im Bereich der technischen Dokumentation in den letzten 25 Jahren immer wieder auf mich zugekommen sind. Funktionen, die auch mit dem Adobe Reader genutzt werden können, sind kursiv gekennzeichnet und ggf. ist die Programmversion vermerkt.