c't 16/2018
S. 98
Test
OCR-Software
Aufmacherbild
Bild: Albert Hulm

Es werde Schrift

OCR-Programme für Windows im Test

OCR-Programme analysieren Bilddateien auf erkennbare Zeichen. Den erkannten Text speichern sie – im Idealfall so, dass der Lesefluss des Original-Layouts erhalten bleibt – zum Beispiel als PDF- oder Office-Dokument.

Schriftstücke lassen sich ratzfatz mit einem Scanner, der Handy-Kamera oder als Screenshot festhalten. Bevor ein Programm die Muster im Bild als Text interpretieren und verarbeiten kann, muss es die einzelnen Pixelgruppen möglichst fehlerfrei als Buchstaben und Ziffern identifizieren und als Text speichern.

Die sogenannte optische Zeichenerkennung – auf Englisch: Optical Character Recognition (OCR) – lässt sich für mehrere Zwecke nutzen: In der einfachsten Form liefert sie die Textinhalte aus Scans oder Fotos von Texten, die der Anwender im Original betrachtet. Dadurch lassen sich Zeichenfolgen im Bild etwa zum Kopieren in einen Editor mit der Maus markieren oder per Textsuche ausfindig machen.

Die hier vorgestellten OCR-Pakete für Windows sollen aber nicht nur ein X von einem U unterscheiden, sondern auch ein X von einem X. Sie transformieren die Vorlagen auf Wunsch in Office-Dokumente etwa vom Format DOCX, ODT oder durchsuchbares PDF, die der Anwender weiter bearbeiten kann. Dazu bedarf es in vielen Fällen recht ausgefuchster Funktionen, zum Beispiel, um eine Designer-Schrift aus der Vorlage durch einen ähnlich anmutenden Font des Arbeitsplatzrechners zu ersetzen. Und damit ist es noch nicht getan: Während sich der Lesefluss in einem Brief oder einer Buchseite von selbst ergibt, muss ein Programm bei einem mehrspaltigen Text erst einmal herausfinden, in welcher Reihenfolge die Wörter eines Prospekts oder einer Zeitschriftenseite zusammengehören.

Wir haben die Windows-Anwendungen FineReader 14, OmniPage Ultimate 19 und das ganz neue Readiris 17 zum Mehrkampf antreten lassen. Die Disziplinen: fehlerfreie Zeichenerkennung, logisch richtige Gliederung der Ausgabedokumente, die Berücksichtigung typografischer Details wie Schriftgröße und -font sowie komfortable Arbeitsabläufe. OmniPage und Readiris gibt es auch für macOS, diese Ausführungen haben wir aber nicht getestet.

Die hier getesteten Programmpakete sind für solche Nutzer optimiert, die im interaktiven Betrieb die Kontrolle über Details behalten wollen.