c't 26/2019
S. 152
Praxis
Durchsuchbare PDFs

Gratishelfer fürs papierlose Büro

Durchsuchbare PDF-Dokumente mit OCRmyPDF

Als praktischer Helfer fürs papierlose Büro macht das Linux-Tool OCRmyPDF aus eingescannten Schriftstücken durchsuchbare PDF-Dokumente. Bei Bedarf kann es Scans drehen und entzerren, Bilder optimieren und auch umfangreiche Dateien einlesen.

Briefe, Artikel und andere Schriftstücke lassen sich gut digital archivieren und sichern. Sind sie als durchsuchbare PDF-Dokumente gespeichert, braucht man auch kein Dokumenten-Management, um etwas wiederzufinden: Eine einfache Desktop-Suche stöbert ein Schreiben dann vermutlich schneller auf, als Sie einen Ordner aus dem Regal ziehen und durchblättern können.

Das kostenlose Kommandozeilentool OCRmyPDF versieht einfache PDF-Dokumente mit einer unsichtbaren, durchsuchbaren Textebene und legt sie im Format PDF/A ab, das für die Langzeitarchivierung elektronischer Dokumente gedacht ist und sich auch in vielen Jahren noch öffnen lassen soll. Dabei platziert OCRmyPDF die Textebene recht präzise im Dokument, sodass Sie Textabschnitte mit der Maus markieren und per Copy & Paste weiterverwenden können. Ganz exakt liegen die Buchstaben dabei nicht auf dem Original, unter anderem wegen fehlender Schriftarten.