Tutorial

Wie man eine gescannte PDF-Datei per OCR erfasst und durchsuchbar macht

Erfahren Sie, wie OCR (optische Zeichenerkennung) funktioniert, was die Genauigkeit beeinflusst und wie Sie mit dem browserbasierten OCR-Tool von LuraPDF ein gescanntes PDF in ein durchsuchbares, kopierbares Dokument umwandeln können.

LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 6 min read

Ein gescanntes PDF ist ein digitales Foto eines Dokuments. Die Seiten sind Bilder. Man kann keinen Text auswählen, nach Wörtern suchen, Sätze kopieren oder den Inhalt einem Textverarbeitungsprogramm zuführen. Für die Informationsrecherche ist ein gescanntes PDF daher praktisch unbrauchbar.

OCR (optische Zeichenerkennung) löst dieses Problem, indem es die Bilder analysiert und eine Textebene erstellt, die den visuellen Inhalt überlagert. Das Ergebnis: eine PDF-Datei, die dem Originalscan zum Verwechseln ähnlich sieht, aber eine unsichtbare Textebene enthält, die alles auswählbar, durchsuchbar und kopierbar macht.

Wie OCR funktioniert

LuraPDF verwendet Tesseract.js, die browserkompilierte Version von Tesseract – einer der präzisesten Open-Source-OCR-Engines, die von Google gepflegt und ursprünglich von HP Labs entwickelt wurde. Tesseract nutzt ein neuronales Netzwerkmodell (LSTM-basiert), das mit Millionen von Dokumentseiten in Dutzenden von Sprachen trainiert wurde.

Die OCR-Pipeline:

Seitenrendering: Jede PDF-Seite wird als Canvas-Bild mit hoher Auflösung (300+ DPI für beste Genauigkeit) gerendert.
Vorverarbeitung: Bildverbesserung – Binarisierung, Rauschunterdrückung, Entzerrung (Begradigung gedrehter Scans)
Layoutanalyse: Erkennung von Textbereichen, Spalten, Tabellen und Nicht-Text-Elementen
Zeichenerkennung: Das neuronale Netzwerk klassifiziert jedes Zeichen aus segmentierten Textbereichen.
Nachbearbeitung: Bewertung mithilfe eines Sprachmodells zur Unterscheidung ähnlicher Zeichen (z. B. „l“ vs. „1“, „O“ vs. „0“)
PDF-Erstellung: Der erkannte Text wird als unsichtbare Textebene eingebettet, die präzise über den entsprechenden visuellen Zeichen positioniert ist.

Die unsichtbare Textebene ermöglicht die Suche. Das visuelle Erscheinungsbild der Seite entspricht dem ursprünglichen Scanbild – Sie sehen genau das, was Sie gescannt haben, aber der darunterliegende Text ist nun maschinenlesbar.

Was beeinflusst die Genauigkeit der OCR?

Die Genauigkeit variiert erheblich mit der Qualität der Eingangsdaten:

Scanauflösung

300 dpi sind das Minimum für zuverlässige Genauigkeit. Unter 200 dpi verschlechtert sich die Zeichenerkennung erheblich. Scannen Sie Dokumente für die Texterkennung (OCR) immer mit mindestens 300 dpi.

Dokumente, die mit 150 dpi oder weniger gescannt wurden, sollten vor der OCR-Verarbeitung in höherer Auflösung erneut eingescannt werden. Die OCR-Verarbeitung von Scans mit niedriger Auflösung liefert unabhängig von der Qualität der verwendeten Engine schlechte Ergebnisse.

Schrift- und Druckqualität

Gedruckter Text (Laserdruckerausgabe, gesetzte Bücher): 98–99 % Genauigkeit bei sauberen Originalen
Hochwertige Handschrift mit klaren Zeichen: 85–95 %
Blasser oder verblasster Text: 80–95 % je nach Kontrast
Kopierpapier: 60–85 %
Alte Zeitung / Schreibmaschine: 90–95 % mit sauberen Scans
Schreibschrift: 40–70 % – neuronale Netze haben Schwierigkeiten mit Schreibschrift

Seitenausrichtung

Stark geneigte oder gedrehte Seiten beeinträchtigen die Genauigkeit. Die meisten OCR-Systeme, einschließlich Tesseract, erkennen und korrigieren leichte Drehungen (bis zu ca. 10 Grad) automatisch. Stark gedrehte Seiten sollten zunächst manuell mit der Funktion „PDF drehen“ korrigiert werden.

Sprache

Tesseract unterstützt über 100 Sprachen. Das OCR-Tool von LuraPDF erkennt Englisch automatisch. Bei Dokumenten mit nicht-lateinischen Schriften oder in anderen Sprachen als Englisch verbessert die Sprachauswahl die Genauigkeit erheblich.

So funktioniert die Texterkennung (OCR) von PDFs mit LuraPDF

OCR-Tool öffnen: Navigieren Sie zu LuraPDF OCR PDF
Hochladen der gescannten PDF-Datei: Ziehen Sie Ihre Datei per Drag & Drop in das entsprechende Feld.
Sprache auswählen (falls nicht Englisch): Wählen Sie die primäre Sprache des Dokuments.
Klicken Sie auf „OCR ausführen“: Die Verarbeitung erfolgt seitenweise in Ihrem Browser. Die Dauer variiert je nach Dokumentlänge – ein Scan von 20 Seiten dauert auf einem modernen Computer in der Regel 30–90 Sekunden.
Durchsuchbare PDF-Datei herunterladen: Die Ausgabe ist eine PDF-Datei mit den originalen Scanbildern und einer eingebetteten Textebene.

Überprüfung des Ergebnisses

Nach der OCR-Texterkennung die Genauigkeit überprüfen:

Text auf der Seite auswählen – der Text sollte genau über den gedruckten Zeichen auswählbar sein.
Suche (Strg+F / Cmd+F) nach einem gemeinsamen Wort – es sollte gefunden werden
Kopieren Sie einen Absatz und fügen Sie ihn in einen Texteditor ein – die Ausgabe sollte lesbar sein.

Bei ungenügender Genauigkeit überprüfen Sie zuerst die Qualität des Eingangsscans, bevor Sie andere Werkzeuge ausprobieren.

Wann sollte OCR vor anderen Operationen ausgeführt werden?

OCR ermöglicht zusätzliche LuraPDF-Funktionen, die bei reinen Bild-PDFs nicht funktionieren:

PDF komprimieren nach OCR: Sobald der Text extrahiert ist, können die Bildbereiche manchmal stärker komprimiert werden.
PDF zu Word nach OCR: Die Konvertierung einer per OCR bearbeiteten PDF-Datei in ein Word-Dokument liefert bearbeitbaren Text; die Konvertierung eines Rohscans ergibt eine Word-Datei mit eingebetteten Bildern.
PDF nach OCR schwärzen: Die textbasierte Schwärzung funktioniert einwandfrei bei OCR-Dokumenten.
Suchen und Extrahieren: Gezielte Informationen finden und kopieren, ohne sie neu einzugeben

Datenschutz: OCR läuft in Ihrem Browser

Tesseract.js führt den gesamten OCR-Prozess lokal mit WebAssembly aus. Ihre gescannten Dokumente – die häufig medizinische Unterlagen, Finanzberichte, juristische Dokumente oder personenbezogene Daten enthalten – verlassen Ihr Gerät nie. Kein externer Server verarbeitet Ihre Datei.

Dies ist ein wesentlicher Vorteil gegenüber Cloud-OCR-Diensten, die zwangsläufig eine Kopie von allem erhalten, was Sie verarbeiten.

Einschränkungen der browserbasierten OCR

Bearbeitungszeit

Tesseract.js ist langsamer als die native Desktop-Version von Tesseract oder Cloud-OCR-APIs. Rechnen Sie je nach Hardware mit etwa 3–8 Sekunden pro Seite. Ein 50-seitiges Dokument kann mehrere Minuten dauern.

Tabellen

Tesseract erkennt Tabelleninhalte, stellt die Tabellenstruktur in der Textebene des PDFs jedoch nicht wieder her – der Text ist zwar lesbar, die Zellenstruktur bleibt aber nicht erhalten. Um strukturierte Tabellen zu extrahieren, konvertieren Sie das per OCR erfasste PDF in Word und formatieren Sie die Tabelle manuell neu.

Mathematische Notation

Gleichungen und mathematische Symbole im LaTeX-Stil weisen eine geringere Genauigkeit auf. Tesseract-Modelle sind für natürlichsprachlichen Text optimiert.

Handschrift

Wie bereits erwähnt, ist die Genauigkeit von Schreibschrift begrenzt. Druckschrift ist genauer. Bei wichtigen handschriftlichen Dokumenten sollte jede Seite manuell überprüft werden.

Häufig gestellte Fragen

Der per OCR erfasste Text stimmt nicht mit den Zeichen überein – handelt es sich um einen Fehler? Dies kann bei stark verzerrten Scans vorkommen. Die Textpositionen werden anhand der erkannten Zeichenpositionen berechnet. Bei einer nicht standardmäßigen Seitengeometrie kann es jedoch zu Abweichungen bei der Ausrichtung kommen. Versuchen Sie, die PDF-Datei vor der OCR-Verarbeitung zu drehen, um die Verzerrung zu korrigieren.

Kann ich nur bestimmte Seiten per OCR erfassen? LuraPDF verarbeitet alle Seiten. Falls Sie die Texterkennung nur auf bestimmten Seiten benötigen, extrahieren Sie diese Seiten zunächst mit PDF-Seiten extrahieren, führen Sie die Texterkennung durch und führen Sie die Ergebnisse optional zusammen.

Verändert die OCR-Texterkennung das visuelle Erscheinungsbild meines gescannten Dokuments? Nein. Die Originalscanbilder bleiben exakt erhalten. Es wird lediglich eine unsichtbare Textebene hinzugefügt.

Kann ich eine OCR-Texterkennung auf eine PDF-Datei anwenden, die bereits Textseiten und gescannte Seiten enthält? Ja – Tesseract verarbeitet bildbasierte Seiten und fügt eine Textebene hinzu. Seiten, die bereits eine Textebene enthalten, bleiben davon unberührt.

Mein Dokument ist auf Arabisch / Chinesisch / Japanisch – funktioniert OCR? Ja, aber wählen Sie vor der Ausführung die richtige Sprache im Tool aus. Die Genauigkeit von Tesseract für CJK- und Rechts-nach-links-Sprachen ist gut, variiert aber stärker mit der Scanqualität als bei Dokumenten mit lateinischer Schrift.

OCR wandelt archivierte, gescannte Dokumente in zugängliche, durchsuchbare und verarbeitbare Informationen um. Ein Schrank voller gescannter Verträge wird so zu einer durchsuchbaren Datenbank. Ein Stapel Krankenakten wird zu einem Dokument, das Sie tatsächlich durchsuchen können. Der Vorgang dauert nur Sekunden bis Minuten und läuft vollständig auf Ihrem Gerät ab.