100 % privatSofortige VerarbeitungFür immer frei

OCR-PDF online – Kostenlos, nur im Browser, über 100 Sprachen

Konvertieren Sie gescannte PDFs in durchsuchbare Text-PDFs – ganz ohne Upload. Tesseract WASM nutzt OCR direkt in Ihrem Browser. Über 100 Sprachen, kein Server, keine Registrierung erforderlich.

Gescannte PDFs durchsuchbar machen – ohne sie hochzuladen

Ein gescanntes PDF ist ein Foto eines Dokuments. Es sieht aus wie Text, enthält aber keine tatsächlichen Textdaten – nur eine Pixelmatrix. Die Suche funktioniert nicht. Kopieren und Einfügen schlägt fehl. PDF-Reader können es nicht indizieren. Tools zur Textextraktion liefern keine Ergebnisse. Die Lösung ist die optische Zeichenerkennung (OCR): ein Verfahren, das das Pixelmuster jeder Seite liest, Zeichen identifiziert und den Text rekonstruiert. LuraPDF integriert Tesseract – die weltweit am häufigsten verwendete Open-Source-OCR-Engine, die von Google weiterentwickelt wird – als WebAssembly-Binärdatei, die direkt in Ihrem Browser-Tab ausgeführt wird. Die Engine wird einmal heruntergeladen und verarbeitet Ihr Dokument dann vollständig auf Ihrem Gerät. Kein Datei-Upload, kein Server-API-Aufruf, keine Remote-Verarbeitung. Ihre gescannte Steuererklärung, Ihr unterschriebener Vertrag, Ihre Patientenakte oder Ihr historisches Dokument verlässt Ihr Gerät nie.

Datenschutz ist der entscheidende Grund, browserbasierte OCR gegenüber serverbasierten Alternativen zu bevorzugen. Gescannte Dokumente sind überproportional sensibel: Steuererklärungen, Krankenakten, Gerichtsdokumente, Kontoauszüge und Ausweisdokumente werden eingescannt. Das Hochladen dieser Dokumente auf eine Cloud-OCR-API – selbst mit Datenschutzerklärung – bedeutet, dass die Datei über das Internet übertragen, auf einem Server gespeichert, verarbeitet und temporär auf eine Weise abgelegt wird, die außerhalb Ihrer Kontrolle liegt. Die Architektur von LuraPDF eliminiert dieses Risiko strukturell. Die Tesseract WASM-Binärdatei läuft in einem isolierten Web Worker innerhalb Ihres Browsers. Die einzigen Daten, die übertragen werden, sind die per OCR erfassten Textebenen, die lokal in ein PDF geschrieben werden. Das Ergebnis ist ein durchsuchbares PDF, in dem das Originalbild der Seite exakt erhalten bleibt und darunter eine unsichtbare Textebene hinzugefügt wird, die perfekt an den von Tesseract identifizierten Zeichenpositionen ausgerichtet ist.

So führen Sie OCR online auf einer PDF aus

1

Gescannte PDF hochladen

Ziehen Sie die gescannte oder bildbasierte PDF-Datei in den Upload-Bereich. Die Datei wird in den Browser-Speicher geladen – es wird nichts an einen Server gesendet. Mehrseitige gescannte Dokumente, Bücher und Archivdateien können ohne Seitenbegrenzung von LuraPDF verarbeitet werden.

2

Sprache(n) auswählen

Wählen Sie im Sprachauswahlfeld die Hauptsprache des Dokuments. Bei mehrsprachigen Dokumenten – beispielsweise einem Vertrag mit englischen und französischen Abschnitten oder einer wissenschaftlichen Arbeit mit deutschen Zitaten – wählen Sie alle relevanten Sprachen aus. Tesseract verwendet die kombinierten Sprachmodelle, um Zeichen in allen ausgewählten Schriftsystemen zu erkennen.

3

Qualitätspräferenz festlegen

Wählen Sie zwischen dem Geschwindigkeitsmodus (schneller, etwas weniger genau, gut für saubere Scans moderner Schriftarten) und dem Genauigkeitsmodus (langsamer, vollständige Tesseract-LSTM-Engine, empfohlen für Scans geringer Qualität, historische Schriftarten und nicht-lateinische Schriften). Im Genauigkeitsmodus wird das vollständige neuronale Netzwerkmodell für jede Seite ausgeführt.

4

Vorschau der Textebene

Nach Abschluss der OCR-Verarbeitung können Sie den erkannten Text neben der Originalseite in der Vorschau anzeigen, um die Genauigkeit zu überprüfen. Tesseract hebt die Begrenzungsrahmen für jedes erkannte Wort hervor – so können Sie Fehler in Bereichen mit geringer Scanqualität vor dem Herunterladen erkennen.

5

PDF zum Herunterladen herunterladen

Klicken Sie auf „Herunterladen“. pdf-lib legt dann an den von Tesseract ermittelten Zeichenpositionen eine unsichtbare Textebene über jede Seite. Das Ergebnis ist ein standardmäßiges, durchsuchbares PDF – das Bild bleibt erhalten, und die Suchfunktionen (Strg+F), Kopie, Auswählen und die Volltextindizierung funktionieren einwandfrei.

100 % privat — lokale OCR

Tesseract WASM läuft in einem isolierten Web Worker direkt in Ihrem Browser-Tab. Ihr gescanntes Dokument verlässt Ihr Gerät niemals – kein Upload, keine Server-API, keine temporäre Cloud-Speicherung. Dies ist die wichtigste Datenschutzgarantie für gescannte Finanz-, Rechts- und medizinische Dokumente.

Tesseract WASM – über 100 Sprachen

LuraPDF nutzt Tesseract.js, die WebAssembly-Portierung der Tesseract-OCR-Engine von Google. Über 100 Sprachmodelle stehen zur Verfügung, darunter Latein, Kyrillisch, Arabisch, Chinesisch (vereinfacht und traditionell), Japanisch, Koreanisch, Hebräisch, Hindi und weitere. Wählen Sie mehrere Sprachen für Dokumente mit unterschiedlichen Schriftsystemen.

Durchsuchbare PDF-Ausgabe

Die Ausgabe bewahrt die originalen gescannten Seitenbilder exakt und fügt an den korrekten Zeichenpositionen eine unsichtbare Textebene hinzu. Das Ergebnis ist ein durchsuchbares PDF – mit Strg+F lassen sich Wörter finden, der Text ist auswählbar und kopierbar, und Dokumentenmanagementsysteme können ihn indizieren.

Option zum Exportieren von reinem Text

Neben der Ausgabe von durchsuchbaren PDFs kann LuraPDF den per OCR erfassten Rohtext auch als einfache .txt-Datei exportieren. Dies ist nützlich, um den erkannten Text in nachgelagerte Programme wie Textverarbeitungsprogramme, NLP-Pipelines, Übersetzungstools oder Tabellenkalkulationen zu importieren.

Behält das ursprüngliche Layout bei

Das Originalbild der Seite bleibt unverändert. Die Begrenzungsrahmendaten von Tesseract ordnen jedem erkannten Zeichen seine Pixelposition auf der Seite zu – die unsichtbare Textebene wird genau an diesen Koordinaten platziert. Das visuelle Erscheinungsbild jeder Seite ist identisch mit dem Originalscan.

Kostenlos, keine Anmeldung, kein Wasserzeichen

Kein Benutzerkonto, keine tägliche Seitenbegrenzung, kein Wasserzeichen im durchsuchbaren PDF. Führen Sie die OCR-Texterkennung für gescannte Dokumente so oft wie nötig in jedem modernen Browser durch. Große Dokumente werden langsamer verarbeitet, dafür aber unbegrenzt.

Wer nutzt LuraPDF OCR PDF?

In allen Branchen fallen gescannte PDFs an. OCR macht sie zugänglich. Hier sind die Arbeitsabläufe, bei denen lokale, private OCR die einzig akzeptable Lösung ist.

Rechtsteams – gescannte Verträge durchsuchbar machen

Ausgefertigte Verträge, Urkunden und Gerichtsdokumente werden häufig eingescannt und als Bild-PDFs archiviert. Durch lokale OCR-Texterkennung können alle Klauseln im Dokumentenmanagementsystem durchsuchbar gemacht werden, ohne vertrauliche Rechtsdokumente in einen Cloud-Dienst hochladen zu müssen.

Archivare digitalisieren historische Dokumente

Bibliotheken, Archive und Genealogen scannen historische Zeitungen, Briefe, Geschäftsbücher und Manuskripte. Tesseract unterstützt historische lateinische Schriftarten und nicht standardisierte Zeichensätze. Nutzen Sie die Texterkennung (OCR), um jahrhundertealte Dokumente durchsuchbar zu machen, ohne die empfindlichen historischen Materialien an einen externen Server übertragen zu müssen.

Forscher – durchsuchen gescannte wissenschaftliche Arbeiten

Akademische Arbeiten aus der Zeit vor der Digitalisierung, Konferenzbeiträge und Zeitschriftenscans sind standardmäßig nicht durchsuchbar. Durch OCR-Texturierung können Sie die Suche (Strg+F), Annotationen, Zitatextraktion und die Integration in Literaturverwaltungsprogramme ermöglichen.

Buchhalter – Zahlen aus gescannten Belegen extrahieren

Gescannte Spesenbelege und Rechnungen enthalten Beträge, Daten und Lieferantennamen, die in den Bildpixeln gespeichert sind. Die OCR-Texterkennung wandelt diese in durchsuchbaren, auswählbaren Text um – so können die Daten in Buchhaltungssoftware kopiert oder weiterverarbeitet werden.

Medizinische Teams – Digitalisierung gescannter Patientenakten

Ältere Patientenakten, Überweisungsschreiben und klinische Formulare werden als Scans übermittelt. Geschützte Gesundheitsdaten sind zu sensibel, um sie in eine Cloud-OCR-API hochzuladen. Um die Datensätze durchsuchbar zu machen und gleichzeitig die geschützten Gesundheitsdaten auf dem Praxisgerät zu belassen, wird die OCR lokal ausgeführt.

Entwickler – Textebene für NLP-Pipelines hinzufügen

Dokumentenanalyse-Pipelines, die Entitäten extrahieren, Inhalte klassifizieren oder PDF-Dokumente zusammenfassen, benötigen eine Textebene. OCR-gescannte PDFs werden lokal mit Tesseract WASM verarbeitet, um durchsuchbare PDFs oder Rohdatendateien zu generieren, die NLP-Modelle speisen, ohne die Dokumentdaten externen APIs zugänglich zu machen.

Warum browserbasierte OCR verwenden?

Tesseract WASM im Browser kombiniert OCR-Genauigkeit auf Forschungsniveau mit der Datenschutzgarantie lokaler Verarbeitung. Das sind die Ergebnisse dieser Kombination.

  • Eingescannte Dokumente, die personenbezogene Daten enthalten – Sozialversicherungsnummern, Kontonummern, medizinische Diagnosen – werden niemals hochgeladen und sind daher niemals der Gefahr des Abfangens oder eines serverseitigen Datenlecks ausgesetzt.
  • Über 100 Sprachmodelle decken die wichtigsten Schriftsysteme der Welt ab – Latein, Kyrillisch, Arabisch, CJK, Devanagari, Hebräisch und mehr – in einem einzigen Tool ohne zusätzliche Sprachoptionen.
  • Die durchsuchbare Ausgabe bedeutet, dass Strg+F, Textauswahl, Kopieren und Einfügen sowie die Volltextindizierung unmittelbar nach der OCR funktionieren – das gescannte Dokument verhält sich wie ein digitales PDF.
  • Das Originalbild der Seite bleibt exakt erhalten – die OCR fügt eine Textebene hinzu, verändert oder rendert den visuellen Inhalt aber nicht neu. Die gescannten Seiten sehen vorher und nachher identisch aus.
  • Dank der WebAssembly-Performance können moderne Desktop-Browser Tesseract nahezu in nativer Geschwindigkeit ausführen – der typische Durchsatz liegt bei 5–15 Sekunden pro Seite im Modus mit voller Genauigkeit.
  • Kostenlos und ohne Tageslimit oder Seitenbegrenzung – OCR für ein gescanntes 500-seitiges Buch oder eine einzelne Quittung ohne Preisunterschied.

Wie LuraPDF OCR auf PDF-Dateien ausführt

Beim Hochladen eines gescannten PDFs rendert pdf.js jede Seite in ein HTML-Canvas mit einer Zielauflösung von 200 DPI (konfigurierbar auf 300 DPI im Genauigkeitsmodus). Die Bilddaten des Canvas werden über einen SharedArrayBuffer an einen Tesseract.js Web Worker übertragen, der die ausgewählten LSTM-Sprachmodelle ausführt. Tesseract analysiert das Layout, um die Seite in Textbereiche zu segmentieren, und wendet anschließend das LSTM-Neuronale Netzwerk auf jeden Bereich an, um Zeichenfolgen zu erkennen. Die Ausgabe ist eine Liste von Wörtern mit ihren erkannten Unicode-Zeichenfolgen und den zugehörigen Begrenzungsrahmen-Koordinaten – der Pixelposition auf der Seite, an der jedes Wort erscheint.

Sobald Tesseract die Verarbeitung einer Seite abgeschlossen hat, verwendet pdf-lib den erkannten Text und die Begrenzungsrahmen, um eine unsichtbare Textebene auf der entsprechenden PDF-Seite zu zeichnen. Jedes Wort wird mithilfe von `page.drawText()` an seinen erkannten Koordinaten platziert. Die Schriftgröße wird anhand der Höhe des Begrenzungsrahmens berechnet, und die Textfarbe ist `rgb(0, 0, 0)` mit einer Deckkraft von null – visuell unsichtbar, aber im Textinhalt der PDF-Datei vorhanden. Moderne PDF-Viewer verwenden diesen Textinhalt für Such-, Auswahl- und Kopie . Das Ergebnis ist eine PDF-Datei, die exakt wie der Originalscan aussieht, aber auf Strg+F reagiert, Textauswahl unterstützt und von Dokumentenmanagementsystemen und Suchmaschinen indexiert werden kann.

OCR-PDF: LuraPDF vs. Alternativen

BesonderheitLuraPDFServerbasierte OCR (ilovepdf, Smallpdf)Adobe Acrobat
DatenschutzNur im Browser – Datei wurde nie hochgeladenGescanntes Dokument auf Remote-Server hochgeladenLokal, aber ein Abonnement ist erforderlich ($$$).
SprachunterstützungÜber 100 Sprachen via Tesseract WASMVariiert – typischerweise weniger SprachenAcrobat: viele, aber eingeschränkte Mehrsprachigkeit
KostenKostenlos und dauerhaft, keine SeitenbegrenzungFreemium – Seitenlimit oder Bezahlschranke$$$ Acrobat-Abonnement
Anmeldung erforderlichKeine – Seite öffnen und OCR ausführenFür mehrseitige Dokumente ist ein Konto erforderlich.Adobe ID und Abonnement erforderlich

Tipps für optimale OCR-Genauigkeit

Die Scanqualität ist der wichtigste Faktor für die Genauigkeit der Texterkennung. Diese Tipps helfen Ihnen, mit Tesseract WASM optimale Ergebnisse zu erzielen.

  1. Tip 1:

    Wählen Sie die richtige Sprache aus – die Genauigkeit von Tesseract sinkt deutlich, wenn das falsche Sprachmodell verwendet wird. Wenn Sie sich nicht sicher sind, wählen Sie mehrere wahrscheinliche Sprachen aus; Tesseract wählt dann die passende aus.

  2. Tip 2:

    Eine höhere Scanauflösung führt zu einer besseren OCR – 300-DPI-Scans erzielen eine deutlich höhere Genauigkeit als 150 DPI oder weniger, insbesondere bei Texten mit kleiner Schriftart und nicht-lateinischen Schriften.

  3. Tip 3:

    Vor der OCR zuschneiden und drehen – Verwenden Sie die LuraPDF-Werkzeuge „PDF zuschneiden“ und „PDF drehen“, um Seiten auszurichten und Ränder zu entfernen, bevor Sie die OCR ausführen. Schiefe oder auf dem Kopf stehende Seiten beeinträchtigen die Erkennungsqualität.

  4. Tip 4:

    Für umfangreiche, mehrseitige Dokumente auf Mobilgeräten empfiehlt sich ein Desktop-Browser – Tesseract WASM ist rechenintensiv und mobile Geräte sind langsamer. Chrome oder Firefox auf Tablets oder Desktop-Computern bieten die beste Performance.

  5. Tip 5:

    Nach der OCR-Texterkennung kann der vollständig erkannte Text mithilfe von PDF to Text als Klartextdatei extrahiert und anschließend in ein Textverarbeitungsprogramm, ein Übersetzungstool oder eine Datenpipeline eingefügt werden.

  6. Tip 6:

    Bei mehrsprachigen Dokumenten mit unterschiedlichen Schriftsystemen – beispielsweise einem Rechtsvertrag mit englischen und arabischen Abschnitten oder einem Dokument mit englischem Text und chinesischen Ziffern – sollten Sie vor der OCR-Verarbeitung alle relevanten Sprachen auswählen, anstatt die Abschnitte separat zu verarbeiten.

Häufig gestellte Fragen

Kann ich eine OCR-Texterkennung für eine PDF-Datei kostenlos durchführen, ohne sie hochzuladen?
Ja. LuraPDF nutzt Tesseract WASM – die WebAssembly-Portierung der Tesseract-OCR-Engine von Google – und läuft vollständig in Ihrem Browser. Kein Datei-Upload, kein Server, kein Konto erforderlich. Einfach Ihre gescannte PDF-Datei hochladen, die Sprache auswählen und kostenlos eine durchsuchbare PDF-Datei herunterladen.
Wie genau ist Tesseract WASM OCR?
Die LSTM-Engine von Tesseract ist für Forschungszwecke optimiert und erreicht eine Zeichengenauigkeit von 95–99 % bei sauberen, hochauflösenden (300 dpi) Scans moderner Schriftarten. Die Genauigkeit sinkt bei niedrig aufgelösten Scans, Handschrift, ungewöhnlichen Schriftarten und stark komprimierten Bildern. Die Wahl des richtigen Sprachmodells hat den größten Einfluss auf die Genauigkeit.
Welche Sprachen unterstützt die OCR?
Über 100 Sprachen stehen zur Verfügung, darunter Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Arabisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Japanisch, Koreanisch, Russisch, Hindi, Hebräisch, Thailändisch und viele mehr. Wählen Sie mehrere Sprachen für Dokumente mit gemischten Sprachen – Tesseract verwendet alle ausgewählten Modelle gleichzeitig.
Ist die Online-Texterkennung (OCR) von vertraulichen, gescannten Dokumenten sicher?
Ja – mit LuraPDF, denn die Datei verlässt Ihr Gerät nie. Tesseract WASM läuft in einem isolierten Web Worker in Ihrem Browser. Es werden keine Daten an einen Server übertragen. Daher ist LuraPDF die optimale Lösung für die Texterkennung (OCR) von gescannten Steuererklärungen, Krankenakten, Gerichtsdokumenten und Finanzunterlagen, die nicht auf externe Dienste hochgeladen werden können.
Ist die Browser-OCR langsamer als die serverbasierte OCR?
Ja, die Browser-basierte WASM-OCR ist langsamer als serverseitige OCR, da moderne Cloud-OCR-APIs auf Multi-GPU-Hardware laufen. LuraPDFs Tesseract WASM benötigt im Genauigkeitsmodus auf einem modernen Desktop-Prozessor typischerweise 5–15 Sekunden pro Seite. Dies ist ein akzeptabler Kompromiss für die Gewährleistung des Datenschutzes. Für sehr große Dokumente auf Geräten mit wenig Speicherplatz wird die Verwendung eines Desktop-Browsers dringend empfohlen.
Verändert die OCR-Texterkennung das Aussehen meiner gescannten PDF-Datei?
Nein. Die Originalseitenbilder bleiben exakt erhalten. Die OCR fügt an den erkannten Zeichenpositionen eine unsichtbare Textebene hinzu – der visuelle Inhalt jeder Seite ist Byte für Byte identisch mit dem Eingabescan. Der einzige Unterschied besteht darin, dass der Text durchsuchbar, auswählbar und kopierbar wird.
Wird die per OCR erzeugte PDF-Datei ein Wasserzeichen enthalten?
Nein. LuraPDF fügt den Ausgabedateien keine Wasserzeichen, Stempel oder Werbeelemente hinzu. Die heruntergeladene, durchsuchbare PDF-Datei ist ein sauberes Dokument mit lediglich der hinzugefügten, unsichtbaren Textebene.
Kann ich eine PDF-Datei per OCR auf meinem Handy erfassen?
Ja, für kurze Dokumente. Tesseract WASM ist rechenintensiv. Ein Scan von 10 Seiten dauert auf einem modernen Smartphone im Genauigkeitsmodus in der Regel 1–3 Minuten. Für lange Dokumente (50+ Seiten) wird ein Desktop-Browser dringend empfohlen, um eine angemessene Verarbeitungszeit zu gewährleisten.
Bleibt das ursprüngliche Seitenlayout bei der OCR-Texturierung erhalten?
Ja. Die Seitenbilder werden weder neu gerendert noch in ihrer Größe verändert. Die von Tesseract erzeugten Begrenzungsrahmen werden verwendet, um die Textebene zeichengenau über dem Originalbild zu positionieren. Spalten, Tabellen, Überschriften, Fußnoten und mehrspaltige Layouts werden erkannt, und die Textebene folgt der ursprünglichen visuellen Struktur.
Kann ich eine mehrsprachige PDF-Datei mit Text in verschiedenen Schriftsystemen per OCR erfassen?
Ja. Wählen Sie vor der OCR-Bearbeitung alle im Dokument enthaltenen Sprachen aus. Beispiel: Ein Vertrag mit englischen und arabischen Abschnitten: Wählen Sie sowohl Englisch als auch Arabisch aus. Tesseract wendet alle ausgewählten Sprachmodelle gleichzeitig an und ermittelt per Abstimmung die beste Zeichenübereinstimmung für jede Region. Dies ist genauer als die separate Verarbeitung der Abschnitte.

OCR-PDFs lokal erstellen – über 100 Sprachen, durchsuchbare Ausgabe, kostenlos

Ziehen Sie Ihre gescannte PDF-Datei in den Upload-Bereich oben, wählen Sie die Dokumentsprache aus und lassen Sie Tesseract WASM jede Seite durchsuchbar machen – direkt in Ihrem Browser. Kein Upload, kein Server, kein Konto, kein Wasserzeichen, keine Seitenbegrenzung. Ihre gescannten Steuerdokumente, Gerichtsakten, Krankenakten und Archivmaterialien bleiben auf Ihrem Gerät, vom Moment der Auswahl bis zum Speichern der durchsuchbaren PDF-Datei in Ihrem Download-Ordner. Nach der OCR-Texterkennung können Sie den Volltext mit „PDF zu Text“ extrahieren, Scans mit den Werkzeugen „PDF zuschneiden“ und „PDF drehen“ zuschneiden und drehen oder die neu durchsuchbaren Seiten mit dem Werkzeug „PDF annotieren“ versehen.