Ein gescanntes PDF ist ein Foto eines Dokuments. Es sieht aus wie Text, enthält aber keine tatsächlichen Textdaten – nur eine Pixelmatrix. Die Suche funktioniert nicht. Kopieren und Einfügen schlägt fehl. PDF-Reader können es nicht indizieren. Tools zur Textextraktion liefern keine Ergebnisse. Die Lösung ist die optische Zeichenerkennung (OCR): ein Verfahren, das das Pixelmuster jeder Seite liest, Zeichen identifiziert und den Text rekonstruiert. LuraPDF integriert Tesseract – die weltweit am häufigsten verwendete Open-Source-OCR-Engine, die von Google weiterentwickelt wird – als WebAssembly-Binärdatei, die direkt in Ihrem Browser-Tab ausgeführt wird. Die Engine wird einmal heruntergeladen und verarbeitet Ihr Dokument dann vollständig auf Ihrem Gerät. Kein Datei-Upload, kein Server-API-Aufruf, keine Remote-Verarbeitung. Ihre gescannte Steuererklärung, Ihr unterschriebener Vertrag, Ihre Patientenakte oder Ihr historisches Dokument verlässt Ihr Gerät nie.
Datenschutz ist der entscheidende Grund, browserbasierte OCR gegenüber serverbasierten Alternativen zu bevorzugen. Gescannte Dokumente sind überproportional sensibel: Steuererklärungen, Krankenakten, Gerichtsdokumente, Kontoauszüge und Ausweisdokumente werden eingescannt. Das Hochladen dieser Dokumente auf eine Cloud-OCR-API – selbst mit Datenschutzerklärung – bedeutet, dass die Datei über das Internet übertragen, auf einem Server gespeichert, verarbeitet und temporär auf eine Weise abgelegt wird, die außerhalb Ihrer Kontrolle liegt. Die Architektur von LuraPDF eliminiert dieses Risiko strukturell. Die Tesseract WASM-Binärdatei läuft in einem isolierten Web Worker innerhalb Ihres Browsers. Die einzigen Daten, die übertragen werden, sind die per OCR erfassten Textebenen, die lokal in ein PDF geschrieben werden. Das Ergebnis ist ein durchsuchbares PDF, in dem das Originalbild der Seite exakt erhalten bleibt und darunter eine unsichtbare Textebene hinzugefügt wird, die perfekt an den von Tesseract identifizierten Zeichenpositionen ausgerichtet ist.