Un PDF scansionato è una fotografia di un documento. Sembra testo, ma al suo interno non contiene dati testuali effettivi, bensì una matrice di pixel. La ricerca non funziona. Copia e incolla falliscono. I lettori PDF non riescono a indicizzarlo. Gli strumenti di estrazione del testo restituiscono risultati vuoti. La soluzione è il riconoscimento ottico dei caratteri (OCR): un processo che legge la struttura dei pixel su ogni pagina, identifica i caratteri e ricostruisce il testo. LuraPDF integra Tesseract, il motore OCR open source più diffuso al mondo, gestito da Google, come binario WebAssembly che viene eseguito direttamente nella scheda del browser. Il motore viene scaricato una sola volta e poi elabora il documento interamente sul dispositivo. Nessun caricamento di file, nessuna chiamata API al server, nessuna elaborazione remota. La dichiarazione dei redditi scansionata, il contratto firmato, la cartella clinica o il documento storico non lasciano mai il dispositivo.
La privacy è il motivo principale per cui si sceglie l'OCR basato su browser rispetto alle alternative basate su server. I documenti scansionati contengono informazioni particolarmente sensibili: si scansionano dichiarazioni dei redditi, cartelle cliniche, documenti legali, estratti conto bancari e documenti d'identità. Caricare questi documenti su un'API OCR cloud, anche se dotata di una politica sulla privacy, significa che il file viaggia su Internet, risiede su un server, attraversa pipeline di elaborazione e viene archiviato temporaneamente in modalità che esulano dal controllo dell'utente. L'architettura di LuraPDF elimina questo rischio a livello strutturale. Il binario Tesseract WASM viene eseguito in un Web Worker isolato all'interno del browser. L'unico dato che viene trasferito è il livello di testo OCR che viene riscritto in un PDF in memoria, interamente in locale. L'output è un PDF ricercabile in cui l'immagine della pagina originale viene preservata esattamente e viene aggiunto un livello di testo invisibile al di sotto, perfettamente allineato alle posizioni dei caratteri identificate da Tesseract.