Un PDF numérisé est une image d'un document. Il ressemble à du texte, mais ne contient aucune donnée textuelle : seulement une matrice de pixels. La recherche est impossible. Le copier-coller échoue. Les lecteurs PDF ne peuvent pas l'indexer. Les outils d'extraction de texte ne donnent aucun résultat. La solution ? La reconnaissance optique de caractères (OCR) : un processus qui lit la structure pixellisée de chaque page, identifie les caractères et reconstruit le texte. LuraPDF intègre Tesseract, le moteur OCR open source le plus utilisé au monde, maintenu par Google, sous la forme d'un binaire WebAssembly qui s'exécute directement dans votre navigateur. Le moteur est téléchargé une seule fois, puis traite votre document intégralement sur votre appareil. Aucun transfert de fichier, aucun appel API serveur, aucun traitement à distance. Votre déclaration d'impôts numérisée, votre contrat signé, votre dossier médical ou votre document historique reste toujours sur votre ordinateur.
La protection de la vie privée est la raison principale de privilégier la reconnaissance optique de caractères (OCR) basée sur navigateur aux solutions serveur. Les documents numérisés sont particulièrement sensibles : déclarations de revenus, dossiers médicaux, documents juridiques, relevés bancaires et pièces d’identité sont autant de documents que l’on numérise. Les télécharger sur une API OCR cloud, même dotée d’une politique de confidentialité, implique que le fichier transite par Internet, soit hébergé sur un serveur, subisse un traitement et soit stocké temporairement de manière incontrôlable. L’architecture de LuraPDF élimine ce risque. Le binaire WASM de Tesseract s’exécute dans un Web Worker isolé au sein de votre navigateur. Seule la couche de texte issue de l’OCR est transférée et réécrite dans un PDF en mémoire, localement. Le résultat est un PDF interrogeable où l’image de la page originale est parfaitement conservée et une couche de texte invisible est ajoutée en dessous, parfaitement alignée sur les caractères identifiés par Tesseract.