Un PDF escaneado es una fotografía de un documento. Parece texto, pero no contiene datos textuales reales, solo una matriz de píxeles. La búsqueda no funciona. Copiar y pegar fallan. Los lectores de PDF no pueden indexarlo. Las herramientas de extracción de texto devuelven resultados vacíos. La solución es el Reconocimiento Óptico de Caracteres (OCR): un proceso que lee el patrón de píxeles de cada página, identifica los caracteres y reconstruye el texto. LuraPDF integra Tesseract, el motor OCR de código abierto más utilizado del mundo, mantenido por Google, como un binario WebAssembly que se ejecuta directamente en la pestaña de su navegador. El motor se descarga una sola vez y luego procesa su documento completamente en su dispositivo. Sin carga de archivos, sin llamadas a la API del servidor, sin procesamiento remoto. Su declaración de impuestos escaneada, contrato firmado, historial clínico o documento histórico nunca sale de su máquina.
La privacidad es la razón principal para elegir el OCR basado en navegador en lugar de las alternativas basadas en servidor. Los documentos escaneados son extremadamente sensibles: las personas escanean declaraciones de impuestos, historiales médicos, documentos legales, extractos bancarios y documentos de identidad. Subirlos a una API de OCR en la nube, incluso una con una política de privacidad, implica que el archivo viaje por internet, se aloje en un servidor, pase por procesos de procesamiento y se almacene temporalmente de forma incontrolable. La arquitectura de LuraPDF elimina este riesgo estructuralmente. El binario Tesseract WASM se ejecuta en un Web Worker aislado dentro del navegador. Los únicos datos que se transfieren son la capa de texto OCR, que se escribe de nuevo en memoria en un PDF; todo localmente. El resultado es un PDF con capacidad de búsqueda donde se conserva la imagen original de la página y se añade una capa de texto invisible debajo, perfectamente alineada con las posiciones de los caracteres identificadas por Tesseract.