Um PDF digitalizado é uma fotografia de um documento. Parece texto, mas não contém dados textuais reais — apenas uma matriz de pixels. A busca não funciona. Copiar e colar falha. Leitores de PDF não conseguem indexá-lo. Ferramentas de extração de texto retornam resultados vazios. A solução é o Reconhecimento Óptico de Caracteres (OCR): um processo que lê o padrão de pixels em cada página, identifica os caracteres e reconstrói o texto. O LuraPDF incorpora o Tesseract — o mecanismo de OCR de código aberto mais utilizado no mundo, mantido pelo Google — como um binário WebAssembly que é executado diretamente na aba do seu navegador. O mecanismo é baixado uma única vez e processa todo o documento no seu dispositivo. Sem upload de arquivos, sem chamadas de API para servidor, sem processamento remoto. Sua declaração de imposto de renda digitalizada, contrato assinado, prontuário médico ou documento histórico nunca sai do seu computador.
A privacidade é o principal motivo para escolher o OCR baseado em navegador em vez de alternativas baseadas em servidor. Documentos digitalizados são desproporcionalmente sensíveis: as pessoas digitalizam declarações de imposto de renda, prontuários médicos, processos judiciais, extratos bancários e documentos de identidade. Enviar esses documentos para uma API de OCR na nuvem — mesmo uma com política de privacidade — significa que o arquivo trafega pela internet, fica armazenado em um servidor, passa por fluxos de processamento e é guardado temporariamente de maneiras que estão fora do seu controle. A arquitetura do LuraPDF elimina esse risco estruturalmente. O binário WASM do Tesseract é executado em um Web Worker isolado dentro do seu navegador. Os únicos dados que são transferidos são a camada de texto OCR sendo gravada de volta em um PDF na memória — tudo local. O resultado é um PDF pesquisável onde a imagem original da página é preservada exatamente e uma camada de texto invisível é adicionada por baixo, perfeitamente alinhada para corresponder às posições dos caracteres identificadas pelo Tesseract.