PDF hasil pindaian adalah foto sebuah dokumen. Tampilannya seperti teks, tetapi tidak ada data teks sebenarnya di dalamnya — hanya matriks piksel. Pencarian tidak berfungsi. Salin dan tempel gagal. Pembaca PDF tidak dapat mengindeksnya. Alat ekstraksi teks menghasilkan hasil kosong. Solusinya adalah Pengenalan Karakter Optik (OCR): sebuah proses yang membaca pola piksel pada setiap halaman, mengidentifikasi karakter, dan merekonstruksi teks. LuraPDF menyematkan Tesseract — mesin OCR sumber terbuka yang paling banyak digunakan di dunia, yang dikelola oleh Google — sebagai biner WebAssembly yang berjalan langsung di dalam tab browser Anda. Mesin tersebut diunduh sekali dan kemudian memproses dokumen Anda sepenuhnya di perangkat Anda. Tidak ada unggahan file, tidak ada panggilan API server, tidak ada pemrosesan jarak jauh. Laporan pajak hasil pindaian Anda, kontrak yang ditandatangani, catatan pasien, atau dokumen historis tidak pernah meninggalkan perangkat Anda.
Privasi adalah alasan utama untuk memilih OCR berbasis browser dibandingkan alternatif berbasis server. Dokumen yang dipindai sangat sensitif: orang memindai laporan pajak, catatan medis, berkas hukum, laporan bank, dan dokumen identitas. Mengunggah dokumen-dokumen tersebut ke API OCR berbasis cloud — bahkan yang memiliki kebijakan privasi — berarti file tersebut akan melewati internet, tersimpan di server, melewati alur pemrosesan, dan disimpan sementara di luar kendali Anda. Arsitektur LuraPDF secara struktural menghilangkan risiko tersebut. Binary Tesseract WASM berjalan di dalam Web Worker yang terisolasi di dalam browser Anda. Satu-satunya data yang berpindah adalah lapisan teks hasil OCR yang ditulis kembali ke dalam PDF di memori — semuanya lokal. Outputnya adalah PDF yang dapat dicari di mana gambar halaman asli dipertahankan persis dan lapisan teks tak terlihat ditambahkan di bawahnya, disejajarkan dengan sempurna untuk mencocokkan posisi karakter yang diidentifikasi oleh Tesseract.