Một tệp PDF được quét là một bức ảnh chụp tài liệu. Nó trông giống như văn bản, nhưng thực chất không có dữ liệu văn bản nào bên trong — chỉ là một ma trận các điểm ảnh. Chức năng tìm kiếm không hoạt động. Sao chép và dán không thành công. Các trình đọc PDF không thể lập chỉ mục. Các công cụ trích xuất văn bản trả về kết quả trống. Giải pháp là Nhận dạng ký tự quang học (OCR): một quy trình đọc mẫu điểm ảnh trên mỗi trang, xác định các ký tự và tái tạo lại văn bản. LuraPDF tích hợp Tesseract — công cụ OCR mã nguồn mở được sử dụng rộng rãi nhất trên thế giới, do Google duy trì — dưới dạng tệp nhị phân WebAssembly chạy trực tiếp bên trong tab trình duyệt của bạn. Công cụ này chỉ tải xuống một lần và sau đó xử lý toàn bộ tài liệu của bạn trên thiết bị. Không cần tải lên tệp, không cần gọi API máy chủ, không cần xử lý từ xa. Tờ khai thuế đã quét, hợp đồng đã ký, hồ sơ bệnh nhân hoặc tài liệu lịch sử của bạn sẽ không bao giờ rời khỏi máy tính của bạn.
Bảo mật là lý do quan trọng nhất để lựa chọn giải pháp OCR dựa trên trình duyệt thay vì các giải pháp dựa trên máy chủ. Tài liệu được quét có độ nhạy cảm rất cao: mọi người quét tờ khai thuế, hồ sơ y tế, hồ sơ pháp lý, sao kê ngân hàng và giấy tờ tùy thân. Việc tải những tài liệu đó lên API OCR trên đám mây — ngay cả khi API đó có chính sách bảo mật — có nghĩa là tệp tin sẽ di chuyển qua internet, nằm trên máy chủ, đi qua các quy trình xử lý và được lưu trữ tạm thời theo những cách nằm ngoài tầm kiểm soát của bạn. Kiến trúc của LuraPDF loại bỏ rủi ro đó về mặt cấu trúc. Tệp nhị phân Tesseract WASM chạy trong một Web Worker được cách ly bên trong trình duyệt của bạn. Dữ liệu duy nhất di chuyển là lớp văn bản đã được OCR ghi lại vào tệp PDF trong bộ nhớ — tất cả đều cục bộ. Kết quả đầu ra là một tệp PDF có thể tìm kiếm, trong đó hình ảnh trang gốc được bảo toàn chính xác và một lớp văn bản vô hình được thêm vào bên dưới, được căn chỉnh hoàn hảo để khớp với vị trí ký tự mà Tesseract đã xác định.