স্ক্যান করা পিডিএফ হলো একটি ডকুমেন্টের ছবি। এটি দেখতে টেক্সটের মতো, কিন্তু এর ভেতরে কোনো আসল টেক্সট ডেটা থাকে না — থাকে শুধু পিক্সেলের একটি ম্যাট্রিক্স। এতে সার্চ কাজ করে না। কপি এবং পেস্ট ব্যর্থ হয়। পিডিএফ রিডার এটি ইনডেক্স করতে পারে না। টেক্সট এক্সট্র্যাকশন টুলগুলো খালি ফলাফল দেখায়। এর সমাধান হলো অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR): এটি এমন একটি প্রক্রিয়া যা প্রতিটি পৃষ্ঠার পিক্সেল প্যাটার্ন পড়ে, অক্ষর শনাক্ত করে এবং টেক্সটটি পুনর্গঠন করে। LuraPDF-এ Tesseract—বিশ্বের সবচেয়ে বহুল ব্যবহৃত ওপেন-সোর্স OCR ইঞ্জিন, যা গুগল দ্বারা পরিচালিত—একটি WebAssembly বাইনারি হিসেবে এমবেড করা থাকে, যা সরাসরি আপনার ব্রাউজার ট্যাবের ভেতরে চলে। ইঞ্জিনটি একবার ডাউনলোড হয় এবং তারপর আপনার ডকুমেন্টটি সম্পূর্ণরূপে আপনার ডিভাইসেই প্রসেস করে। কোনো ফাইল আপলোড, সার্ভার এপিআই কল বা রিমোট প্রসেসিংয়ের প্রয়োজন নেই। আপনার স্ক্যান করা ট্যাক্স রিটার্ন, স্বাক্ষরিত চুক্তি, রোগীর রেকর্ড বা ঐতিহাসিক ডকুমেন্ট কখনোই আপনার মেশিন থেকে বাইরে যায় না।
সার্ভার-ভিত্তিক বিকল্পগুলোর চেয়ে ব্রাউজার-ভিত্তিক OCR বেছে নেওয়ার প্রধান কারণ হলো গোপনীয়তা। স্ক্যান করা নথিগুলো তুলনামূলকভাবে বেশি সংবেদনশীল হয়: মানুষ ট্যাক্স রিটার্ন, মেডিকেল রেকর্ড, আইনি নথিপত্র, ব্যাংক স্টেটমেন্ট এবং পরিচয়পত্র স্ক্যান করে থাকে। এগুলোকে কোনো ক্লাউড OCR API-তে আপলোড করার অর্থ হলো—এমনকি যদি সেটির একটি গোপনীয়তা নীতিও থাকে—ফাইলটি ইন্টারনেটের মাধ্যমে পরিবাহিত হয়, একটি সার্ভারে থাকে, প্রসেসিং পাইপলাইনের মধ্যে দিয়ে যায় এবং আপনার নিয়ন্ত্রণের বাইরের বিভিন্ন উপায়ে সাময়িকভাবে সংরক্ষিত হয়। LuraPDF-এর আর্কিটেকচার কাঠামোগতভাবেই এই ঝুঁকি দূর করে। Tesseract WASM বাইনারিটি আপনার ব্রাউজারের ভেতরে একটি স্যান্ডবক্সড ওয়েব ওয়ার্কারে চলে। একমাত্র যে ডেটাটি স্থানান্তরিত হয় তা হলো OCR করা টেক্সট লেয়ার, যা মেমোরিতে একটি PDF-এ পুনরায় লেখা হয়—সম্পূর্ণ স্থানীয়ভাবে। এর আউটপুট হলো একটি সার্চযোগ্য PDF, যেখানে মূল পৃষ্ঠার ছবিটি হুবহু সংরক্ষিত থাকে এবং এর নিচে একটি অদৃশ্য টেক্সট লেয়ার যুক্ত হয়, যা Tesseract দ্বারা চিহ্নিত অক্ষরের অবস্থানগুলোর সাথে নিখুঁতভাবে মিলে যায়।