Tutorial

স্ক্যান করা পিডিএফ কীভাবে OCR করে অনুসন্ধানযোগ্য করা যায়

জানুন OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) কীভাবে কাজ করে, কোন বিষয়গুলো এর নির্ভুলতাকে প্রভাবিত করে এবং LuraPDF-এর ব্রাউজার-ভিত্তিক OCR টুল ব্যবহার করে কীভাবে একটি স্ক্যান করা PDF ফাইলকে অনুসন্ধানযোগ্য ও কপি-পেস্টযোগ্য ডকুমেন্টে রূপান্তর করা যায়।

LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 7 min read

একটি স্ক্যান করা পিডিএফ হলো কোনো ডকুমেন্টের একটি ডিজিটাল ফটোগ্রাফ। এর পৃষ্ঠাগুলো হলো ছবি। আপনি এর থেকে টেক্সট সিলেক্ট করতে, কোনো শব্দ খুঁজতে, কোনো বাক্য কপি করতে, বা এর কন্টেন্ট কোনো টেক্সট প্রসেসিং টুলে ফিড করতে পারবেন না। তথ্য পুনরুদ্ধারের উদ্দেশ্যে, একটি স্ক্যান করা পিডিএফ মূলত অস্বচ্ছ।

OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) ছবিগুলো বিশ্লেষণ করে এবং দৃশ্যমান বিষয়বস্তুর উপর একটি টেক্সট লেয়ার তৈরি করার মাধ্যমে এই সমস্যার সমাধান করে। এর ফলে এমন একটি পিডিএফ তৈরি হয় যা দেখতে মূল স্ক্যানের মতোই, কিন্তু এতে একটি অদৃশ্য টেক্সট লেয়ার থাকে যা সবকিছুকে নির্বাচনযোগ্য, অনুসন্ধানযোগ্য এবং অনুলিপিযোগ্য করে তোলে।

ওসিআর কীভাবে কাজ করে

লুরাপিডিএফ টেসারেক্ট.জেএস (Tesseract.js) ব্যবহার করে, যা টেসারেক্টের ব্রাউজার-কম্পাইল করা সংস্করণ। টেসারেক্ট সবচেয়ে নির্ভুল ওপেন-সোর্স ওসিআর ইঞ্জিনগুলোর মধ্যে অন্যতম, যা গুগল দ্বারা পরিচালিত এবং মূলত এইচপি ল্যাবস দ্বারা তৈরি। টেসারেক্ট একটি নিউরাল নেটওয়ার্ক মডেল (এলএসটিএম-ভিত্তিক) ব্যবহার করে, যা কয়েক ডজন ভাষার লক্ষ লক্ষ ডকুমেন্ট পৃষ্ঠার উপর প্রশিক্ষিত।

ওসিআর পাইপলাইন:

১. পৃষ্ঠা রেন্ডারিং: প্রতিটি পিডিএফ পৃষ্ঠা উচ্চ রেজোলিউশনে (সর্বোত্তম নির্ভুলতার জন্য ৩০০+ ডিপিআই) একটি ক্যানভাস ছবিতে রেন্ডার করা হয়। ২. প্রাক-প্রক্রিয়াকরণ: চিত্রের মানোন্নয়ন — বাইনারাইজেশন, নয়েজ হ্রাস, ডেসকিউইং (ঘূর্ণিত স্ক্যান সোজা করা) ৩. বিন্যাস বিশ্লেষণ: পাঠ্য অঞ্চল, কলাম, টেবিল এবং অ-পাঠ্য উপাদান সনাক্তকরণ ৪. অক্ষর শনাক্তকরণ: নিউরাল নেটওয়ার্কটি পাঠ্যের খণ্ডিত অঞ্চলগুলো থেকে প্রতিটি অক্ষরকে শ্রেণিবদ্ধ করে। ৫. পোস্ট-প্রসেসিং: সদৃশ অক্ষরগুলোর (যেমন, "l" বনাম "1", "O" বনাম "0") মধ্যে পার্থক্য নিরূপণের জন্য ল্যাঙ্গুয়েজ মডেল স্কোরিং। ৬. পিডিএফ লিখন: শনাক্তকৃত টেক্সটকে একটি অদৃশ্য টেক্সট লেয়ার হিসেবে সংশ্লিষ্ট ভিজ্যুয়াল ক্যারেক্টারগুলোর ঠিক উপরে স্থাপন করা হয়।

অদৃশ্য টেক্সট লেয়ারটিই ফলাফলটিকে অনুসন্ধানযোগ্য করে তোলে। পৃষ্ঠার দৃশ্যমান রূপটি মূল স্ক্যান করা ছবির মতোই থাকে — আপনি ঠিক যা স্ক্যান করেছেন তাই দেখতে পান, কিন্তু এর নিচের লেখাটি এখন মেশিন-পাঠযোগ্য।

OCR নির্ভুলতাকে প্রভাবিত করে

ইনপুটের মানের ওপর নির্ভর করে নির্ভুলতার উল্লেখযোগ্য তারতম্য ঘটে:

স্ক্যান রেজোলিউশন

নির্ভরযোগ্য নির্ভুলতার জন্য সর্বনিম্ন ৩০০ ডিপিআই প্রয়োজন। ২০০ ডিপিআই-এর নিচে অক্ষর শনাক্তকরণের মান উল্লেখযোগ্যভাবে হ্রাস পায়। আপনি যদি ওসিআর-এর জন্য ডকুমেন্ট স্ক্যান করেন, তবে সর্বদা ৩০০ ডিপিআই বা তার বেশি রেজোলিউশনে স্ক্যান করুন।

১৫০ ডিপিআই বা তার কম রেজোলিউশনে স্ক্যান করা ডকুমেন্টগুলো ওসিআর করার আগে উচ্চতর রেজোলিউশনে পুনরায় স্ক্যান করা উচিত। ইঞ্জিনটি যতই উন্নত হোক না কেন, কম রেজোলিউশনের স্ক্যানে ওসিআর চালালে ফলাফল খারাপ হয়।

ফন্ট এবং মুদ্রণের গুণমান

মুদ্রিত পাঠ্য (লেজার প্রিন্টার আউটপুট, টাইপসেট করা বই): পরিষ্কার মূল কপির ক্ষেত্রে ৯৮–৯৯% নির্ভুলতা
স্পষ্ট অক্ষরসহ উন্নত মানের হস্তাক্ষর: ৮৫–৯৫%
ম্লান বা ঝাপসা লেখা: কনট্রাস্টের উপর নির্ভর করে ৮০–৯৫%
কার্বন কপি পেপার: ৬০–৮৫%
পুরানো সংবাদপত্র / টাইপরাইটার: ৯০–৯৫% পরিষ্কার স্ক্যান সহ
কারসিভ হস্তাক্ষর: ৪০–৭০% — নিউরাল নেটওয়ার্ক OCR কারসিভ হস্তাক্ষর বুঝতে হিমশিম খায়।

পৃষ্ঠার অভিমুখ

অতিরিক্ত কাত বা ঘোরানো পৃষ্ঠা নির্ভুলতাকে ক্ষতিগ্রস্ত করে। টেসারেক্ট সহ বেশিরভাগ OCR ইঞ্জিন সামান্য ঘূর্ণন (প্রায় ১০ ডিগ্রি পর্যন্ত) স্বয়ংক্রিয়ভাবে শনাক্ত করে এবং সংশোধন করে। অতিরিক্ত ঘোরানো পৃষ্ঠাগুলি প্রথমে Rotate PDF ব্যবহার করে ম্যানুয়ালি সংশোধন করা উচিত।

ভাষা

টেসারেক্ট ১০০টিরও বেশি ভাষা সমর্থন করে। লুরাপিডিএফ-এর ওসিআর টুল স্বয়ংক্রিয়ভাবে ইংরেজি শনাক্ত করে। ল্যাটিন নয় এমন লিপি বা ইংরেজি নয় এমন ডকুমেন্টের ক্ষেত্রে, ভাষা নির্বাচন নির্ভুলতা উল্লেখযোগ্যভাবে বাড়িয়ে দেয়।

LuraPDF দিয়ে কীভাবে একটি PDF OCR করবেন

১. OCR টুলটি খুলুন: LuraPDF OCR PDF-এ যান। ২. স্ক্যান করা পিডিএফ আপলোড করুন: আপনার ফাইলটি ড্র্যাগ ও ড্রপ করুন। ৩. ভাষা নির্বাচন করুন (যদি ইংরেজি না হয়): ডকুমেন্টের প্রধান ভাষা নির্বাচন করুন। ৪. "Run OCR"-এ ক্লিক করুন: আপনার ব্রাউজারে পৃষ্ঠা অনুযায়ী প্রসেসিং সম্পন্ন হবে। ডকুমেন্টের দৈর্ঘ্যের ওপর সময় নির্ভর করে — একটি আধুনিক কম্পিউটারে ২০ পৃষ্ঠার স্ক্যান করতে সাধারণত ৩০–৯০ সেকেন্ড সময় লাগে। ৫. অনুসন্ধানযোগ্য পিডিএফ ডাউনলোড করুন: আউটপুটটি হলো একটি পিডিএফ, যাতে মূল স্ক্যান করা ছবিগুলোর সাথে একটি এমবেডেড টেক্সট লেয়ার থাকে।

ফলাফল যাচাই করা হচ্ছে

OCR করার পর, নির্ভুলতা যাচাই করুন: পৃষ্ঠার টেক্সট নির্বাচন করুন — টেক্সটটি মুদ্রিত অক্ষরগুলোর ঠিক উপরে নির্বাচনযোগ্য হতে হবে। একটি সাধারণ শব্দ খুঁজতে (Ctrl+F / Cmd+F) চাপুন — এটি খুঁজে পাওয়া যাবে। একটি অনুচ্ছেদ কপি করে টেক্সট এডিটরে পেস্ট করুন — আউটপুটটি পাঠযোগ্য হওয়া উচিত।

নির্ভুলতা কম হলে, অন্য টুল ব্যবহার করার আগে প্রথমে ইনপুট স্ক্যানের মান যাচাই করুন।

অন্যান্য অপারেশনের আগে কখন OCR চালাতে হবে

OCR লুরাপিডিএফ-এর এমন অতিরিক্ত অপারেশনগুলো আনলক করে যা শুধুমাত্র ছবিযুক্ত পিডিএফ-এ কাজ করে না:

OCR-এর পরে পিডিএফ কম্প্রেস করুন: একবার টেক্সট বের করে নেওয়া হলে, ছবির অংশগুলোকে কখনও কখনও আরও জোরালোভাবে কম্প্রেস করা যেতে পারে।
OCR করার পর PDF থেকে Word: OCR করা PDF ফাইলকে Word-এ রূপান্তর করলে সম্পাদনাযোগ্য টেক্সট পাওয়া যায়; অন্যদিকে, একটি র স্ক্যানকে রূপান্তর করলে এমবেডেড ছবিসহ একটি Word ফাইল পাওয়া যায়।
OCR করার পর PDF সম্পাদনা করুন](/redact-pdf): OCR করা ডকুমেন্টে টেক্সট-ভিত্তিক সম্পাদনা সঠিকভাবে কাজ করে। অনুসন্ধান ও নিষ্কাশন: পুনরায় টাইপ না করে নির্দিষ্ট তথ্য খুঁজুন এবং অনুলিপি করুন।

গোপনীয়তা: OCR আপনার ব্রাউজারে চলে

Tesseract.js ওয়েবঅ্যাসেম্বলি ব্যবহার করে সম্পূর্ণ ওসিআর প্রক্রিয়াটি স্থানীয়ভাবে চালায়। আপনার স্ক্যান করা নথিগুলো—যেগুলোতে প্রায়শই চিকিৎসা সংক্রান্ত রেকর্ড, আর্থিক বিবরণী, আইনি নথি বা ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য থাকে—কখনোই আপনার ডিভাইস থেকে বাইরে যায় না। কোনো দূরবর্তী সার্ভার আপনার ফাইলটি প্রসেস করে না।

এটি ক্লাউড ওসিআর পরিষেবাগুলির তুলনায় একটি উল্লেখযোগ্য সুবিধা, কারণ সেগুলিতে আপনার প্রক্রিয়াকৃত প্রতিটি জিনিসের একটি অনুলিপি অবশ্যই জমা হয়ে যায়।

ব্রাউজার-ভিত্তিক ওসিআর-এর সীমাবদ্ধতা

প্রক্রিয়াকরণের সময়

Tesseract.js নেটিভ ডেস্কটপ Tesseract বা ক্লাউড OCR API-এর চেয়ে ধীরগতির। আপনার হার্ডওয়্যারের উপর নির্ভর করে প্রতি পৃষ্ঠায় আনুমানিক ৩-৮ সেকেন্ড সময় লাগতে পারে। একটি ৫০-পৃষ্ঠার ডকুমেন্টের জন্য কয়েক মিনিট সময় লাগতে পারে।

টেবিল

টেসেরাক্ট টেবিলের বিষয়বস্তু শনাক্ত করে, কিন্তু পিডিএফ-এর টেক্সট লেয়ারে টেবিলের কাঠামো পুনর্গঠন করে না — লেখাগুলো পড়ার ক্রমানুসারে থাকবে, কিন্তু সেলের কাঠামো সংরক্ষিত হবে না। কাঠামোগত টেবিল নিষ্কাশনের জন্য, OCR করা পিডিএফটিকে ওয়ার্ডে রূপান্তর করুন এবং ম্যানুয়ালি টেবিলটি পুনরায় বিন্যাস করুন।

গাণিতিক প্রতীক

LaTeX-শৈলীর সমীকরণ এবং গাণিতিক প্রতীকগুলোর নির্ভুলতা কম। Tesseract মডেলগুলো স্বাভাবিক ভাষার পাঠ্যের জন্য অপ্টিমাইজ করা হয়েছে।

হস্তাক্ষর

যেমনটি উল্লেখ করা হয়েছে, কারসিভ হস্তাক্ষরের নির্ভুলতা সীমিত। প্রিন্ট হস্তাক্ষর তুলনামূলকভাবে ভালো হয়। গুরুত্বপূর্ণ হস্তলিখিত নথির ক্ষেত্রে, প্রতিটি পৃষ্ঠা হাতে-কলমে যাচাই করুন।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

OCR করা লেখাটি অক্ষরগুলোর সাথে ঠিকমতো মিলছে না — এটা কি কোনো বাগ? মারাত্মকভাবে বাঁকা স্ক্যানের ক্ষেত্রে এমনটা হতে পারে। শনাক্ত করা অক্ষরের অবস্থান থেকে লেখার অবস্থান গণনা করা হয়, কিন্তু পৃষ্ঠার জ্যামিতি যদি অ-মানসম্মত হয়, তাহলে অ্যালাইনমেন্ট সরে যেতে পারে। OCR চালানোর আগে এই বাঁক ঠিক করার জন্য পিডিএফটি ঘুরিয়ে চেষ্টা করুন।

আমি কি শুধু নির্দিষ্ট পৃষ্ঠাগুলো OCR করতে পারি? LuraPDF সমস্ত পৃষ্ঠা প্রসেস করে। যদি আপনার শুধু নির্দিষ্ট কিছু পৃষ্ঠায় OCR-এর প্রয়োজন হয়, তাহলে প্রথমে Extract PDF Pages ব্যবহার করে সেই পৃষ্ঠাগুলি এক্সট্র্যাক্ট করুন, OCR চালান, এবং তারপর ঐচ্ছিকভাবে ফলাফলগুলি মার্জ করুন।

OCR কি আমার স্ক্যান করা ডকুমেন্টের বাহ্যিক রূপ পরিবর্তন করে দেয়? না। মূল স্ক্যান করা ছবিগুলো হুবহু সংরক্ষিত থাকে। শুধু একটি অদৃশ্য টেক্সট লেয়ার যোগ করা হয়।

যে PDF ফাইলে আগে থেকেই কিছু টেক্সট পেজ এবং কিছু স্ক্যান করা পেজ আছে, সেটিতে কি OCR চালানো যাবে? হ্যাঁ — টেসারেক্ট ছবি-ভিত্তিক পৃষ্ঠাগুলো প্রসেস করে এবং একটি টেক্সট লেয়ার যোগ করে। যেসব পৃষ্ঠায় আগে থেকেই টেক্সট লেয়ার আছে, সেগুলোর ওপর কোনো প্রভাব পড়ে না।

আমার ডকুমেন্টটি আরবি / চীনা / জাপানি ভাষায় লেখা — এতে কি OCR কাজ করবে? হ্যাঁ, তবে চালানোর আগে টুলটিতে সঠিক ভাষা নির্বাচন করুন। CJK এবং ডান থেকে বামে লেখা ভাষাগুলোর ক্ষেত্রে টেসারেক্টের নির্ভুলতা ভালো, কিন্তু ল্যাটিন লিপির ডকুমেন্টের তুলনায় স্ক্যানের মানের ওপর এর তারতম্য বেশি হয়।

OCR স্ক্যান করা নথির লক করা আর্কাইভকে সহজলভ্য, অনুসন্ধানযোগ্য ও প্রক্রিয়াজাতযোগ্য তথ্যে রূপান্তরিত করে। স্ক্যান করা চুক্তিতে ভরা একটি ক্যাবিনেট একটি অনুসন্ধানযোগ্য ডেটাবেসে পরিণত হয়। একগাদা মেডিকেল রেকর্ড এমন একটি নথিতে পরিণত হয়, যা আপনি সহজেই নেভিগেট করতে পারেন। এই প্রক্রিয়াটি সম্পন্ন হতে কয়েক সেকেন্ড থেকে কয়েক মিনিট সময় লাগে এবং এটি সম্পূর্ণরূপে আপনার ডিভাইসেই চলে।