১০০% ব্যক্তিগততাৎক্ষণিক প্রক্রিয়াকরণচিরকালের জন্য বিনামূল্যে

পিডিএফ থেকে টেক্সট রূপান্তরকারী

যেকোনো PDF থেকে পরিষ্কার প্লেইন টেক্সট বের করুন — বিনামূল্যে, শুধুমাত্র ব্রাউজারে ব্যবহারযোগ্য এবং সম্পূর্ণ গোপনীয়। লেআউট-সংরক্ষণকারী অথবা স্ট্রিম মোড বেছে নিন। এক ক্লিকেই UTF-8 .txt হিসেবে ডাউনলোড করুন।

পিডিএফ থেকে টেক্সট কেন এক্সট্র্যাক্ট করা হয়?

পিডিএফ সর্বত্রই রয়েছে, কিন্তু এগুলো হলো কন্টেইনার — টেক্সট নয়। যখন আপনার কোনো লিগ্যাল ট্রাঞ্চ গ্রেপ করার, ডকুমেন্টের কন্টেন্ট কোনো মেশিন-লার্নিং পাইপলাইনে ফিড করার, রিসার্চ পেপারগুলোকে ইলাস্টিকসার্চ-এ ইন্ডেক্স করার, অথবা ভাঙা লাইন ব্রেক ম্যানুয়ালি ঠিক না করে শুধু একটি উদ্ধৃতি পেস্ট করার প্রয়োজন হয়, তখন আপনার প্লেইন টেক্সট প্রয়োজন। পিডিএফ ভিউয়ার থেকে কপি-পেস্ট করলে কলাম অ্যালাইনমেন্ট নষ্ট হয়ে যায়, অনাকাঙ্ক্ষিত হাইফেন চলে আসে এবং মাল্টি-কলাম লেআউটগুলো এলোমেলো হয়ে যায়। একটি বিশেষ পিডিএফ-টু-টেক্সট কনভার্টার এক ধাপেই এই সবকিছুর সমাধান করে দেয়।

LuraPDF-এর টেক্সট এক্সট্র্যাক্টরটি PDF.js ব্যবহার করে সম্পূর্ণভাবে আপনার ব্রাউজারে চলে; এই একই লাইব্রেরি Firefox-এর বিল্ট-ইন PDF ভিউয়ারেও ব্যবহৃত হয়। এখানে কোনো আপলোড, প্রসেসিং কিউ বা সার্ভার টিয়ার দ্বারা আরোপিত কোনো আকারের সীমাবদ্ধতা নেই। আপনি দুটি এক্সট্র্যাকশন মোড পাবেন — সহজে পাঠযোগ্য আউটপুটের জন্য লেআউট এবং পাইপলাইনে ব্যবহারের উপযোগী টেক্সটের জন্য স্ট্রিম — এর সাথে তিনটি এনকোডিং বেছে নেওয়ার সুযোগ এবং ঐচ্ছিক পেজ-ব্রেক মার্কারও রয়েছে। ফলাফলটি সাথে সাথেই একটি .txt ফাইল হিসেবে ডাউনলোড হয়ে যায়, যা আপনি যেকোনো এডিটরে খুলতে, pandas-এ ইম্পোর্ট করতে, অথবা যেকোনো কমান্ড-লাইন টুলের মাধ্যমে চালাতে পারবেন।

অনলাইনে কীভাবে পিডিএফকে টেক্সটে রূপান্তর করতে

1

আপনার পিডিএফ আপলোড করুন

আপনার পিডিএফ ফাইলটি আপলোড করার জায়গায় টেনে আনুন অথবা ব্রাউজ করতে ক্লিক করুন। ফাইলটি সম্পূর্ণভাবে আপনার ব্রাউজারেই থাকে — কোনো সার্ভার এটি গ্রহণ করে না।

2

পিক নিষ্কাশন মোড

কলাম ও টেবিলের বিন্যাস অক্ষুণ্ণ রাখতে লেআউট মোড বেছে নিন, অথবা এনএলপি পাইপলাইন ও মেশিন প্রসেসিংয়ের জন্য অপ্টিমাইজ করা পঠন-ক্রম অনুসারে টেক্সট আউটপুট করতে স্ট্রিম মোড বেছে নিন।

3

পৃষ্ঠা পরিসর নির্বাচন করুন

একসাথে সমস্ত পৃষ্ঠা বের করুন অথবা একটি পরিসর নির্দিষ্ট করুন — এটি দীর্ঘ নথির ক্ষেত্রে উপযোগী, যেখানে আপনার কেবল একটি অধ্যায় বা পরিচ্ছেদ প্রয়োজন।

4

এনকোডিং সেট করুন

UTF-8 হলো ডিফল্ট এবং এটি প্রায় সব স্ক্রিপ্ট ও ভাষা সমর্থন করে। শুধুমাত্র কোনো ডাউনস্ট্রিম টুলের প্রয়োজনে UTF-16 বা ASCII-তে পরিবর্তন করুন।

5

আপনার .txt ফাইলটি ডাউনলোড করুন

এক্সট্র্যাক্ট টেক্সট-এ ক্লিক করলেই আপনার .txt ফাইলটি সঙ্গে সঙ্গে ডাউনলোড হয়ে যাবে — কোনো ওয়াটারমার্ক নেই, কোনো অ্যাকাউন্ট নেই, কোনো অপেক্ষাও করতে হবে না।

১০০% ব্যক্তিগত

PDF.js ব্যবহার করে টেক্সট নিষ্কাশনের পুরো প্রক্রিয়াটি আপনার ব্রাউজারেই সম্পন্ন হয়। আপনার ডকুমেন্ট কখনোই কোনো সার্ভারে যায় না, ফলে এটি গোপনীয় পিডিএফ, আইনি প্রমাণপত্র এবং সংবেদনশীল গবেষণা তথ্যের জন্য নিরাপদ।

লেআউট এবং স্ট্রিম মোড

লেআউট মোড কলাম, টেবিল এবং ইন্ডেন্টেশন পুনর্গঠন করতে গ্লিফ পজিশন হিউরিস্টিকস ব্যবহার করে। স্ট্রিম মোড কন্টেন্ট-স্ট্রিম ক্রমানুসারে টেক্সট আউটপুট করে — যা পাইথন এনএলপি পাইপলাইন বা সার্চ ইনডেক্সারে ফিড করার জন্য আদর্শ।

UTF-8, UTF-16 এবং ASCII

ডিফল্ট UTF-8 আরবি, CJK, সিরিলিক, গ্রিক এবং ল্যাটিন ভাষার প্রতিটি রূপকে কোনো মোজিবেক ছাড়াই সমর্থন করে। যেসব পুরোনো টুল একাধিক বাইটের অক্ষর নিয়ে সমস্যায় পড়ে, সেগুলোর জন্য ASCII ব্যবহার করুন।

বহু-পৃষ্ঠা ব্যাচ

একবারে সমস্ত পৃষ্ঠা বের করুন — আউটপুট হিসেবে একটিমাত্র .txt ফাইল পাওয়া যাবে, যেখানে প্রতিটি পৃষ্ঠার মধ্যে ঐচ্ছিকভাবে পৃষ্ঠা-বিচ্ছেদ চিহ্ন (page-break markers) থাকবে, যাতে পরবর্তী স্ক্রিপ্টগুলো সেকশনের সীমানা অনুযায়ী ফাইল ভাগ করতে পারে।

পৃষ্ঠা-বিভাজন চিহ্নিতকারী

ফর্ম-ফিড ক্যারেক্টারগুলোকে পৃষ্ঠাগুলোর মধ্যে টগল করুন, যাতে grep, awk, বা pandas ম্যানুয়াল প্রসেসিং ছাড়াই ফাইলটিকে পৃষ্ঠা অনুযায়ী নির্ভুলভাবে ভাগ করতে পারে।

বিনামূল্যে, কোনো সাইনআপ প্রয়োজন নেই

কোনো অ্যাকাউন্ট, এপিআই কী বা সাবস্ক্রিপশনের প্রয়োজন নেই। আপনার ব্রাউজারের মেমোরি অনুযায়ী যত খুশি পিডিএফ কনভার্ট করুন — সম্পূর্ণ বিনামূল্যে, ফাইল বা পৃষ্ঠা প্রতি কোনো সীমাবদ্ধতা ছাড়াই।

কারা পিডিএফ টু টেক্সট ব্যবহার করেন?

সফটওয়্যার ইঞ্জিনিয়ারদের সার্চ ইঞ্জিনে ডকুমেন্ট অন্তর্ভুক্ত করা থেকে শুরু করে শিক্ষার্থীদের থিসিসের জন্য উদ্ধৃতি সংগ্রহ করা পর্যন্ত, প্লেইন-টেক্সট এক্সট্র্যাকশন প্রতিটি পরবর্তী কার্যপ্রবাহের জন্য পিডিএফ কন্টেন্টকে উন্মুক্ত করে দেয়।

ডেভেলপার এবং সার্চ ইঞ্জিনিয়ার

সার্ভার-সাইড নিষ্কাশন ধাপ ছাড়াই পিডিএফ কন্টেন্ট Elasticsearch, Solr, বা একটি ভেক্টর ডেটাবেসে ফিড করুন। স্ট্রিম মোড পরিষ্কার, হোয়াইটস্পেস-নরম্যালাইজড টেক্সট তৈরি করে যা টোকেনাইজেশন এবং ইন্ডেক্সিংয়ের জন্য প্রস্তুত থাকে।

গবেষক ও ডেটা বিজ্ঞানী

একাডেমিক পেপার, টেকনিক্যাল রিপোর্ট এবং সরকারি নথি থেকে এনএলপি কর্পোরা তৈরি করুন। প্রতিটি পেপার ব্যাচ-এক্সপোর্ট করে .txt ফাইলে রূপান্তর করুন, তারপর প্রিপ্রসেসিংয়ের জন্য pandas বা NLTK দিয়ে ফোল্ডারটি লোড করুন।

অনুসন্ধানী সাংবাদিকরা

FOIA ডাম্প এবং ফাঁস হওয়া নথিপত্রের অংশগুলো প্রায়শই পিডিএফ হিসেবে আসে। সেগুলোকে .txt ফাইলে রূপান্তর করুন এবং সংবেদনশীল উপাদান আপলোড না করেই মিনিটের মধ্যে grep বা Datashare ব্যবহার করে শত শত ফাইলের মধ্যে অনুসন্ধান করুন।

আইনি পেশাজীবীরা

সংবেদনশীল উপাদান কোনো তৃতীয় পক্ষের সার্ভারে আপলোড না করেই, কীওয়ার্ড অনুসন্ধান এবং বিশেষাধিকার পর্যালোচনার জন্য আদালতের প্রদর্শনী, চুক্তি এবং তথ্য উদঘাটন নথি থেকে পাঠ্য সংগ্রহ করুন।

শিক্ষার্থী ও শিক্ষাবিদ

ভাঙা লাইন ব্রেকের ঝামেলা ছাড়াই গবেষণা পত্র বা পাঠ্যপুস্তক থেকে নির্ভুল উদ্ধৃতি কপি করুন। লেআউট মোড ফুটনোট এবং উদ্ধৃতিগুলোকে পাঠযোগ্য রাখার জন্য প্রয়োজনীয় কাঠামো বজায় রাখে।

ডেটা বিশ্লেষক

পিডিএফ রিপোর্ট থেকে সারণিবদ্ধ ডেটা .txt ফাইলে নিয়ে আসুন এবং pandas, AWK বা যেকোনো স্ক্রিপ্টিং ল্যাঙ্গুয়েজ দিয়ে পার্স করুন। কাঠামোগত সারণি নিষ্কাশনের জন্য এটিকে PDF to Excel-এর সাথে যুক্ত করুন।

ব্রাউজার-ভিত্তিক পিডিএফ থেকে টেক্সট রূপান্তরের সুবিধাসমূহ

স্থানীয়ভাবে প্রক্রিয়াকরণের অর্থ হলো দ্রুত কাজ সম্পন্ন হওয়া, গোপনীয়তার কোনো ঝুঁকি না থাকা এবং এমন কোনো সার্ভারের উপর নির্ভরতা না থাকা যা আপনার ফাইলের গতি কমিয়ে দিতে, লগ করতে বা তা হারিয়ে ফেলতে পারে।

  • আপলোডের প্রয়োজন নেই — সম্পূর্ণ নিষ্কাশন প্রক্রিয়া চলাকালীন গোপনীয় পিডিএফ ফাইলগুলো আপনার ডিভাইসেই থাকবে।
  • লেআউট মোড কলাম ও টেবিলগুলোকে এমনভাবে পুনর্গঠন করে, যাতে ম্যানুয়াল পরিমার্জন ছাড়াই লেখা স্বাভাবিকভাবে পড়া যায়।
  • স্ট্রিম মোড এমন পাইপলাইন-উপযোগী টেক্সট তৈরি করে যা টোকেনাইজার এবং এনএলপি লাইব্রেরিগুলো কোনো প্রাক-প্রক্রিয়াকরণ ছাড়াই ব্যবহার করতে পারে।
  • UTF-8 আউটপুট প্রতিটি লিপি ও ভাষার জন্য নিরাপদ — আরবি, CJK এবং সিরিলিক কোনো বিকৃতি ছাড়াই নিষ্কাশিত হয়।
  • পৃষ্ঠা-বিচ্ছেদ চিহ্নগুলো পরবর্তী স্ক্রিপ্টগুলোকে এক লাইনের কোডের মাধ্যমেই আউটপুটকে পৃষ্ঠা অনুযায়ী ভাগ করার সুযোগ দেয়।
  • বিনামূল্যে এবং ফাইলের কোনো সীমাবদ্ধতা নেই — কোনো পেওয়ালের সম্মুখীন না হয়েই ৫০০ পৃষ্ঠার একটি রিপোর্ট বা হাজারো স্বতন্ত্র পেপার রূপান্তর করতে ।

পিডিএফ থেকে টেক্সট নিষ্কাশন কীভাবে কাজ করে

LuraPDF, PDF.js-এর getTextContent() API ব্যবহার করে, যা প্রতিটি পৃষ্ঠার কন্টেন্ট স্ট্রিম পার্স করে এবং টেক্সট আইটেমের একটি অ্যারে রিটার্ন করে — যার প্রতিটিতে ইউনিকোড স্ট্রিং, ফন্ট মেট্রিক্স এবং পৃষ্ঠার x/y অবস্থান থাকে। লেআউট মোডে, এক্সট্র্যাক্টর আইটেমগুলোকে উল্লম্ব অবস্থান অনুসারে লাইনে গ্রুপ করে, তারপর প্রতিটি লাইনকে বাম থেকে ডানে সাজায় এবং গ্লিফগুলোর মধ্যবর্তী ব্যবধানের সমানুপাতিক স্পেস যুক্ত করে। এটি কলাম এবং ইনডেন্টেড তালিকার আনুমানিক ভিজ্যুয়াল লেআউট পুনর্গঠন করে। স্ট্রিম মোডে, আইটেমগুলো স্থানিক সর্টিং ছাড়াই কন্টেন্ট-স্ট্রিম ক্রমানুসারে লেখা হয় — যা সংক্ষিপ্ত অনুচ্ছেদ তৈরি করে এবং টোকেনাইজাররা তা পছন্দ করে।

টেক্সটটি তৈরি হয়ে গেলে, ব্রাউজারের টেক্সটএনকোডার এপিআই (TextEncoder API) ব্যবহার করে এটিকে নির্বাচিত ক্যারেক্টার সেটে এনকোড করা হয় এবং একটি ব্লব (Blob)-এ লেখা হয়। একটি অস্থায়ী অবজেক্ট ইউআরএল (object URL) ডাউনলোড প্রক্রিয়াটি চালু করে। কোনো পর্যায়েই ডেটা ব্রাউজার ট্যাব থেকে বাইরে যায় না। যদি পেজ-ব্রেক মার্কার (page-break markers) সক্রিয় করা থাকে, তাহলে প্রতিটি পৃষ্ঠার টেক্সট ব্লকের মধ্যে একটি ফর্ম-ফিড ক্যারেক্টার (form-feed character) যুক্ত করা হয়, যা প্রোগ্রাম্যাটিক পেজ স্প্লিটিংকে অত্যন্ত সহজ করে তোলে। সম্পূর্ণ প্রক্রিয়াটি প্রতি পৃষ্ঠার জন্য সিনক্রোনাসভাবে চলে এবং বেশিরভাগ ডকুমেন্টের জন্য এক সেকেন্ডেরও কম সময়ে সম্পন্ন হয়।

লুরাপিডিএফ বনাম অন্যান্য পিডিএফ থেকে টেক্সট টুল

বৈশিষ্ট্যলুরাপিডিএফছোট পিডিএফঅ্যাডোবি অ্যাক্রোব্যাট
শুধুমাত্র ব্রাউজারে ব্যবহারযোগ্য / আপলোড করা যাবে নাহ্যাঁনানা
লেআউট এবং স্ট্রিম মোডহ্যাঁআংশিকহ্যাঁ
UTF-8 / UTF-16 / ASCIIহ্যাঁশুধুমাত্র UTF-8হ্যাঁ
বিনামূল্যে, ফাইলের কোনো সীমা নেইহ্যাঁপ্রতিদিন ২টি বিনামূল্যেপ্রদত্ত

পিডিএফ থেকে টেক্সট রূপান্তরের ফলাফল আরও ভালো করার জন্য কিছু পরামর্শ

এক্সট্র্যাকশনের আগে ও পরের কয়েকটি সিদ্ধান্তই পরিচ্ছন্ন টেক্সট এবং খণ্ডিত খণ্ডাংশের এক অগোছালো গুচ্ছের মধ্যে পার্থক্য গড়ে দেয়।

  1. Tip 1:

    যদি পিডিএফটি এমন একটি স্ক্যান হয় যেখানে নির্বাচনযোগ্য কোনো লেখা নেই, তাহলে প্রথমে ওসিআর পিডিএফ (OCR PDF) চালান — অন্যথায় এক্সট্র্যাকশনের ফলে একটি খালি ফাইল তৈরি হবে।

  2. Tip 2:

    মেশিন-লার্নিং পাইপলাইনের জন্য স্ট্রিম মোড এবং আপনার পড়া বা সম্পাদনা করার উপযোগী আউটপুটের জন্য লেআউট মোড ব্যবহার করুন।

  3. Tip 3:

    আপনার নির্দিষ্ট টুলটিতে যদি স্পষ্টভাবে ASCII বা UTF-16 ব্যবহারের প্রয়োজন না হয়, তবে UTF-8 ব্যবহার করুন — UTF-8 হলো একটি সার্বজনীন ও নিরাপদ বিকল্প।

  4. Tip 4:

    স্ক্রিপ্টে আউটপুট পৃষ্ঠা অনুযায়ী ভাগ করার সময় পেজ-ব্রেক মার্কার সক্রিয় করুন — এতে ম্যানুয়াল পার্সিং-এর একটি ধাপ কমে যায়।

  5. Tip 5:

    এক্সপোর্ট করার পর একটি সাধারণ রেজেক্স ব্যবহার করে পুনরাবৃত্ত হেডার ও ফুটার বাদ দিন — হেডারের টেক্সটটি ম্যাচ করুন এবং এর প্রতিটি উপস্থিতি মুছে দিন।

  6. Tip 6:

    খুব বড় পিডিএফ ফাইলের ক্ষেত্রে, ব্রাউজারকে রেসপন্সিভ রাখতে পৃষ্ঠা সংখ্যা অনুযায়ী প্রসেস করুন — প্রয়োজনে অধ্যায়গুলো আলাদাভাবে বের করে নিন।

সম্পর্কিত সরঞ্জাম

পিডিএফ থেকে টেক্সট — প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

বিনামূল্যে একটি পিডিএফ থেকে কীভাবে টেক্সট বের করব?
আপনার পিডিএফ ফাইলটি LuraPDF-এ আপলোড করুন, আপনার এক্সট্র্যাকশন মোড এবং এনকোডিং বেছে নিন, তারপর ডাউনলোড-এ ক্লিক করুন। সম্পূর্ণ প্রক্রিয়াটি আপনার ব্রাউজারেই সম্পন্ন হয় — কোনো সাইনআপ, সার্ভারে আপলোড বা কোনো খরচ নেই।
স্ক্যান করা পিডিএফ কি পিডিএফ থেকে টেক্সট রূপান্তরের জন্য কাজ করবে?
স্ক্যান করা PDF-এ রাস্টার ইমেজ থাকে, নির্বাচনযোগ্য টেক্সট থাকে না। প্রথমে একটি অনুসন্ধানযোগ্য টেক্সট লেয়ার যোগ করতে ডকুমেন্টটি আমাদের OCR PDF টুলের মাধ্যমে চালান, তারপর এটিকে প্লেইন টেক্সট হিসেবে এক্সট্র্যাক্ট করতে এখানে ফিরে আসুন।
লেআউট মোড এবং স্ট্রিম মোডের মধ্যে পার্থক্য কী?
লেআউট মোড প্রতিটি গ্লিফের x/y স্থানাঙ্ক ব্যবহার করে লাইন, কলাম এবং টেবিলের একটি মোটামুটি বিন্যাস পুনর্গঠন করে — যা মানুষের পড়ার জন্য সবচেয়ে ভালো। স্ট্রিম মোড পিডিএফ রাইটার দ্বারা ব্যবহৃত মূল কন্টেন্ট-স্ট্রিম ক্রমানুসারে টেক্সট আউটপুট করে — যা এনএলপি, সার্চ ইন্ডেক্সিং এবং ডেটা পাইপলাইনের জন্য সবচেয়ে ভালো, যেখানে সঠিক ব্যবধান গুরুত্বপূর্ণ নয়।
পিডিএফ থেকে টেক্সট কি UTF-8 সমর্থন করে?
হ্যাঁ। UTF-8 হলো ডিফল্ট এনকোডিং এবং এটি ল্যাটিন, আরবি, চীনা, জাপানি, কোরিয়ান, সিরিলিক, গ্রিকসহ প্রায় সব ধরনের লিপি অক্ষরের কোনো বিকৃতি ছাড়াই সমর্থন করে। UTF-16 এবং ASCII-ও উপলব্ধ আছে।
পিডিএফ থেকে টেক্সট নিষ্কাশন কি লসলেস?
নেটিভ ডিজিটাল পিডিএফের ক্ষেত্রে, হ্যাঁ — পিডিএফটিতে থাকা প্রতিটি অক্ষর বিশ্বস্তভাবে বের করা হয়। স্ক্যান করা পিডিএফের ক্ষেত্রে, নির্ভুলতা এই টুলের উপর নয়, বরং ওসিআর-এর মানের উপর নির্ভর করে।
আমি কি একসাথে একাধিক পৃষ্ঠা থেকে টেক্সট বের করতে পারি?
হ্যাঁ। ডিফল্টভাবে সমস্ত পৃষ্ঠা একটিমাত্র .txt ফাইলে বের হয়ে আসে। আপনি আউটপুটকে একটি নির্দিষ্ট অংশে সীমাবদ্ধ করতে একটি পৃষ্ঠার পরিসরও নির্দিষ্ট করে দিতে পারেন — যেমন পৃষ্ঠা ৫ থেকে ২০।
মোবাইলে কি পিডিএফ থেকে টেক্সট রূপান্তর কাজ করে?
হ্যাঁ — টুলটি iOS এবং Android-এর মোবাইল ব্রাউজারগুলিতে কাজ করে। খুব বড় আকারের PDF ফাইল সীমিত RAM যুক্ত ডিভাইসে ধীরগতিতে চলতে পারে; প্রয়োজনে ফাইলের বিভিন্ন অংশ প্রসেস করার জন্য পেজ-রেঞ্জ অপশনটি ব্যবহার করুন।
অনলাইনে গোপনীয় পিডিএফ ফাইলকে টেক্সটে রূপান্তর করতে কি নিরাপদ?
হ্যাঁ। LuraPDF আপনার ব্রাউজার ট্যাবের ভেতরেই PDF.js ব্যবহার করে সবকিছু স্থানীয়ভাবে প্রসেস করে। কোনো ফাইলের ডেটা কখনোই সার্ভারে পাঠানো হয় না, ফলে এটি আইনি নথি, চিকিৎসা সংক্রান্ত রেকর্ড, আর্থিক প্রতিবেদন এবং বাণিজ্যিক গোপনীয়তার জন্য নিরাপদ।
আমার PDF ফাইলটি পাসওয়ার্ড দিয়ে সুরক্ষিত থাকলে কী হবে?
প্রথমে আমাদের আনলক পিডিএফ টুল ব্যবহার করে পিডিএফটি আনলক করুন, যা আপনার ব্রাউজার থেকে পাসওয়ার্ডটি সরিয়ে দেবে। তারপর টেক্সটটি এক্সট্র্যাক্ট করার জন্য এখানে ফিরে আসুন।
নিষ্কাশিত টেক্সটে কি ওয়াটারমার্ক, হেডার এবং ফুটার থাকবে?
এক্সট্র্যাক্টরটি পিডিএফ-এর কন্টেন্ট স্ট্রিম থেকে সমস্ত টেক্সট কন্টেন্ট বের করে আনে, যার মধ্যে ওয়াটারমার্ক, হেডার এবং ফুটারও অন্তর্ভুক্ত থাকে, যদি সেগুলো টেক্সট অবজেক্ট হয়। যেকোনো টেক্সট এডিটরে একটি সাধারণ রেজেক্স (regex) ব্যবহার করে .txt আউটপুট থেকে হেডার ও ফুটারের পুনরাবৃত্তিমূলক প্যাটার্নগুলো বাদ দেওয়া যায়।

আপনার ব্রাউজারে পিডিএফ টেক্সট এক্সট্র্যাক্ট করুন — বিনামূল্যে, গোপনীয়, তাৎক্ষণিক

আপনার পড়ার জন্য লেআউট-সারিবদ্ধ টেক্সট প্রয়োজন হোক বা পাইপলাইনের জন্য স্ট্রিম-মোড আউটপুট, LuraPDF কোনো সার্ভার স্পর্শ না করেই কয়েক সেকেন্ডের মধ্যে তা তৈরি করে দেয়। ডিফল্টভাবে UTF-8, প্রয়োজন অনুযায়ী পৃষ্ঠা বিরতি, কোনো সাইনআপের প্রয়োজন নেই, কোনো ওয়াটারমার্ক নেই। আপনার PDF ফাইলটি ড্রপ করুন এবং ত্রুটিমুক্ত .txt ফাইল ডাউনলোড করুন।