ফরম্যাটিং না হারিয়ে কীভাবে পিডিএফকে ওয়ার্ডে রূপান্তর করবেন
বুঝুন কেন পিডিএফ থেকে ওয়ার্ডে রূপান্তর স্বভাবতই ত্রুটিপূর্ণ, রূপান্তরের পর কোন ফরম্যাটিং টিকে থাকে, কোনটি থাকে না এবং ফরম্যাটিংয়ের ক্ষতি কমানোর কৌশলগুলো।

Editorial & Technical Team · May 3, 2026 · 6 min read
পিডিএফ থেকে ওয়ার্ডে রূপান্তর করার সময় ব্যবহারকারীরা একটি পুনরাবৃত্তিমূলক হতাশার সম্মুখীন হন: আউটপুটটি দেখতে ভুল মনে হয়। কলামগুলো সরে যায়, ছবিগুলো অপ্রত্যাশিত জায়গায় চলে যায়, ফন্ট বদলে যায়, টেবিলগুলো ভেঙে সাধারণ টেক্সটে পরিণত হয়। কনভার্টারটি "কাজ করেনি"।
তবে এটা কাজ করেছিল। সমস্যাটি হলো পিডিএফ এবং ওয়ার্ডের মধ্যে একটি মৌলিক কাঠামোগত অমিল। এই অমিলটি বুঝতে পারলে আপনি জানতে পারবেন কখন রূপান্তরটি ভালোভাবে কাজ করবে, কখন করবে না এবং এর প্রতিকারে কী করতে হবে।
পিডিএফ এবং ওয়ার্ড কেন মৌলিকভাবে ভিন্ন
পিডিএফ (পোর্টেবল ডকুমেন্ট ফরম্যাট) একটি নির্দিষ্ট বিন্যাসের ফরম্যাট। এটি একটি ডকুমেন্টকে পৃষ্ঠার উপর দৃশ্যমান উপাদানগুলোর একটি সুনির্দিষ্ট বিন্যাস হিসেবে বর্ণনা করে — প্রতিটি অক্ষরের পয়েন্টে একটি নির্দিষ্ট অবস্থান থাকে, প্রতিটি ছবির সঠিক স্থানাঙ্ক থাকে, এবং প্রতিটি লাইনের একটি নির্দিষ্ট স্ট্রোক প্রস্থ থাকে। পিডিএফ উপাদানগুলোর মধ্যেকার সম্পর্ক বর্ণনা করে না। শব্দার্থগত অর্থে এর 'প্যারাগ্রাফ', 'টেবিল' বা 'হেডিং'-এর কোনো ধারণা নেই। এটি শুধু বলে: এই গ্লিফটি (245, 410) অবস্থানে রাখো।
ওয়ার্ড (.docx) একটি ফ্লো ডকুমেন্ট ফরম্যাট। এটি শব্দার্থিক কাঠামোর মাধ্যমে বিষয়বস্তু বর্ণনা করে: যেমন—প্যারাগ্রাফ, স্টাইল, টেবিল, হেডার এবং কলাম। এর চূড়ান্ত দৃশ্যমান রূপটি ফাইলে স্থির করা থাকে না, বরং প্রদর্শনের সময় একটি রেন্ডারিং ইঞ্জিন দ্বারা নির্ধারিত হয়।
এই দুটি মডেলের মধ্যে রূপান্তর প্রক্রিয়াটি স্বভাবতই তথ্য-বিচ্যুতিমূলক। পিডিএফ থেকে ওয়ার্ডে রূপান্তর করতে প্রয়োজন:
১. ক্যারেক্টার নিষ্কাশন: পিডিএফ থেকে গ্লিফের অবস্থান এবং ইউনিকোড মান পড়া। ২. পাঠ্য পুনর্গঠন: গ্লিফের ব্যবধান থেকে শব্দের সীমানা অনুমান করা ৩. বিন্যাস অনুমান: অবস্থান ডেটা থেকে কোনটি 'প্যারাগ্রাফ', 'টেবিল', 'কলাম' বা 'হেডিং' ছিল তা অনুমান করা। ৪. স্ট্রাকচার ম্যাপিং: ওয়ার্ডের এমন উপাদান তৈরি করা যা পিডিএফ-এর দৃশ্যমান রূপের কাছাকাছি হয়।
ধাপ ৩ এবং ৪ হলো হিউরিস্টিক — অর্থাৎ, যুক্তিসঙ্গত অনুমান। কোনো অ্যালগরিদমই ১০০% নির্ভুল নয়, কারণ পিডিএফ-এ মূল ডকুমেন্টের কাঠামো পুনর্গঠনের জন্য প্রয়োজনীয় তথ্য থাকে না। ডকুমেন্টটি প্রথমবার পিডিএফ-এ এক্সপোর্ট করার সময়ই এর মূল কাঠামোটি হারিয়ে গিয়েছিল।
যা ভালোভাবে রূপান্তরিত হয়
সীমাবদ্ধতা থাকা সত্ত্বেও, নির্দিষ্ট ধরণের কন্টেন্টের ক্ষেত্রে রূপান্তর ভালোভাবে কাজ করে:
- সাধারণ টেক্সট ডকুমেন্ট: ন্যূনতম ফরম্যাটিং সহ সাবলীল টেক্সটের প্যারাগ্রাফগুলো সুন্দরভাবে রূপান্তরিত হয়। মূল টেক্সট, বুলেট লিস্ট, সংখ্যাযুক্ত তালিকা — এই সবই ভালোভাবে রূপান্তরিত হয়।
- মৌলিক টেবিল: স্পষ্ট সেল বর্ডারযুক্ত টেবিলগুলো সাধারণত সঠিকভাবে ওয়ার্ড টেবিল অবজেক্টে রূপান্তরিত হয়।
- সাধারণ হেডার ও ফুটার: এগুলো সাধারণত সঠিকভাবে শনাক্ত করা হয়।
- প্রমিত ফন্ট: প্রচলিত ফন্ট (টাইমস নিউ রোমান, এরিয়াল, ক্যালিব্রি) ব্যবহার করা ডকুমেন্টগুলো সঠিকভাবে পুনরুৎপাদিত হয়। অপরিচিত বা আলংকারিক ফন্ট ব্যবহার করা ডকুমেন্টগুলোতে ফন্টের পরিবর্তন দেখা যেতে পারে।
যেগুলো ভালোভাবে রূপান্তরিত হয় না
এই উপাদানগুলো সমস্ত পিডিএফ-টু-ওয়ার্ড কনভার্টারেই নির্ভরযোগ্যভাবে সমস্যাযুক্ত:
একাধিক কলামের বিন্যাস: একটি দুই-কলামের ম্যাগাজিন লেআউট প্রায়শই একটি একক কলামে রূপান্তরিত হয়, যেখানে লেখাগুলো পড়ার ক্রমানুসারে কলাম জুড়ে প্রবাহিত হয় এবং এর ফলে উদ্দিষ্ট কাঠামোটি নষ্ট হয়ে যায়। সুস্পষ্ট বর্ডারবিহীন টেবিল: সেল বর্ডারের পরিবর্তে স্পেসিং ব্যবহার করে তৈরি করা দৃশ্যমান টেবিলগুলোকে টেবিল হিসেবে গণ্য করা হয় না।
- ইমেজে থাকা টেক্সট: যে টেক্সট কোনো ইমেজের অংশ (যা পিডিএফ টেক্সট হিসেবে রেন্ডার করা হয় না), তা নন-ওসিআর কনভার্টার দ্বারা মোটেও এক্সট্র্যাক্ট করা হয় না। এটি একটি ইমেজ অবজেক্ট হিসেবে প্রদর্শিত হয়। স্ক্যান করা নথি: একটি স্ক্যান করা পিডিএফ সম্পূর্ণরূপে চিত্র ডেটা। OCR ছাড়া, রূপান্তর করলে একটি ওয়ার্ড ফাইল তৈরি হয় যেখানে ছবি এমবেড করা থাকে, সম্পাদনাযোগ্য টেক্সট নয়। জটিল পজিশনযুক্ত অবজেক্ট: অ্যাবসোলিউট পজিশনিং সহ টেক্সট বক্স, কলআউট, সাইডবার এবং ফ্লোটিং এলিমেন্টগুলো খুব কমই তাদের উদ্দিষ্ট ওয়ার্ড সংস্করণে রূপান্তরিত হয়।
- সাজসজ্জার ফন্ট এবং লিগেচার: যেসব ফন্টে অ-প্রমিত গ্লিফ এনকোডিং ব্যবহৃত হয়, সেগুলোর লেখা বিকৃত বা অস্পষ্ট হয়ে যেতে পারে।
স্ক্যান করা পিডিএফ রূপান্তর করা
আপনার পিডিএফটি যদি একটি স্ক্যান করা ডকুমেন্ট হয়, তবে আপনাকে একটি অতিরিক্ত ধাপ অনুসরণ করতে হবে: প্রথমে ওসিআর (OCR) চালান।
১. একটি টেক্সট লেয়ার যোগ করে ডকুমেন্টটিকে অনুসন্ধানযোগ্য করতে LuraPDF OCR PDF ব্যবহার করুন। ২. এরপর LuraPDF PDF to Word ব্যবহার করে OCR করা PDF ফাইলটিকে Word-এ রূপান্তর করুন।
এই দুই-ধাপের প্রক্রিয়াটি সরাসরি স্ক্যান রূপান্তরের চেয়ে অনেক উন্নত মানের ওয়ার্ড আউটপুট তৈরি করে, কারণ OCR ধাপটি প্রকৃত PDF টেক্সট অবজেক্ট তৈরি করে যা কনভার্টারটি প্রসেস করতে পারে।
LuraPDF ব্যবহার করে কীভাবে PDF কে Word এ রূপান্তর করবেন
১. কনভার্টারটি খুলুন: LuraPDF PDF to Word-এ যান। ২. আপনার পিডিএফ আপলোড করুন: ড্র্যাগ অ্যান্ড ড্রপ করুন অথবা ব্রাউজ করতে ক্লিক করুন। ৩. **"রূপান্তর করুন" বোতামে ক্লিক করুন: এই রূপান্তরটি আপনার ব্রাউজারে সম্পন্ন হবে, যেখানে পিডিএফ পার্সিংয়ের জন্য pdf.js এবং ম্যামথের বিপরীত রূপান্তর লজিক ব্যবহৃত হবে। ৪. **ডাউনলোড**: আপনি একটি .docx ফাইল পাবেন যা Microsoft Word, LibreOffice বা Google Docs-এ খোলার জন্য প্রস্তুত।
আরও ভালো ফলাফল অর্জনের ব্যবহারিক কৌশল
বড় আকারের ডকুমেন্টের জন্য: রূপান্তরের ফলাফল মূলটির কাছাকাছি হবে। কোনো ফাঁকা স্থানের সমস্যা থাকলে তা ঠিক করার জন্য দ্রুত একবার দেখে নিন।
টেবিলযুক্ত ডকুমেন্টগুলোর জন্য: যদি টেবিলগুলো ভুলভাবে রূপান্তরিত হয়ে থাকে, তবে মূল টেবিলটিতে দৃশ্যমান বর্ডার ছিল কিনা তা পরীক্ষা করুন। বর্ডারবিহীন টেবিলগুলো প্রায়শই সঠিকভাবে রূপান্তরিত হয় না। রূপান্তরের আউটপুটকে টেক্সট রেফারেন্স হিসেবে ব্যবহার করে Word-এ জটিল টেবিলগুলো ম্যানুয়ালি পুনর্গঠন করুন।
একাধিক কলাম বিন্যাসের জন্য: এটা মেনে নিন যে কলামগুলো সম্ভবত সরলরৈখিক হয়ে যাবে। রূপান্তরিত টেক্সটটিকে প্রাথমিক ভিত্তি হিসেবে ব্যবহার করুন এবং Word-এ ম্যানুয়ালি কলাম লেআউট পুনরায় প্রয়োগ করুন।
অতিরিক্ত ফরম্যাট করা ডকুমেন্টের জন্য: আপনার কি আসলেই একটি সম্পাদনাযোগ্য ওয়ার্ড ফাইল প্রয়োজন, নাকি শুধু টেক্সট বের করা দরকার, তা বিবেচনা করুন। শুধুমাত্র টেক্সট বের করার জন্য, LuraPDF PDF to Text আরও পরিচ্ছন্ন প্লেইন টেক্সট আউটপুট দেয়।
কখন রূপান্তর করা উচিত নয়
কখনও কখনও পিডিএফ থেকে ওয়ার্ডে রূপান্তর করা ভুল পদ্ধতি:
আপনাকে শুধু এর বিষয়বস্তু পড়তে হবে: পিডিএফটি খুলুন। এটি রূপান্তর করার কোনো প্রয়োজন নেই।
- আপনি যদি ছোটখাটো সম্পাদনা করতে চান: টেক্সট যোগ করতে, টাইপের ভুল সংশোধন করতে, বা রূপান্তর ছাড়াই সরাসরি কোনো অংশ মুছে ফেলতে LuraPDF Edit PDF ব্যবহার করুন।
- **আপনার নির্দিষ্ট পৃষ্ঠা বের করার প্রয়োজন হলে: আপনার প্রয়োজনীয় পৃষ্ঠাগুলো ছোট আকারের PDF হিসেবে পেতে Extract PDF Pages ব্যবহার করুন।
যখন আপনাকে বিষয়বস্তু ব্যাপকভাবে পুনর্লিখন বা পুনঃবিন্যাস করতে হয় এবং মূল ফাইলটি আর উপলব্ধ থাকে না, তখন পিডিএফ থেকে ওয়ার্ডে রূপান্তর করা উপযুক্ত।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
ওয়ার্ড ফাইলটি পিডিএফ থেকে দেখতে আলাদা কেন? কারণ পিডিএফ এবং ওয়ার্ড মৌলিকভাবে ভিন্ন লেআউট মডেল ব্যবহার করে। কনভার্টারটি ভিজ্যুয়াল পজিশন ডেটা থেকে কাঠামো পুনর্গঠন করে, যা স্বভাবতই আনুমানিক। এর আউটপুট হলো সর্বোচ্চ চেষ্টার একটি আনুমানিক রূপ।
রূপান্তরিত লেখাটি অস্পষ্ট দেখাচ্ছে — কেন? যেখানে স্ট্যান্ডার্ড ক্যারেক্টার ম্যাপিং ব্যর্থ হয়, সেখানে পিডিএফটিতে সম্ভবত একটি কাস্টম গ্লিফ এনকোডিং বা টাইপ ৩ ফন্ট ব্যবহার করা হয়েছে। পুরোনো পিডিএফ, আইনি আদালতের নথি এবং নন-স্ট্যান্ডার্ড পিডিএফ জেনারেটর দ্বারা তৈরি ডকুমেন্টের ক্ষেত্রে এটি একটি সাধারণ বিষয়।
আমি কি পাসওয়ার্ড-সুরক্ষিত পিডিএফকে ওয়ার্ডে রূপান্তর করতে পারি? প্রথমে Unlock PDF ব্যবহার করে পাসওয়ার্ডটি সরান, তারপর রূপান্তর করুন।
রূপান্তর কি হাইপারলিঙ্কগুলি অক্ষুণ্ণ রাখে? কখনো কখনো। মূল PDF-টিতে যদি URL-এর লিঙ্ক টীকা থাকে, তবে সেগুলি প্রায়শই রূপান্তরের পরেও অক্ষত থাকে। অভ্যন্তরীণ বুকমার্ক এবং ক্রস-রেফারেন্স সাধারণত অক্ষত থাকে না।
রূপান্তরিত ফাইলটির কিছু জায়গায় লেখার পরিবর্তে বড় ছবি রয়েছে। পিডিএফ-এর ঐ অংশগুলো রাস্টারাইজড ইমেজ, টেক্সট নয়। প্রথমে পিডিএফ-টিতে ওসিআর চালান, তারপর রূপান্তর করুন।
পিডিএফ থেকে ওয়ার্ডে সফল রূপান্তরের মূল চাবিকাঠি হলো ইনপুট টাইপের সাথে আপনার প্রত্যাশার সামঞ্জস্য রাখা। পরিচ্ছন্ন ও টেক্সট-বহুল পিডিএফ চমৎকারভাবে রূপান্তরিত হয়। জটিল লেআউটের জন্য রূপান্তরের পরে পরিমার্জনের প্রয়োজন হয়। স্ক্যান করা ডকুমেন্টের জন্য প্রথমে ওসিআর (OCR) করা প্রয়োজন। সঠিক প্রত্যাশা নির্ধারণ করুন, তাহলে টুলটি আপনাকে খুব কমই হতাশ করবে।