অর্থায়ন দল
প্রতিটি লেনদেন ম্যানুয়ালি পুনরায় প্রবেশ না করেই সমন্বয়ের জন্য ব্যাংক স্টেটমেন্টের পিডিএফ ফাইলগুলোকে লেজার স্প্রেডশিটে রূপান্তর করুন।
ব্যাংক স্টেটমেন্ট, ইনভয়েস, ত্রৈমাসিক প্রতিবেদন, জরিপের ফলাফল — এই ডেটাগুলো এমন এক প্রিন্টযোগ্য লেআউটের আড়ালে আবদ্ধ থাকে, যা কেউ চায়নি। পিডিএফ থেকে এক্সেলে কপি-পেস্ট করাটা এক চরম হতাশার কাজ: সেলগুলো ভুল অক্ষরে বিভক্ত হয়ে যায়, সংখ্যাগুলো টেক্সট হিসেবে পেস্ট হয়, মুদ্রার চিহ্নগুলো ফর্মুলায় সমস্যা তৈরি করে, এবং একাধিক পৃষ্ঠার টেবিলগুলো বিচ্ছিন্ন খণ্ডাংশ হিসেবে আসে। সঠিক টুলটি ডেটাগুলোকে তাদের কাঠামো অক্ষুণ্ণ রেখে বের করে আনে, ফলে স্প্রেডশিটটি প্রথমবার খোলার পর থেকেই বিশ্লেষণের জন্য প্রস্তুত থাকে।
LuraPDF, PDF.js ব্যবহার করে টেবিলের ডেটা এক্সট্র্যাক্ট করে, যা টেক্সট স্প্যান এবং পৃষ্ঠার উপর তাদের স্থানাঙ্ক পড়তে পারে। একটি ক্লায়েন্ট-সাইড হিউরিস্টিক অ্যালাইনমেন্টের উপর ভিত্তি করে কাছাকাছি স্প্যানগুলোকে সারি এবং কলামে ভাগ করে, তারপর SheetJS সেই স্ট্রাকচার্ড ডেটা একটি XLSX ফাইলে লিখে দেয় — যেখানে সংখ্যাসূচক এবং তারিখের সেলগুলো স্ট্রিং হিসেবে না রেখে সঠিকভাবে টাইপ করা থাকে। পুনরাবৃত্ত হেডারসহ একাধিক পৃষ্ঠার টেবিলগুলো স্বয়ংক্রিয়ভাবে একটি অবিচ্ছিন্ন শীটে জুড়ে যায়। সবকিছু আপনার ব্রাউজারে চলে, যা এটিকে আর্থিক ডেটার জন্য একমাত্র সত্যিকারের নিরাপদ PDF-to-Excel টুলে পরিণত করে।
অর্থায়ন, হিসাবরক্ষণ, পরিচালন এবং গবেষণা দল, যাদের পিডিএফ থেকে টেবিলের ডেটা বের করে বিশ্লেষণ টুলে নিয়ে আসার প্রয়োজন হয়।
প্রতিটি লেনদেন ম্যানুয়ালি পুনরায় প্রবেশ না করেই সমন্বয়ের জন্য ব্যাংক স্টেটমেন্টের পিডিএফ ফাইলগুলোকে লেজার স্প্রেডশিটে রূপান্তর করুন।
অ্যাকাউন্টিং সফটওয়্যারের জন্য পিডিএফ ইনভয়েস থেকে ইনভয়েস লাইন আইটেমগুলো বের করে জেনারেল লেজার ইম্পোর্ট ফরম্যাটে আনুন।
একসাথে অনেকগুলো পাইপলাইন আপডেট করার জন্য পিডিএফ প্রস্তাবনাগুলো থেকে কোটেশন টেবিলগুলো নিয়ে সিআরএম ইম্পোর্ট স্প্রেডশিটে আনুন।
পিডিএফ রিপোর্ট থেকে জরিপের ফলাফল বা প্রকাশিত ডেটা টেবিলগুলো বিশ্লেষণের জন্য প্রস্তুত স্প্রেডশিটে নিয়ে আসুন।
ক্লায়েন্ট প্রেজেন্টেশনের জন্য পিডিএফ ব্রোশার থেকে প্রপার্টি লিস্টিং টেবিলগুলোকে তুলনামূলক স্প্রেডশিটে রূপান্তর করুন।
পিডিএফ অর্গ চার্ট বা হেডকাউন্ট রিপোর্ট থেকে রোস্টার টেবিলগুলো বের করে অনবোর্ডিং বা পে-রোল স্প্রেডশিটে আনুন।
ব্রাউজারে স্থানীয়ভাবে রূপান্তর করলে আপনি এমন গোপনীয়তা, নির্ভুলতা এবং গতি পান, যা সংবেদনশীল তথ্যের ক্ষেত্রে ক্লাউড-ভিত্তিক টুলগুলো দিতে পারে না।
PDF.js প্রতিটি পৃষ্ঠা অদৃশ্যভাবে রেন্ডার করে এবং টেক্সট লেয়ারটি প্রকাশ করে — যা হলো x/y স্থানাঙ্ক, ফন্ট সাইজ এবং বাউন্ডিং বক্স সহ টেক্সট স্প্যানগুলোর একটি তালিকা। LuraPDF-এর টেবিল-শনাক্তকরণ অ্যালগরিদম এই স্প্যানগুলোকে সারি (একই y-স্থানাঙ্ক) এবং কলাম (একই x-স্থানাঙ্ক পরিসর) অনুসারে গ্রুপ করে। এটি স্প্যানগুলোর মধ্যকার ফাঁকের বিন্যাস থেকে কলামের সীমানা অনুমান করে, তারপর প্রতিটি স্প্যানকে একটি সারি-কলাম গ্রিডের একটি সেলে বরাদ্দ করে।
গ্রিডটি তৈরি হয়ে গেলে, ডেটা SheetJS (xlsx.js)-এ পাঠানো হয়, যা টাইপ ইনফারেন্স ব্যবহার করে প্রতিটি সেলকে XLSX ফরম্যাটে লেখে: সংখ্যার প্যাটার্নের সাথে মিলে যাওয়া স্ট্রিংগুলো Number সেলে পরিণত হয়; তারিখের প্যাটার্নের সাথে মিলে যাওয়া স্ট্রিংগুলো Date সেলে পরিণত হয়; বাকি সবকিছু Text হিসেবেই থাকে। XLSX ব্লবটি ব্রাউজারের মেমরিতে তৈরি হয় এবং সরাসরি ডাউনলোড করা হয়। CSV আউটপুটের জন্য, SheetJS একই গ্রিডকে কমা-সেপারেটেড টেক্সটে সিরিয়ালাইজ করে। কোনো ডেটাই কখনো সার্ভারে পাঠানো হয় না।
| বৈশিষ্ট্য | লুরাপিডিএফ | ilovepdf | অ্যাডোবি অ্যাক্রোব্যাট |
|---|---|---|---|
| শুধুমাত্র ব্রাউজারে ব্যবহারযোগ্য / আপলোড করা যাবে না | হ্যাঁ | না | না |
| স্বয়ংক্রিয় টেবিল সনাক্তকরণ | হ্যাঁ | হ্যাঁ | হ্যাঁ |
| XLSX + CSV আউটপুট | হ্যাঁ | শুধুমাত্র XLSX | হ্যাঁ |
| বিনামূল্যে সীমাহীন | হ্যাঁ | সীমিত | প্রদত্ত |
আউটপুটের মান নির্ভর করে উৎস পিডিএফ-এর মানের উপর — কয়েকটি প্রস্তুতিমূলক পদক্ষেপ এক্ষেত্রে বড় পার্থক্য গড়ে দেয়।
মূল টেক্সটযুক্ত পিডিএফ (স্ক্যান করা নয়) সবচেয়ে ভালো ফলাফল দেয়। স্ক্যান করা পিডিএফ-এ টেবিলের ছবি থাকলে, প্রথমে সেটির ওসিআর করুন।
স্বয়ংক্রিয় সনাক্তকরণ যদি দুটি কলামকে একত্রিত করে বা একটিকে বিভক্ত করে, তাহলে প্রিভিউতে হ্যান্ডেলগুলো টেনে কলাম বিভাজন রেখাগুলো সামঞ্জস্য করুন।
ডেটা যদি পাইথন, বিগকোয়েরি বা অন্য কোনো ডেটা পাইপলাইনে যায়, তাহলে CSV আউটপুট ব্যবহার করুন — কারণ CSV পার্স করা সহজ।
দ্রুত প্রক্রিয়াকরণের জন্য, রূপান্তরের আগে শুধু টেবিলযুক্ত পৃষ্ঠাগুলো চিহ্নিত করতে প্রথমে 'Extract PDF Pages' ব্যবহার করুন।
পুনরাবৃত্ত হেডারযুক্ত একাধিক পৃষ্ঠার টেবিল স্বয়ংক্রিয়ভাবে সংযুক্ত হয়ে যায় — আউটপুটে হেডার সারিটি যেন নকল না হয়, তা নিশ্চিত করুন।
ডেটা এক্সট্র্যাক্ট করার পর এক্সেলে সাংখ্যিক ফরম্যাটিং (মুদ্রার প্রতীক, হাজার বিভাজক) পুনরায় প্রয়োগ করা যেতে পারে।
সরাসরি আপনার ব্রাউজারে ব্যাংক স্টেটমেন্ট, ইনভয়েস এবং রিপোর্ট থেকে টেবিল বের করুন। সংখ্যাগুলো টাইপ করা অবস্থাতেই থাকে। একাধিক পৃষ্ঠার টেবিল স্বয়ংক্রিয়ভাবে জুড়ে যায়। কোনো আপলোডের প্রয়োজন নেই, কোনো ওয়াটারমার্ক নেই, সম্পূর্ণ বিনামূল্যে।