OCR দিয়ে PDF কে Word এ রূপান্তর করুন – বিনামূল্যে অনলাইন

স্ক্যান নাকি মূল: OCR কেন সবকিছু বদলে দেয়

স্ক্যান করা PDF কে Word-এ রূপান্তর করা মূল PDF রূপান্তরের চেয়ে প্রযুক্তিগতভাবে অনেক বেশি কঠিন। কারণ সহজ: স্ক্যান করা PDF-এ কোনো টেক্সট ডেটা থাকেই না — এটি পৃষ্ঠার ছবির সংগ্রহ। স্ক্যানে লেখা "ইনভয়েস" শব্দটি অক্ষরের সমষ্টি নয়, বরং সেই অক্ষরের মতো দেখতে পিক্সেলের গুচ্ছ। ডকুমেন্টকে এডিটেবল করতে দরকার অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR), যা ইমেজ বিশ্লেষণ করে আসল টেক্সট পুনর্গঠন করে। PdfXpo-তে বিনামূল্যের ও সীমাহীন উন্নত OCR ইঞ্জিন অন্তর্নির্মিত।

PdfXpo-এর OCR কীভাবে কাজ করে: ৪ ধাপ

ধাপ ১ — ইমেজের প্রাক-প্রক্রিয়াকরণ

প্রতিটি পৃষ্ঠাকে একই রেজোলিউশনে আনা হয়, কনট্রাস্ট বাড়ানো হয়, ব্যাকগ্রাউন্ড নয়েজ কমানো হয়, এবং স্ক্যানের কাত ঠিক করা হয়। বাঁকা স্ক্যান করা ডকুমেন্ট স্বয়ংক্রিয়ভাবে সোজা হয়।

ধাপ ২ — অঞ্চল শনাক্তকরণ

পৃষ্ঠাকে টেক্সট ব্লক, ইমেজ ও টেবিল অঞ্চলে ভাগ করা হয়। প্রতিটি অঞ্চল আলাদাভাবে প্রসেস করা হয় যাতে ইমেজের ক্যাপশন পাশের অনুচ্ছেদের সাথে মিশে না যায়।

ধাপ ৩ — অক্ষর শনাক্তকরণ

প্রতিটি টেক্সট অঞ্চলে মেশিন লার্নিং মডেল প্রতিটি গ্লিফের আকার বিশ্লেষণ করে সঠিক ইউনিকোড অক্ষরের সাথে মেলায়। এই মডেল ১০০-এর বেশি ভাষার লক্ষ লক্ষ পৃষ্ঠায় প্রশিক্ষিত।

ধাপ ৪ — টেক্সটের পুনর্গঠন

শনাক্ত অক্ষরগুলোকে শব্দে, শব্দগুলোকে লাইনে এবং লাইনগুলোকে অনুচ্ছেদে জোড়া হয় — ডকুমেন্টের মূল কাঠামো বজায় রেখে।

ডকুমেন্টের ধরন অনুযায়ী নির্ভুলতা

স্ট্যান্ডার্ড ফন্টে অন্তত 300 DPI-তে স্ক্যান করা ইংরেজি বা বাংলা টেক্সটে PdfXpo 97%-এর বেশি নির্ভুলতায় পৌঁছায় — অর্থাৎ প্রতি 1,000 শব্দে প্রায় 2–3টি শব্দ অসম্পূর্ণ থাকতে পারে। কঠিন ক্ষেত্রে:

হাতে লেখা ডকুমেন্ট : হাতের লেখা অনুযায়ী 50–80% (OCR মুদ্রিত অক্ষরের জন্য অপ্টিমাইজড)।
পুরোনো ডকুমেন্টের (১৯৫০-পূর্ব) ফিকে কালি : 60–85%।
রঙিন বা প্যাটার্নযুক্ত ব্যাকগ্রাউন্ড : 70–90%।
খুব ছোট অক্ষর (8pt-এর কম) : নির্ভুলতা কমে।

বাংলা, আরবি ও অন্যান্য অ-ল্যাটিন লিপি

বাংলা ও আরবি লিপির PDF বিশেষ প্রক্রিয়াকরণ দাবি করে। বাংলা : এই লিপিতে অক্ষরের উপরে একটি রেখা (মাত্রা) এবং অক্ষরের মধ্যে যুক্তাক্ষর থাকে; পরিষ্কার মুদ্রিত ডকুমেন্টে এগুলো 95%-এর বেশি নির্ভুলতায় শনাক্ত হয়, এবং SolaimanLipi বা Nikosh-এর মতো ইউনিকোড ফন্টে রপ্তানি হয়। আরবি : PdfXpo ডান-থেকে-বাম (RTL) লেখার দিক স্বয়ংক্রিয়ভাবে শনাক্ত করে এবং সঠিক দিকের Word ডকুমেন্ট তৈরি করে। আরবি অক্ষর অবস্থান অনুযায়ী ভিন্নভাবে যুক্ত হয় বলে মডেল এই সংযোগ নিয়মে প্রশিক্ষিত।

ন্যূনতম প্রয়োজনীয়তা ও স্ক্যানের প্রস্তুতি

রেজোলিউশন : অন্তত 200 DPI, সেরা মানের জন্য 300 DPI। 150 DPI-এর নিচে অক্ষর ঝাপসা হয়।
কনট্রাস্ট : সাদা পটভূমিতে কালো টেক্সট সেরা ফল দেয়।
কাত : প্রায় 5° পর্যন্ত স্ক্যান স্বয়ংক্রিয়ভাবে ঠিক হয়; এর বেশি হলে রূপান্তরের আগে হাতে সোজা করুন।

মোবাইল দিয়ে স্ক্যান করতে হলে Microsoft Lens বা Adobe Scan (বিনামূল্যে) ব্যবহার করুন। এগুলো দৃষ্টিকোণ ঠিক করে, কনট্রাস্ট অপ্টিমাইজ করে এবং পরিষ্কার PDF রপ্তানি করে — OCR-এর জন্য আদর্শ কাঁচামাল।

অক্ষর শনাক্ত হওয়ার পর PdfXpo কাঠামো পুনর্গঠন করে — অনুচ্ছেদ, শিরোনাম, এমনকি স্ক্যান করা টেবিলও Word-এর নেটিভ টেবিল হিসেবে আবার তৈরি হয়। OCR WebAssembly দিয়ে লোকাল চলে, তাই প্রায়ই সংবেদনশীল স্ক্যান ডকুমেন্ট কখনো পাঠানো হয় না, যেখানে Smallpdf ও Adobe OCR-কে ক্লাউডের সশুল্ক প্ল্যানে রাখে।

প্রযুক্তিগত পটভূমি: PDF কে Word এ রূপান্তর করা এত কঠিন কেন

PDF ফরম্যাট Adobe 1993 সালে তৈরি করেছিল, সম্পাদনার দৃষ্টিকোণ থেকে একটি মৌলিক সীমাসহ। PDF কোনো কাঠামোবদ্ধ ডকুমেন্ট নয়, বরং অঙ্কন নির্দেশের সংগ্রহ সংরক্ষণ করে। প্রতিটি উপাদান — প্রতিটি অক্ষর, প্রতিটি রেখা, প্রতিটি ইমেজ — এর পৃষ্ঠায় নিরপেক্ষ স্থানাঙ্ক (x, y) থাকে। "চুক্তি" শব্দটি একটি শব্দ নয়, বরং ভিন্ন অবস্থান, রং ও ফন্টযুক্ত অক্ষর-গ্লিফের সমষ্টি।

এই কাঠামো PDF-কে প্রিন্ট ও প্রদর্শনের জন্য আদর্শ করে, কিন্তু রূপান্তরের জন্য কঠিন। না কোনো "অনুচ্ছেদ" কাঠামো, না "টেবিল" মেটাডেটা, না "শিরোনাম" স্তরবিন্যাস। যা টেবিল বা শিরোনামের মতো দেখায়, তা জ্যামিতিক বিশ্লেষণ থেকে পুনর্গঠন করতে হয়।

PdfXpo-এর ৪-ধাপ কাঠামো

ধাপ ১ — PDF অবজেক্টের সম্পূর্ণ নিষ্কাশন : পার্সার ফাইলের প্রতিটি কনটেন্ট স্ট্রিম পড়ে এবং সব টেক্সট অবজেক্ট পূর্ণ বৈশিষ্ট্যসহ বের করে — স্থানাঙ্ক, ফন্টের নাম, সাইজ, অক্ষর-ব্যবধান, রং। একই সাথে গ্রাফিক অবজেক্ট (রেখা, আয়ত, পথ) শনাক্ত করে এবং ইমেজকে কালার প্রোফাইলসহ বের করে।

ধাপ ২ — কাঠামোগত বিভাজন : অ্যালগরিদম টেক্সট অবজেক্টকে স্থানিক নৈকট্য ও টাইপোগ্রাফিক বৈশিষ্ট্যের ভিত্তিতে যৌক্তিক ব্লকে জোড়ে। শিরোনাম বড় ফন্ট, বেশি ব্যবধান ও অবস্থান থেকে শনাক্ত হয়। টেবিল সেই রেখাংশ থেকে শনাক্ত হয় যা মিলে গ্রিড তৈরি করে, এবং বহু-কলাম লেআউট কলামের মধ্যকার অনুভূমিক বিভাজক থেকে।

ধাপ ৩ — অর্থের মিলকরণ : প্রতিটি কাঠামোগত ব্লককে Word উপাদানের সাথে মেলানো হয়। শিরোনাম → Heading 1/2/3 স্টাইল, তালিকা-আইটেম → ক্রমিক/বুলেট Word তালিকা, টেবিল → নেটিভ টেবিল অবজেক্ট, ফুটনোট → সঠিকভাবে যুক্ত OOXML নোট অবজেক্ট, ইমেজ → স্থির ইমেজ অবজেক্ট।

ধাপ ৪ — OOXML ডকুমেন্ট তৈরি : OOXML মান (ISO/IEC 29500) অনুযায়ী .docx ফাইল তৈরি হয়। পৃষ্ঠার মাপ, মার্জিন, হেডার ও ফুটার মূল থেকে নেওয়া হয়। না থাকা ফন্ট মাত্রিকভাবে সমতুল্য ফন্ট দিয়ে বদলানো হয়।

পরিমাপকৃত পরিসংখ্যান: PdfXpo কী নিশ্চয়তা দেয়

PdfXpo ও বিকল্পের তুলনা

নির্ণায়ক পার্থক্য : PdfXpo কোনো ফাইল ডেটা সার্ভারে পাঠায় না। Adobe, Smallpdf ও iLovePDF-এ ডকুমেন্ট আপনার ডিভাইস থেকে বের হয় — সংবেদনশীল অফিস ও ব্যক্তিগত ডকুমেন্টের জন্য এটি একটি গুরুত্বপূর্ণ আইনি বাস্তবতা।

পদ্ধতি: PdfXpo দিয়ে PDF কে Word এ রূপান্তর করুন

ধাপ ১ — ব্রাউজার খুলুন : Chrome, Edge, Firefox বা Safari-তে pdfxpo.com/pdf-to-word-এ যান। কোনো ইনস্টল নেই, কোনো অ্যাকাউন্ট নেই, কোনো এক্সটেনশন নেই।

ধাপ ২ — ফাইল লোড করুন : PDF কে আপলোড এলাকায় টেনে আনুন বা "ফাইল নির্বাচন করুন"-এ ক্লিক করুন। 200MB পর্যন্ত, কোনো দৈনিক সীমা নেই।

ধাপ ৩ — রূপান্তরের জন্য অপেক্ষা করুন : প্রসেসিং লোকাল চলে। 10 পৃষ্ঠা : 5–15 সেকেন্ড। 50 পৃষ্ঠা : 20–40 সেকেন্ড। 200 পৃষ্ঠা : 1–3 মিনিট। স্ক্যান পৃষ্ঠা (OCR) : 2–4 গুণ।

ধাপ ৪ — ডাউনলোড করে খুলুন : .docx ডাউনলোডে সংরক্ষিত হয়। Microsoft Word 2010 বা নতুন, LibreOffice Writer, বা Google Docs-এ খুলুন।

গোপনীয়তা: প্রযুক্তিগতভাবে যাচাইযোগ্য নিশ্চয়তা

WebAssembly ব্রাউজারের ভেতরে একটি নির্বাহ পরিবেশ যা নেটিভ কোডকে একটি পৃথক স্যান্ডবক্সে চালায়। PdfXpo-এর রূপান্তর অ্যালগরিদম ব্রাউজারের মেমরিতে WebAssembly মডিউল হিসেবে সরাসরি চলে — কোনো সার্ভার জড়িত নয়।

৩০ সেকেন্ডের যাচাই : ডেভেলপার টুল (F12) খুলুন, "নেটওয়ার্ক" ট্যাবে PdfXpo-তে PDF লোড করুন। রূপান্তরের সময় স্ক্রিপ্ট ও স্টাইলশিটের লোড দেখা যাবে, কিন্তু ফাইলের বিষয়বস্তু বহনকারী কোনো HTTP যোগাযোগ নেই। এটাই প্রযুক্তিগত প্রমাণ। ফাইল ব্রাউজার থেকে বের হয় না।

PDF কে Word এ কখন রূপান্তর করা উচিত

রূপান্তরের প্রয়োজন অনেক দৈনন্দিন পরিস্থিতিতে জন্মায়। আপনি PDF-এ চুক্তি বা চিঠি পান এবং স্বাক্ষরের আগে কোনো একটি ধারা বদলাতে হয়। আপনি PDF-এ পাওয়া টেমপ্লেট — জীবনবৃত্তান্ত, প্রস্তাব, রিপোর্ট — নতুন করে না লিখে পুনঃব্যবহার করতে চান। শিক্ষক লেকচার উপকরণ PDF-এ শেয়ার করেন এবং আপনি উদ্ধৃতি নোটে তুলতে চান। দল কোনো PDF রিপোর্ট পাঠায় যার ডেটা অফিস ডকুমেন্টে যোগ করতে হয়। এই সব ক্ষেত্রে Word-এ রূপান্তর করলে আবার টাইপ করার তুলনায় ঘণ্টার পর ঘণ্টা সাশ্রয় হয়, এবং টেবিল, ইমেজ ও লেআউটও অক্ষত থাকে। PdfXpo এই প্রক্রিয়া দ্রুত, বিনামূল্যে ও গোপনীয় করে — ডকুমেন্টকে কোথাও না পাঠিয়ে।

প্রতিটি ওয়ার্ড প্রসেসরের সাথে সামঞ্জস্যপূর্ণ

তৈরি .docx ফাইল OOXML মান মেনে চলে এবং Microsoft Word (2010 বা নতুন), LibreOffice Writer, Google Docs ও Apple Pages (ইম্পোর্ট)-এ সমস্যা ছাড়াই খোলে। Windows ও Mac তো আছেই, Linux, Android ও iOS-এও। আপনি কোনো একটি সফটওয়্যারে আবদ্ধ থাকেন না। যেখানে সবচেয়ে সুবিধাজনক সেখানে সম্পাদনা করুন, এবং শেষ হলে আবার PDF-এ রপ্তানি করুন। রূপান্তর নিবন্ধন বা ইনস্টল না চাওয়ায় পুরো প্রবাহ — খুলুন, রূপান্তর করুন, সম্পাদনা করুন — শুরু থেকে শেষ পর্যন্ত কয়েক সেকেন্ডেই সম্পন্ন হয়।

লোকাল প্রসেসিং কেন শুধু গোপনীয়তা নয়, গতিও বোঝায়

PdfXpo যখন বলে "ফাইল ডিভাইস থেকে বের হয় না," তখন এটি কোনো স্লোগান নয়, বরং WebAssembly ব্যবহারের সরাসরি ফল। WebAssembly প্রযুক্তি PDF প্রসেসিংয়ের কোড (C++ বা Rust-এ লেখা) সরাসরি ব্রাউজারের JavaScript ইঞ্জিনে চালায়। না কোনো API ফাইল পাঠানোর জন্য, না কোনো সার্ভার তা গ্রহণের জন্য। এর একটি ব্যবহারিক সুবিধা গতিও। ক্লাউড টুলে ফাইল আগে সার্ভারে আপলোড হয়, সেখানে প্রসেস হয়, এরপর আবার ডাউনলোড হয়। এই তিন-ধাপের প্রক্রিয়া, বিশেষত বড় ফাইল বা ধীর সংযোগে, কয়েক মিনিট নিতে পারে। PdfXpo-তে আপলোড ও ডাউনলোডের ধাপ সম্পূর্ণ দূর হয়, এবং রূপান্তর সেখানেই শুরু হয় যেখানে ফাইল আছে — আপনার ডিভাইসের মেমরিতে। ফলাফল এমন এক অভিজ্ঞতা যা বেশি ব্যক্তিগত হওয়ার সাথে প্রায়ই বেশি দ্রুতও। ব্যাংক স্টেটমেন্ট, চুক্তি, মেডিকেল ও সরকারি ডকুমেন্টের মতো সংবেদনশীল বিষয়বস্তুর জন্য এটি একটি অপরিহার্য নিশ্চয়তা।

সেরা রূপান্তর ফলাফলের জন্য পরামর্শ

সেরা ফলের জন্য স্ক্যানের বদলে সফটওয়্যারে তৈরি মূল PDF-কে অগ্রাধিকার দিন; এতে বিশ্বস্ততা সর্বোচ্চ। ডকুমেন্ট স্ক্যান হলে অন্তত 200 DPI-তে স্ক্যান করুন এবং সমান আলোর দিকে খেয়াল রাখুন যাতে OCR প্রতিটি অক্ষর সঠিক শনাক্ত করে। বহু-কলাম ডকুমেন্টে রূপান্তরের পর কলামের ক্রম যাচাই করুন, এবং খুব গ্রাফিক্যাল লেআউটের সামান্য হাতে সমন্বয় লাগতে পারে। সবশেষে, বড় ফাইল প্রসেস করার সময় ট্যাব খোলা রাখুন; রূপান্তর লোকালভাবে এগোয় এবং পৃষ্ঠা বন্ধ করলে কাজ থেমে যায়। .docx পাওয়ার পর ব্যবহারের আগে একনজর দেখে ফরম্যাটিং নিশ্চিত করুন। এই ছোট অভ্যাসগুলো চুক্তি হোক, জীবনবৃত্তান্ত হোক বা গবেষণাপত্র — প্রায় প্রতিটি ডকুমেন্টে নিখুঁততার কাছাকাছি ফল দেয়। এছাড়া, রূপান্তর সম্পূর্ণ ব্রাউজারে হওয়ায় আপনি একই ডকুমেন্ট অফিসের কম্পিউটার, বাসার ল্যাপটপ বা যাত্রাপথে মোবাইলের মতো একাধিক ডিভাইসে কিছু ইনস্টল না করেই আবার প্রসেস করতে পারেন। শুধু একটি আধুনিক ব্রাউজার ও কয়েক সেকেন্ড দরকার, এবং ব্যবহারের সংখ্যায় সীমা না থাকা বাস্তবে বড় পার্থক্য গড়ে।

কোনো নিবন্ধন নেই। কোনো ওয়াটারমার্ক নেই। কোনো ফাইল সীমা নেই। কোনো ক্লাউড আপলোড নেই।

১০০% স্থানীয় গোপনীয়তা

আপনার ফাইলগুলি কখনই আপনার কম্পিউটার ছেড়ে যায় না

স্থানীয় ব্রাউজার পাওয়ার

ব্রাউজারে তাৎক্ষণিক প্রসেসিং

ক্লায়েন্ট-সাইড নিরাপত্তা

সরাসري ব্রাউজারে নিরাপদ প্রসেসিং

How to OCR দিয়ে PDF কে Word এ রূপান্তর করুন – বিনামূল্যে অনলাইন — ধাপে ধাপে

PdfXpo খুলুন: যেকোনো আধুনিক ব্রাউজারে pdfxpo.com/pdf-to-word-এ যান — কোনো ইনস্টল নেই, কোনো অ্যাকাউন্ট নেই, প্রতিটি ডিভাইসে চলে।

PDF আপলোড করুন: PDF টেনে আনুন বা "ফাইল নির্বাচন করুন"-এ ক্লিক করুন। মূল ও স্ক্যান দুটোই, 200MB পর্যন্ত সমর্থিত।

রূপান্তর শুরু করুন: WebAssembly প্রযুক্তি ফাইলকে ব্রাউজারে লোকাল প্রসেস করে — ডেটা কখনো আপনার ডিভাইস থেকে বের হয় না।

Word ফাইল ডাউনলোড করুন: কয়েক সেকেন্ডে .docx প্রস্তুত। Word, LibreOffice বা Google Docs-এ খুলে স্বাধীনভাবে সম্পাদনা করুন।

PdfXpo কেন?

PdfXpo WebAssembly প্রযুক্তি ব্যবহার করে – ফাইল সরাসরি ব্রাউজারে প্রসেস হয়, কোনো সার্ভার ট্রান্সমিশন নেই। ১০০% বিনামূল্যে, সীমাহীন, নিবন্ধন ছাড়াই।

১০০% বিনামূল্যে · সীমাহীন

লোকাল প্রসেসিং – সর্বোচ্চ গোপনীয়তা

নিবন্ধন বা ইমেল ছাড়াই

প্রতিটি ডিভাইস ও ব্রাউজারে চলে

সাধারণ জিজ্ঞাসা

PdfXpo দিয়ে কি স্ক্যান করা PDF কে Word-এ রূপান্তর করতে পারি?

হ্যাঁ। PdfXpo-তে অন্তর্নির্মিত OCR ইঞ্জিন স্ক্যান ইমেজ বিশ্লেষণ করে অক্ষর শনাক্ত করে এবং এডিটেবল Word ডকুমেন্ট তৈরি করে। অন্তত 200 DPI-এর পরিষ্কার স্ক্যানে শনাক্তকরণের হার 95%-এর বেশি থাকে।

OCR কোন কোন ভাষা শনাক্ত করে?

বাংলা, ইংরেজি, আরবি, হিন্দি, স্প্যানিশ, জার্মান সহ 30-এর বেশি ভাষা। ইঞ্জিন মুদ্রিত অক্ষরের জন্য অপ্টিমাইজড; হাতে লেখা ডকুমেন্টে নির্ভুলতা কমে।

সেরা OCR ফল কীভাবে পাব?

পৃষ্ঠার ছবি তোলার বদলে 200–300 DPI-তে স্ক্যান করুন এবং ছায়া বা ভাঁজ এড়ান। পরিষ্কার, ভালো কনট্রাস্টের স্ক্যান অনেক উন্নত শনাক্তকরণ দেয়।

স্ক্যান করা টেবিলও কি পুনর্গঠিত হয়?

হ্যাঁ। OCR-এর সাথে মিলে PdfXpo স্ক্যান করা টেবিলের প্রতিটি সেলের অক্ষর শনাক্ত করে এবং কাঠামোকে আসল Word টেবিল হিসেবে, কলাম সারিবদ্ধতা বজায় রেখে পুনর্গঠন করে।

আমার স্ক্যান ডকুমেন্ট কি OCR-এর জন্য পাঠানো হয়?

না। OCR WebAssembly দিয়ে লোকাল চলে। প্রায়ই সংবেদনশীল স্ক্যান ডকুমেন্ট কখনো সার্ভারে পাঠানো হয় না। এটি সেই সেবাগুলো থেকে আলাদা যারা OCR-কে ক্লাউডের সশুল্ক প্ল্যানে রাখে।

Related Tools

PDF থেকে Word

বিনামূল্যে · সীমাহীন

PDF কম্প্রেস

সাইজ কমান

PDF মার্জ

PDF জোড়া দিন