OCR কি?

অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) হল এমন একটি প্রযুক্তি যা পাঠ্য সামগ্রী সম্বলিত ছবিগুলিকে মেশিন-পাঠযোগ্য অক্ষরে রূপান্তরিত করে। এটি একটি ছবিতে আকার এবং প্যাটার্ন বিশ্লেষণ করে এবং সেগুলিকে পরিচিত অক্ষর প্রতিনিধিত্বের সাথে মেলায়। OCR ব্যাপকভাবে মুদ্রিত নথি ডিজিটাইজ করতে, ছবি থেকে পাঠ্য নিষ্কাশন করতে এবং স্ক্যান করা সামগ্রীকে অনুসন্ধানযোগ্য বা সম্পাদনযোগ্য করতে ব্যবহৃত হয়।

আধুনিক ব্রাউজার-ভিত্তিক OCR প্রশিক্ষিত নিউরাল নেটওয়ার্ক মডেল ব্যবহার করে যা সম্পূর্ণভাবে আপনার ডিভাইসে চলে। এর অর্থ আপনার ছবিগুলি কখনই সার্ভারে পাঠানো হয় না — স্বীকৃতি আপনার CPU ব্যবহার করে স্থানীয়ভাবে ঘটে।

টুল বর্ণনা

এই টুলটি Tesseract.js OCR ইঞ্জিন ব্যবহার করে সরাসরি আপনার ব্রাউজারে ছবি থেকে পাঠ্য নিষ্কাশন করে। একটি ফটো, স্ক্রিনশট বা স্ক্যান করা নথি আপলোড করুন, পাঠ্যের ভাষা নির্বাচন করুন এবং পাঠ্য নিষ্কাশন ক্লিক করুন। স্বীকৃত পাঠ্য আউটপুট এলাকায় প্রদর্শিত হয়, যেখানে আপনি এটি ক্লিপবোর্ডে কপি করতে পারেন বা এটি .txt ফাইল হিসাবে ডাউনলোড করতে পারেন। পৃষ্ঠা লোড হওয়ার পরে কোনো ইনস্টলেশন, কোনো আপলোড, কোনো ইন্টারনেট সংযোগের প্রয়োজন নেই।

বৈশিষ্ট্য

  • সম্পূর্ণভাবে ব্রাউজারে চলে — কোনো ফাইল আপলোড নেই, সম্পূর্ণ গোপনীয়তা
  • ইংরেজি, রাশিয়ান, চীনা (সরলীকৃত এবং ঐতিহ্যবাহী), জাপানি, কোরিয়ান, আরবি, হিন্দি এবং প্রধান ইউরোপীয় ভাষা সহ ১৯টি ভাষা সমর্থন করে
  • JPEG, PNG, WebP, GIF, BMP এবং TIFF ছবির ফর্ম্যাট গ্রহণ করে
  • স্বীকৃতির সময় রিয়েল-টাইম অগ্রগতি সূচক
  • নিষ্কাশিত পাঠ্য উৎস ছবির নাম অনুযায়ী .txt ফাইল হিসাবে ডাউনলোড করুন

ব্যবহারের ক্ষেত্র

  • মুদ্রিত নথি ডিজিটাইজ করা: আপনার ফোন দিয়ে একটি পৃষ্ঠা স্ক্যান করুন এবং সমস্ত পাঠ্য নিষ্কাশন করুন সম্পাদনা বা অনুসন্ধানের জন্য ম্যানুয়ালি পুনরায় টাইপ না করে।
  • স্ক্রিনশট থেকে পাঠ্য অনুলিপি করা: স্ক্রিনশট থেকে কোড স্নিপেট, ত্রুটি বার্তা বা উদ্ধৃতি নিষ্কাশন করুন যেখানে পাঠ্য সাধারণত নির্বাচন করা যায় না।
  • বিদেশী ভাষার পাঠ্য সহ ছবি প্রক্রিয়া করা: আরবি, জাপানি বা সিরিলিক এর মতো অ-ল্যাটিন স্ক্রিপ্টে পাঠ্য স্বীকার করতে ভাষা নির্বাচক ব্যবহার করুন।

সমর্থিত ফর্ম্যাট

ফর্ম্যাট এক্সটেনশন
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

সমর্থিত ভাষা

ভাষা কোড
ইংরেজি eng
রাশিয়ান rus
ফরাসি fra
জার্মান deu
ইতালিয়ান ita
স্প্যানিশ spa
পর্তুগিজ por
ডাচ nld
পোলিশ pol
আরবি ara
চীনা (সরলীকৃত) chi_sim
চীনা (ঐতিহ্যবাহী) chi_tra
জাপানি jpn
কোরিয়ান kor
হিন্দি hin
তুর্কি tur
সুইডিশ swe
নরওয়েজিয়ান nor
ফিনিশ fin

টিপস

  • উন্নত মানের ছবি আরও ভাল ফলাফল দেয়: উচ্চ-বৈপরীত্য ছবি ব্যবহার করুন তীক্ষ্ণ, সমানভাবে আলোকিত পাঠ্য সহ। ঝাপসা বা কম রেজোলিউশনের ছবি নির্ভুলতা হ্রাস করবে।
  • সঠিক ভাষা নির্বাচন করুন: ভুল ভাষা নির্বাচন করা হলে স্বীকৃতির নির্ভুলতা উল্লেখযোগ্যভাবে হ্রাস পায়, বিশেষত অ-ল্যাটিন স্ক্রিপ্টের জন্য।
  • হালকা পটভূমিতে গাঢ় পাঠ্য সর্বোত্তম কাজ করে: যদি আপনার ছবিতে গাঢ় পটভূমিতে হালকা পাঠ্য থাকে তবে আপলোড করার আগে এটি বিপরীত করার চেষ্টা করুন।
  • স্ক্যান করা নথি: মুদ্রিত পাঠ্যের সাথে সর্বোত্তম ফলাফলের জন্য ৩০০ DPI বা তার বেশিতে স্ক্যান করুন।

সীমাবদ্ধতা

  • স্বীকৃতির নির্ভুলতা ছবির গুণমান, ফন্ট শৈলী এবং পাঠ্যের আকারের উপর অনেকটাই নির্ভর করে। হাতের লেখা, সজ্জামূলক ফন্ট এবং অত্যন্ত ছোট পাঠ্য ভালভাবে স্বীকৃত নাও হতে পারে।
  • ভাষা মডেল ফাইলগুলি প্রথম ব্যবহারে ডাউনলোড করা হয় (প্রতিটি কয়েক মেগাবাইট), তাই প্রথম নিষ্কাশন আরও বেশি সময় নিতে পারে।
  • বহু-কলাম লেআউট অপ্রত্যাশিত পড়ার ক্রমে পাঠ্য তৈরি করতে পারে।