বাংলাBERT 2.0: BUET-এর নতুন বাণিজ্যিক-স্তরের বাঙ্গালি AI মডেল যা বিশ্বের NLP মানচিত্রকে পরিবর্তন করছে
বাংলাBERT 2.0: BUET-এর নতুন বাণিজ্যিক-স্তরের বাঙ্গালি AI মডেল যা বিশ্বের NLP মানচিত্রকে পরিবর্তন করছে

বাংলাদেশের প্রযুক্তি ও শিক্ষা ক্ষেত্রে একটি নতুন মাইলফলক অর্জন হয়েছে: বেঙ্গাল ইঞ্জিনিয়ারিং ও প্রযুক্তি বিশ্ববিদ্যালয় (BUET) এর গবেষণা দল BanglaBERT 2.0 নামের একটি উন্নত বাঙ্গালি ভাষা মডেল প্রকাশ করেছে, যা ২০০ টেবি以上ের বাঙ্গালি ও বহুভাষিক পাঠ্য ডেটাসেটে প্রশিক্ষিত। এই মডেলটি不僅在 স্থানীয় NLP কাজে state-of-the-art ফলাফল দেখাচ্ছে, বরং বিশ্বব্যাপীর বহুভাষিক বেনচমার্কে প্রতিযোগিতামূলক দক্ষতা প্রদর্শন করছে।
এই প্রজেক্টের প্রধান araştручক ডॉ. সাফিউল ইসলাম বলেন, “আমাদের লক্ষ্য ছিল বাঙ্গালি ভাষার জটিল সিনট্যাক্স এবং সমৃদ্ধ শব্দভাণ্ডারকে একটি একক, স্কেলেবল আর্কিটেকচারে বিনtegrate করা। BanglaBERT 2.0 এ আমরা মাল্টি-টাস্ক লার্নিং, ডাইনামিক ভোকাবুলারি ও শrüটি-অWare আটেনশন মেকানিজমকে একত্রিত করেছি, যা কম্পিউটেশনাল খরচ বাড়াই নাながら도 정확도를 উন্নত করে।”
বিজ্ঞপ্তি অনুযায়ী, BanglaBERT 2.0 এর মৌলিক আর্কিটেকচার 24-লেয়ার ট্রান্সফরমার, ১০২৪-ডিমেনশনাল হিডден স্টেট, এবং ৫০,০০০ টোকেনের ইউনicode-ভিত্তিক ভোকাবুলারি অন্তর্ভুক্ত করে। মডেলটিকে BUET-এর স্বতঃস্ফূর্ত কম্পিউটিং ক্লাস্টরে ১২৮ NVIDIA H100 GPU ব্যবহার করে ১৪ দিনে প্রশিক্ষিত করা হয়েছে, যা কার্বন ফুটপ্রিন্ট কমাতে নবěক রেনিউয়েবল এনার্জি স्रोত ব্যবহার করেছে।
বাস্তব-world প্রয়োগ ও প্রাথমিক Benchmark
প্রকাশের সাথে সাথে দলটি একটি ব্যাপক evalution রিপোর্ট শেয়ার করেছে, যেখানে BanglaBERT 2.0 কে 여섯টি ব্যাঙ্গালি NLP কাজে পরীক্ষা করা হয়েছে:
- বাঙ্গালি সেন্টিমেন্ট বিশ্লেষণ (SST-BN) – ৯৪.২% F1 (বিগত সেরা মডেল ৮৯.৭%)
- বাঙ্গালি নামযুক্ত 엔ティティ শনাক্তকরণ (NER-BN) – ৯১.৮% F1
- মশিন অনুবাদ (বাঙ্গালি ←→ ইংরেজি) – BLEU ৩৮.৫ (মাল্টি-ব্লু ৩৫.২)
- প্রশ্ন-উত্তর (বাঙ্গালি QuAC) – ৮৮.৯% F1
- টেক্সট সারাংশকরণ (বাঙ্গালি XL-Sum) – ROUGE-L ৪২.১
- ভাষা descubrimiento (XGLM‑style) – průměrná přesnost ৮৬.৩%
এই ফলাফলগুলো ন केवल বাঙ্গালি ভাষার জন্য একটি নতুন বেঞ্চমার্ক সেট করে, বরং কম-সম্পদ (low-resource) ভাষার জন্য মাল্টি-লিংগুয়িস্টিক przenose‑learning এর পotențialও দেখায়।
অপেন‑সোর্স রিলিজ ও সম্প্রদায় অংশीদারি
BUET গবেষণা দলটি BanglaBERT 2.0 এর ওজন, ট্রেনিং স্ক্রিপ্ট, এবং একটি ডেমো অ্যাপ্লিকেশনকে Hugging Face Model Hub‑এ MIT লাইসেন্সে প্রকাশ করেছে। ডেভেলপারদের জন্য একটি GitHub সংগ্রহস্থলও তৈরি করা হয়েছে, যেখানে ফাইন‑টিউনিং গাইড, ডকুমেন্টেশন, এবং একটি sample Colab নোটবুক অন্তর্ভুক্ত রয়েছে।
প্রথম আলোকে দिये একটি সাক্ষাতে, BUET-এর কম্পিউটার বিজ্ঞান ও প্রকৌশল বিভাগেরheads ডॉ. নাহিদা হাসান বলেন, “আমরা মডেলটি শুধুমাত্র akademik উদ্দেশ্যে না, বরং স্থানীয়スタートআপ, সরকারি एজेंসίες, এবং মিডিয়া হাউসগুলোর জন্য একটি প্ল্যাটফর্ম তৈরি করতে চাই। উদাহরণস্বরূপ, বाङ্গালি ভাষায় স্বয়ংক্রিয় কনটেন্ট মডারেশন, flood‑warning সিস্টেমের texte‑based alert generation, এবং弁護士‑সাহায্য চ্যাটবট ইত্যাদি ক্ষেত্রে এটি ব্যবহার করা যেতে পারে।”
বিশ্বব্যাপীর AI সম্প্রদায়ও এই রিলিজকে উদ্দেশ্যবান বলছে। 유명ながるる AI araştırma সংস্থা Allen Institute for AI-এর একজন বিজ্ঞান ডক্টর 엠마 লী বলেন, “BanglaBERT 2.0 δείखায় যে স্থানীয় ভাষা ডেটাসেটের সাথে বিশ্ব‑স্তরের 컴퓨팅 ইনফラスト্রাকচারকে একত্রিত করলে কতটা দ্রুত প্রগতি করা যায়।”
ভিডিও: লঞ্চ ইভেন্টের হাইলাইট
আगेের রোডম্যাপ
BUET দলটি বর্তমানে BanglaBERT 2.0-এর একটি **কম্প্যাক্ট সংস্করণ** (DistilBanglaBERT) উন্নয়ন করছে, যা মোবাইল ও edge‑ডিভাইসগুলোর জন্য ১/৪ সাইজে ৯০%+ কর্মক্ষমতা বজায় রাখবে। এর সাথে সাথে, একটি **ব modalities‑সম্পন্ন** ভার্সন (Vision‑BanglaBERT) এও কাজ চলছে, যা ছবি‑টেক্সট সমস্যা (visual question answering, OCR‑augmented translation) সমাধান করতে পারবে।
সরকারের তথ্য ও যোগাযোগপ্রযুক্তি মন্ত্রণালয় (ICT Division) এ již একটি MoU (Memorandum of Understanding) স্বাকর করা হয়েছে, যা BanglaBERT 2.0 কে জাতীয় ডিজিটাল সেবা প্ল্যাটফর্মে একীভূত করার পরিকল্পনা delineate করে। এই ஒperation‑level একीভূতকরণ ২০২৬‑২০২৭ অর্থবছরের মধ্যে 실현될 것으로 예상된다.
উপসংহার
BanglaBERT 2.0-এ BUET-এর অর্জন মাত্র একটি ভিজ্ঞানী সাফল্য নয়; এটি বাংলাদেশের প্রযুক্তি ইকোসিস্টেমে একটি রূপান্তরের ঝলক।_OPEN‑SOURCE_এত্যাদি, strenuous academic validation, এবং real‑world deployment এর মিশ্রণ এই মডেলকে একটি গ্লোবাল NLP ল্যান্ডসকেেপে একটি গুরুত্বপূর্ণ অবদানকারী করে তোলে। পাঠকদেরকে আমন্ত্রণ দেওয়া যায় যে, Hugging Face‑এ মডেলটি ডাউনলোড করে, GitHub‑এ সংগ্রহস্থলটি এক্সপ্লোর করে, এবং saját প্রজেক্টে এই নতুন বাঙ্গালি AI‑শক্তি ব্যবহার করে দেখুন।
Sources
- BanglaBERT 2.0: A Scalable Multilingual Language Model for Bengali and Low-Resource Languages. arXiv:2605.01234, May 2026.
- BUET Press Release. “BUET Researchers Launch BanglaBERT 2.0 – Open‑Source AI Model for Bengali NLP.” May 20, 2026. https://www.buet.ac.bd/news/banglabert-2.0-launch
- Hugging Face Model Card. “banglabert-2.0”. https://huggingface.co/buet/banglabert-2.0
- Prothom Alo Technology Desk. “বাঙ্গালি ভাষার জন্য নতুন AI মডেল BanglaBERT 2.0 BUET‑এ উন্মোচিত”. May 21, 2026. https://www.prothomalo.com/technology/banglabert-
