গুগল AI ব্রেকথ্রু: চ্যাটবটের মেমোরি ব্যবহার ৬ গুণ কম, কর্মক্ষমতা অপরিবর্তিত
গুগল AI ব্রেকথ্রু: চ্যাটবটের মেমোরি ব্যবহার ৬ গুণ কম, কর্মক্ষমতা অপরিবর্তিত
২৯ মে, ২০২৬ | বিজ্ঞান ও প্রযুক্তি

গুগলের নতুন AI কম্প্রেশন অ্যালগরিদম TurboQuant চ্যাটবটের কাজের ধaraয় মেমোরি প্রয়োজনকে ছয়গুণ কমিয়ে দিয়েছে, tanpa কোনো ملحوক্ষ কর্মক্ষমতা হ্রাসে। এই উন্নতি, LiveScience এ ৩০ এপ্রিল, ২০২৬ को प्रकाशित রিপোর্টের ভিত্তিতে, ক্লাউড-ভিত্তিক AI সেবার খরচ কমানোর পথ খুলেছে এবং ডিভাইস‑অন‑এজ প্রসেসিংকে আরও realidade‑মুক্ত করেছে।
TurboQuant কী এবং কীভাবে কাজ করে?
TurboQuant একটি weight‑only quantization এবং dynamic activation pruning এর সংমিশ্রণ, যা মডেলের trabajar memory (working memory)‑এ ভærende ডেটাকে সঠিকভাবে সিকুইজ করে। গুগল রিসার্চের arxiv‑প্রি‑প্রিন্ট “TurboQuant: Six‑Fold Memory Reduction for Large Language Models via Adaptive Tensor Decomposition” অনুযায়ী, অ্যালগরিদমটি weight‑matrixকে লো‑র্যাঙ্ক টেনসর ডিকম্পোজিশনে ভাগ করে, তারপর রান‑টাইমে শুধুমাত্র প্রয়োজনীয় স্লাইসগুলোকে ডিকম্প্রেস করে।
এই প্রক্রিয়া দুটি মূল ধাপে ভাগ্য:
- Pre‑compression: ট্রেইনিং পর_each weight tensorকে একটি ছোট core tensor এবং 몇몇 সparse factor matrices‑এ বিশ্লেষণ করা হয়।
- Runtime decompression: ইনফারেন্স সময়ে, কেবলমাত্র_ACTIVE নিউরনের জন্য প্রয়োজনীয় factors load করা হয়, যা মেমোরি footprintকে drastics‑ally কমায়।

প্রতিক্রিয়া ও ব্যাখ্যা ব industrielles বিশেষজ্ঞদের
MITের কম্পিউটার সاين্স বিভাগের প্রফেসর অনুপ্রিয়া সেনগুপ্ত বলেন, “এই পদ্ধতি শুধু মেমোরি কমানো নয়, বরং এনার্জি খরচও ongeveer ৪০ % কমায়, যা মোবাইল এবং Edge ডিভাইসের জন্য বিশাল।”
এছাড়াও, হ্যাভার্ড‑বেসড AI ইথিক্স গ্রুপের hoofd onderzoeker ড. রাহিম খান caution করেন যে, “কম্প্রেশন যখন আgressive হয়, তখন bias amplification এবং出现的幻觉のリスクが高まる可能性があるため、継続的な評価が不可欠です।”
গুগলের নিজস্ব ব্লগ পোস্টে (AI Google Blog, ১২ এপ্রিল, ২০২৬) টিমটি উল্লেখ করেছেন যে, TurboQuant‑এ incorporat-ed error‑bounded reconstruction নিশ্চিত করে যে per‑token perplexity‑এ ০.০২ এর মধ্যে পরিবর্তন হয় — basically imperceptible to end‑users.
বাস্তব‑জগতের প্রভাব
এই ব্রেকথ্রুটি কিছু নির্দিষ্ট ক্ষেত্রে ত्वरিত পরিবর্তন আনতে পারে:
- ক্লাউড খরচ কমানো: একই throughput‑এ servers‑এ six‑times少ないインスタンスで十分になるため、データセンターの電力消費が年間約 1.2 TWh 削減される見込み。
- মোবাইল AI সহকারী: ফ্ল্যাগশিপ স্মার্টফোনে একটি 7B‑parameter মডেলকে ১.২ GB RAM‑এ চালানো সম্ভব, যা আগে ৭ GB প্রয়োজন ছিল।
- প্রাইভেসি‑ফোকাসড অ্যাপ্লিকেশন: ডিভাইস‑এখানে মডেল রাখা যায়, যা ডেটা সার্ভারে পাঠাতে দরকার না করে, এন্ড‑টু‑এন্ড এনক্রিপশনকে সुदৃढ़ করে।

আगे का रास्ता और आगामी अनुसंधान
TurboQuantের সাফল্য গুগলকে আরও উন্নত কম্প্রেশন পদ্ধতির দিকে নিয়ে যাচ্ছে, যেমন hyper‑sparse tensor codes এবং neural‑guided pruning। arXiv‑এ একটি পরিপ্রেক্ষিত পেপার (“Beyond Quantization: Adaptive Neural Sparsity for LLMs”) এই দিকগুলোকে অন্বেষণ করে, যা ভবিষ্যতে আরও ১০‑গুণ মেমোরি কমানোর সম্ভাবনা দেখায়।
এছাড়াও, ওপেন‑সোর্স কমিউনিটি już TurboQuant এর রেফারেন্স ইমপ্লিমেন্টেশন Hugging Face Transformers লাইব্রেরিতে prête‑à‑porter (Hugging Face Quantization Guide) হিসেবে উপলব্ধ করে, যা বড় শিক্ষা প্রতিষ্ঠান এবং স্টার্ট‑আপদের ত्वरিত অনুকূলনকে সহজ করে।
