دانشگاه هوش مصنوعی محمد بن زاید امارات (MBZUAI) از یک مدل استدلالگر جدید و کمهزینه به نام K2 Think رونمایی کرد. این مدل با همکاری شرکت اماراتی G42 توسعه یافته است؛ به ادعای سازندگان، این مدل با وجود اندازهای بسیار کوچکتر، عملکردی در سطح مدلهای پرچمدار و بزرگ شرکتهای پیشرو مانند OpenAI و DeepSeek ارائه میدهد.
براساس گزارش CNBC، شگفتانگیزترین ویژگی K2 Think اندازه آن است. این مدل فقط ۳۲ میلیارد پارامتر دارد که در مقایسه با مدل R1 شرکت چینی DeepSeek با ۶۷۱ میلیارد پارامتر بسیار کوچک به نظر میرسد. بااینحال، محققان G42 ادعا میکنند که K2 Think در بنچمارکهای دشوار مرتبط با ریاضیات، کدنویسی و علوم (مانند AIME24 و GPQA-Diamond) عملکردی برابر یا حتی بهتر از رقبای خود داشته است.
«ریچارد مورتون» (Richard Morton)، مدیرعامل مؤسسه مدلهای پایهای در MBZUAI، میگوید: «آنچه ما درحال کشف آن هستیم این است که میتوان با امکانات کمتر، کارهای بسیار بیشتری انجام داد.» البته این مدل برپایه مدل متنباز Qwen 2.5 شرکت علیبابا ساخته شده و بر روی سختافزارهای شرکت Cerebas توسعه و آزمایش شده است.
به گفته سازندگان، عملکرد بالای K2 Think از طریق ترکیبی از روشهای پیشرفته به دست آمده است. این روشها شامل تنظیم دقیق نظارتشده با «زنجیره طولانی تفکر» (Long Chain-of-Thought) و «مقیاسبندی در زمان تست» (test-time scaling) است که با تخصیص منابع محاسباتی بیشتر در لحظه استنتاج، عملکرد را بهبود میدهد.
محققان میگویند: «چیزی که مدل ما را خاص میکند این است که ما با آن بیشتر شبیه یک سیستم رفتار میکنیم تا فقط یک مدل. این یک کار سیستمی است که در آن تمام این روشها با هم ترکیب میشوند و نتیجه نهایی را ارائه میدهند.»
توسعهدهندگان K2 Think تأکید میکنند که هدفشان ساخت یک چتبات دیگر مانند ChatGPT نبوده است. در عوض، این مدل برای کاربردهای خاص در زمینههایی مانند ریاضیات و علوم طراحی شده که به استدلال عمیق نیاز دارند. آنها میگویند با این کاربرد خاص، به جای اینکه ۱۰۰۰ یا ۲۰۰۰ انسان پنج سال برای فکرکردن درمورد یک سؤال خاص یا بررسی یک مجموعه از آزمایشهای بالینی وقت بگذارند، این مدل آن دوره زمانی را به شدت فشرده میکند.