استارتاپ آنتروپیک اعلام کرده که مجموعهای از ایجنتهای هوشمند را برای بازرسی رفتار مدلهای هوش مصنوعی توسعه داده که میتوانند بهطور خودکار برخی مشکلات مدلها را شناسایی کنند. فناوری جدید آنتروپیک بخشی از آزمایشهای پیش از عرضه مدل Claude Opus 4 محسوب میشود و اکنون بهصورت متنباز در گیتهاب نیز در دسترس قرار گرفته است.
یکی از مهمترین چالشهای فعالان حوزه هوش مصنوعی، ارزیابی همراستایی یا همخوانی (Alignment) مدلها است؛ زیرا مدلهایی که بیشازحد از کاربران تبعیت میکنند یا بهدنبال تحقق منافع خود هستند، میتوانند خطرآفرین باشند. اما اجرای چنین بازرسیهایی نیز چالشبرانگیز و دشوار است.
برای حل این مشکل، پژوهشگران آنتروپیک 3 ایجنت یا عامل مختلف طراحی کردهاند که میتوانند بهصورت خودکار وظیفه ارزیابی همراستایی مدلها را انجام دهند. به گفته آنتروپیک، این عاملها در بازرسیهای خودکار مدلها عملکرد چشمگیری داشتهاند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که فرایند ارزیابی را در قالب بازی شبیهسازی میکنند.
سه ایجنت معرفیشده توسط آنتروپیک قابلیتهای مختلفی دارند. یکی از آنها برای بررسی رفتار مدلها از ابزارهای گفتگو، تحلیل داده و تفسیر استفاده میکند و ایجنت دیگر میتواند رفتار مدلهای مختلف را با یکدیگر مقایسه کند. نهایتاً، ایجنت سوم بهطور خاص برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.
به گفته آنتروپیک، اولین عامل در محیطی که مدل بهطور عمدی ناهماهنگ طراحی شده بود، توانست منشأ مشکل را در 10 تا 13 درصد موارد کشف کند. اما هنگامی که چند عامل بهصورت جمعی با یکدیگر همکاری کردند، این میزان به 42 درصد افزایش یافت.
دومین عامل نیز برای ارزیابی رفتار 10 مدل آزمایش شد که هرکدام بهصورت عمدی رفتارهای خاصی، مانند پیروی افراطی از کاربر، داشتند. در هر یک از آزمایشها، این ایجنت توانست حداقل یکی از ویژگیهای ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی ویژگیهای ظریف مانند کُند جلوهدادن تحقیقات دچار مشکل شد.
سرانجام، سومین عامل در آزمایش خود باید پرسشهایی را مطرح میکرد که رفتارهای «نگرانکننده» مدلها را فعال میکند. در این آزمایش، ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدلها را شناسایی کند، اما در برخی موارد دیگر دچار خطا شد.
آنتروپیک میگوید هرچند عاملهای یادشده هنوز به بلوغ کامل نرسیدهاند، اما باید همین حالا برای حل مشکلات همراستایی اقدام کرد. این شرکت در شبکه اجتماعی ایکس نوشت:
«با قدرتمندترشدن مدلها، نیاز داریم روشهایی مقیاسپذیر برای ارزیابی همراستایی آنها داشته باشیم. ارزیابیهای انسانی زمانبر هستند و بهسختی میتوان صحت آنها را اثبات کرد.»
یکی از مدلهای محبوبی که با مشکلات همراستایی دستوپنجه نرم میکند، ChatGPT است. طبق گزارش بسیاری از کاربران، این چتبات هوش مصنوعی بیشازحد با آنها موافقت میکند و همین موضوع بحث درباره مشکلات همراستایی را مهمتر کرده است.
برای مقابله با این رفتارها، ابزارهای مختلفی توسعه یافتهاند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاههای کارنگی ملون، آکسفورد و استنفورد برای اندازهگیری میزان تملق مدلها طراحی شده است. همچنین بنچمارک DarkBench شش مشکل رایج مانند تعصب برند، تمایل به نگهداشتن کاربر، تملق، انسانانگاری، تولید محتوای مضر و رفتارهای مخفی را ارزیابی میکند.