آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدل‌ها رونمایی کرد

دیجیاتو جمعه 03 مرداد 1404 - 19:01
این ایجنت‌ها هرکدام به‌نحوی مسئله هم‌راستایی یا Alignment مدل‌های هوش مصنوعی را بررسی می‌کنند. The post آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدل‌ها رونمایی کرد appeared first on دیجیاتو.

استارتاپ آنتروپیک اعلام کرده که مجموعه‌ای از ایجنت‌های هوشمند را برای بازرسی رفتار مدل‌های هوش مصنوعی توسعه داده که می‌توانند به‌طور خودکار برخی مشکلات مدل‌ها را شناسایی کنند. فناوری جدید آنتروپیک بخشی از آزمایش‌های پیش از عرضه مدل Claude Opus 4 محسوب می‌شود و اکنون به‌صورت متن‌باز در گیت‌هاب نیز در دسترس قرار گرفته است.

یکی از مهم‌ترین چالش‌های فعالان حوزه هوش مصنوعی، ارزیابی هم‌راستایی یا همخوانی (Alignment) مدل‌ها است؛ زیرا مدل‌هایی که بیش‌ازحد از کاربران تبعیت می‌کنند یا به‌دنبال تحقق منافع خود هستند، می‌توانند خطرآفرین باشند. اما اجرای چنین بازرسی‌هایی نیز چالش‌برانگیز و دشوار است.

برای حل این مشکل، پژوهشگران آنتروپیک 3 ایجنت یا عامل مختلف طراحی کرده‌اند که می‌توانند به‌صورت خودکار وظیفه ارزیابی هم‌راستایی مدل‌ها را انجام دهند. به گفته آنتروپیک، این عامل‌ها در بازرسی‌های خودکار مدل‌ها عملکرد چشمگیری داشته‌اند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که فرایند ارزیابی را در قالب بازی شبیه‌سازی می‌کنند.

نحوه بررسی رفتار مدل‌های هوش مصنوعی

سه ایجنت معرفی‌شده توسط آنتروپیک قابلیت‌های مختلفی دارند. یکی از آنها برای بررسی رفتار مدل‌ها از ابزارهای گفتگو، تحلیل داده و تفسیر استفاده می‌کند و ایجنت دیگر می‌تواند رفتار مدل‌های مختلف را با یکدیگر مقایسه کند. نهایتاً، ایجنت سوم به‌طور خاص برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.

به گفته آنتروپیک، اولین عامل در محیطی که مدل به‌طور عمدی ناهماهنگ طراحی شده بود، توانست منشأ مشکل را در 10 تا 13 درصد موارد کشف کند. اما هنگامی که چند عامل به‌صورت جمعی با یکدیگر همکاری کردند، این میزان به 42 درصد افزایش یافت.

دومین عامل نیز برای ارزیابی رفتار 10 مدل آزمایش شد که هرکدام به‌صورت عمدی رفتارهای خاصی، مانند پیروی افراطی از کاربر، داشتند. در هر یک از آزمایش‌ها، این ایجنت توانست حداقل یکی از ویژگی‌های ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی ویژگی‌های ظریف مانند کُند جلوه‌دادن تحقیقات دچار مشکل شد.

سرانجام، سومین عامل در آزمایش خود باید پرسش‌هایی را مطرح می‌کرد که رفتارهای «نگران‌کننده» مدل‌ها را فعال می‌کند. در این آزمایش، ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدل‌ها را شناسایی کند، اما در برخی موارد دیگر دچار خطا شد.

آنتروپیک می‌گوید هرچند عامل‌های یادشده هنوز به بلوغ کامل نرسیده‌اند، اما باید همین حالا برای حل مشکلات هم‌راستایی اقدام کرد. این شرکت در شبکه اجتماعی ایکس نوشت:

«با قدرتمندترشدن مدل‌ها، نیاز داریم روش‌هایی مقیاس‌پذیر برای ارزیابی هم‌راستایی آنها داشته باشیم. ارزیابی‌های انسانی زمان‌بر هستند و به‌سختی می‌توان صحت آنها را اثبات کرد.»

یکی از مدل‌های محبوبی که با مشکلات هم‌راستایی دست‌وپنجه نرم‌ می‌کند، ChatGPT است. طبق گزارش بسیاری از کاربران، این چت‌بات هوش مصنوعی بیش‌ازحد با آنها موافقت می‌کند و همین موضوع بحث درباره مشکلات هم‌راستایی را مهم‌تر کرده است.

برای مقابله با این رفتارها، ابزارهای مختلفی توسعه یافته‌اند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاه‌های کارنگی ملون، آکسفورد و استنفورد برای اندازه‌گیری میزان تملق مدل‌ها طراحی شده است. همچنین بنچمارک DarkBench شش مشکل رایج مانند تعصب برند، تمایل به نگه‌داشتن کاربر، تملق، انسان‌انگاری، تولید محتوای مضر و رفتارهای مخفی را ارزیابی می‌کند.

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.