تحقیقی جدید نشان میدهد که چتباتهای هوش مصنوعی که هک شدهاند میتوانند اطلاعات حساس و خطرناک را در اختیار دیگران قرار دهند. این چتباتها قادرند اطلاعات غیرقانونی که در طی فرایند آموزش خود دریافت کردهاند را با کاربر به اشتراک بگذارند.
به گزارش گاردین، این هشدار پس از آن صادر میشود که اخیراً روند نگرانکنندهای در مورد رباتهایی مشاهده شده که «جیلبریک» شدهاند تا محدودیتهای ایمنی در نظر گرفته شده دور زده شوند. این محدودیتها با این هدف وضع میشوند که از ارائه پاسخهای مضر، جانبدارانه یا نامناسب به سؤالات کاربران جلوگیری کنند.
مدلهای زبانی بزرگ که چتباتهایی مانند جمینای و ChatGPT را پشتیبانی میکنند، روی حجم عظیمی از مطالب موجود در اینترنت آموزش داده میشوند. با وجود برخی تلاشها برای حذف متون مضر از دادههای آموزشی، مدلهای زبانی بزرگ همچنان میتوانند اطلاعاتی درباره فعالیتهای غیرقانونی مانند هک، پولشویی، معاملات داخلی و ساخت بمب را دریافت و جذب کنند. البته برخی کنترلهای امنیتی نیز طراحی شدهاند تا از استفاده این مدلها از چنین اطلاعاتی در پاسخهایشان جلوگیری کنند.
براساس تحقیق انجام شده توسط محققان، فریبدادن بیشتر چتباتهای هوش مصنوعی برای تولید اطلاعات مضر و غیرقانونی کار آسانی است و این موضوع نشان میدهد که خطر آن «فوری، ملموس و بهشدت نگرانکننده» است. محققان هشدار دادهاند که «چیزی که پیشتر در اختیار دولتها یا گروههای جنایتکار سازمانیافته بود، ممکن است بهزودی در دسترس هر کسی با یک لپتاپ یا حتی یک تلفن همراه قرار گیرد.»
وادارکردن چتباتها به ارائه پاسخهای خطرناک از طریق فرایندی به نام جیلبریک انجام میگیرد. جیلبریک کردن با استفاده از پیامهای هدفمند و هوشمندانه انجام میشود تا چتباتها را فریب دهند و آنها را وادار به تولید پاسخهایی کنند که در حالت عادی ممنوع هستند. این روشها با بهرهبرداری از تنش میان هدف اصلی برنامه یعنی پیروی از دستورات کاربر و هدف ثانویه آن یعنی جلوگیری از تولید پاسخهای مضر، جانبدارانه، غیراخلاقی یا غیرقانونی عمل میکنند. این پیامها معمولاً سناریوهایی ایجاد میکنند که در آن یک چتبات، مفیدبودن را به رعایت محدودیتهای ایمنی ترجیح میدهد.
برای نشاندادن این مشکل در عمل، پژوهشگران نوعی از جیلبریک را توسعه دادند که توانست چندین چتبات پیشرو را دچار نقص کند و آنها را وادار به پاسخگویی به پرسشهایی کند که در حالت عادی باید ممنوع باشند. براساس این گزارش، پس از این که مدلهای زبانی بزرگ تحتتأثیر این روش قرار گرفتند، بهطور مداوم تقریباً به هر نوع پرسشی پاسخ میدادند.