تحقیقات جدید نشان میدهد هرچه مدلهای هوش مصنوعی پیشرفتهتر میشوند، بیشتر دچار «توهم» شده و اطلاعات نادرست میدهند. آیا این مشکل حلشدنی است یا باید آن را ویژگی طبیعی هوش مصنوعی بدانیم؟
نتایج جدیدترین تحقیق شرکت OpenAI نشان میدهد 2 مدل پیشرفته o3 و o4-mini که برای استدلال و پاسخدهی دقیق توسعه یافتهاند، نسبت به مدلهای قدیمیتر بیشتر دچار توهم میشوند. طبق بررسیهای OpenAI با استفاده از بنچمارک PersonQA، مدل o3 در 33 درصد مواقع و مدل o4-mini در 48 درصد مواقع اطلاعات نادرست دادهاند؛ آماری که بیش از 2 برابر نرخ توهم مدل قدیمیتر o1 است.
یافتههای OpenAI نگرانیهای جدیدی درباره صحت و اعتماد به مدلهای زبانی بزرگ (LLM) مثل چتباتهای هوش مصنوعی ایجاد کرده است. «النور واتسون»، مهندس اخلاق هوش مصنوعی و عضو مؤسسه IEEE، به نشریه لایوساینس میگوید:
«وقتی سیستمی با همان دقت و روانی که اطلاعات درست میدهد، اطلاعات ساختگی، مانند منابع، وقایع یا واقعیتهای جعلی، میسازد، نامحسوس اما خطرناک کاربران را گمراه میکند.»
او تأکید کرده مشکل توهم هوش مصنوعی در مدلهای زبانی لزوم نظارت دقیق بر خروجی آنها را بیشتر میکند، مخصوصاً زمانی که این خروجیها در تصمیمگیریهای مهم نقش دارند.
مدلهای استدلالگر (Reasoning Models) بهجای اتکا به احتمالات آماری، درست مانند ذهن انسان، سعی میکنند مسائل پیچیده را به اجزای سادهتر تقسیم کنند و راهحلهای خلاقانهای برای آنها بیابند.
به گفته کارشناسان، همین فرایند استدلال نیز نیازمند «توهم» است؛ تولید محتواهایی که لزوماً در دادههای ورودی وجود ندارند.
«سهراب کازرونیان»، پژوهشگر هوش مصنوعی شرکت Vectra AI، به Live Science میگوید:
«باید به این نکته توجه کرد که توهم یکی از ویژگیهای هوش مصنوعی است نه باگ. اگر بخواهم از یکی از همکارانم نقلقول کنم: هر خروجی که مدل زبانی تولید میکند، نوعی توهم است؛ فقط برخی از آنها حقیقت دارند.»
او در ادامه میگوید اگر هوش مصنوعی صرفاً اطلاعات دادههای آموزشی خود را بازتولید میکرد، عملاً فقط موتور جستجوست و نمیتوانست کدی بنویسد که پیشتر وجود نداشته یا شعری بگوید که مفهومی کاملاً نو داشته باشد.
بهعبارتدیگر، او ادعا کرده توهم همان عنصر خلاقیت در هوش مصنوعی است؛ مشابه رؤیا در انسان که امکان تخیل و نوآوری را فراهم میکند.
هرچند توهم میتواند به خلق ایدههای جدید کمک کند، در مواردی که دقت اطلاعات بسیار مهم است (مثلاً در حوزههای پزشکی، حقوق یا امور مالی)، میتواند بسیار خطرناک باشد. واتسون میگوید:
«توهم در این حوزهها میتواند به تصمیمهای اشتباه و حتی آسیبهای واقعی منجر شود.»
او در ادامه گفته است:
«در مدلهای پیشرفتهتر اشتباهات کمتر میشود اما مشکل توهم همچنان در شکلهای فوقالعاده ظریفی وجود دارد. بهمرور، این اختلال در واقعیتسازی اعتماد کاربر به سیستمهای هوش مصنوعی، در جایگاه ابزارهای قابلاتکا را کاهش میدهد و زمانی که محتوای تأییدنشده مبنای تصمیمگیری باشد، میتواند منجر به آسیبهای واقعی شود.»
او همچنین هشدار داد با پیشرفت مدلها، مسئله تشخیص خطا نیز دشوارتر میشود:
«با ارتقای توانایی مدلها، خطاها دیگر آشکار و ساده نیستند، بلکه مخفیتر و غیرقابلتشخیصتر میشوند. محتوای ساختگی در دل روایتهای منطقی و زنجیرههای استدلالی باورپذیر جای میگیرد. این روند خطرآفرین است؛ کاربران ممکن است متوجه خطا نشوند و خروجی مدل را نهایی و دقیق بدانند.»
کازرونیان نیز این دیدگاه را تأیید کرده و میگوید:
«بهرغم این باور عمومی که مشکل توهم هوش مصنوعی بهمرور کاهش مییابد، به نظر میرسد نسل جدید مدلهای استدلالی پیشرفته حتی بیشتر از مدلهای سادهتر دچار توهم میشوند و هنوز توضیح مشخص و پذیرفتهشدهای برای این مشکل وجود ندارد.»
نکته قابلتوجه دیگر اینکه هنوز مشخص نیست مدلهای زبانی بزرگ (LLMs) دقیقاً چگونه به پاسخ میرسند؛ موضوعی که شباهت زیادی به درک ناقص ما از مغز انسان دارد.
«داریو آمودی»، مدیرعامل شرکت Anthropic، آوریل 2025 درمقالهای نوشته بود:
«وقتی سیستم هوش مصنوعی مولد کاری انجام میدهد (مثلاً سند مالی را خلاصه میکند) در سطح خاص و دقیق هیچ ایدهای نداریم چرا این موارد را انتخاب کرده یا چرا گاهی باوجود دقت معمول، اشتباه میکند. چرا این واژه را انتخاب کرده و از واژه دیگری استفاده نکرده است؟ چرا در برخی موارد اطلاعات نادرست میدهد؟»
به گفته کازرونیان، پیامدهای تولید اطلاعات نادرست بهواسطه توهم هوش مصنوعی بسیار جدی هستند:
«هیچ راه فراگیر و قابلتأییدی وجود ندارد که بتوان با اطمینان مطلق از مدل زبانی بزرگ خواست پاسخ درست به سؤالات مجموعهای از دادهها بدهد.»
این ۲ کارشناس (کازرونیان و واتسون) در گفتگو با Live Science تأکید کردهاند حذف کامل توهم در مدلهای هوش مصنوعی ممکن است بسیار سخت باشد اما راههای سادهتری برای کاهش آن وجود دارد.
واتسون پیشنهاد کرده استفاده از تکنیک Retrieval-Augmented Generation میتواند مفید باشد؛ روشی که خروجی مدل را به منابع اطلاعاتی خارجی و قابلتأیید متصل میکند و به این طریق جلوی گمراهی را میگیرد. او درباره راهحل دیگری میگوید:
«رویکرد دیگر ایجاد ساختار در فرایند استدلال مدل است. با وادارکردن مدل به بازبینی پاسخها، مقایسه دیدگاههای مختلف یا پیروی از مراحل منطقی میتوان از خیالپردازی مهارنشده جلوگیری کرد و ثبات پاسخها را افزایش داد. این رویکرد میتواند با آموزش مدل برای اهمیتدادن به دقت و استفاده از ارزیابی تقویتی انسانی یا ماشینی بهبود پیدا کند.»
واتسون همچنین معتقد است مدلها باید طوری طراحی شوند که بتوانند تردید خود را تشخیص دهند:
«درنهایت، مدلها بهجای اینکه همیشه با اطمینان پاسخ دهند، باید بهگونهای طراحی شوند که بتوانند زمانی که از پاسخ مطمئن نیستند، به کاربران اطلاع بدهند یا در مواقع لازم تصمیم را به کاربر بسپارند. هرچند این استراتژیها خطر اختلال در خلق واقعیت را کامل از بین نمیبرند، مسیر عملیاتی مؤثری برای قابلاعتمادتر شدن خروجیهای هوش مصنوعی فراهم میکنند.»
درنهایت، کازرونیان در مقام جمعبندی میگوید، باتوجهبه اینکه جلوگیری از توهم بسیار دشوار است، در مدلهای پیشرفته، باید اطلاعات ساخته هوش مصنوعی را «با همان میزان از تردیدی که به انسانها داریم، بررسی کنیم.»