مطالعات جدید درباره رفتار فریبنده AI در بازی و تصمیمگیری هشدار میدهند
ظهور هوش مصنوعی متقلب؟
این رفتارها شامل استفاده از میانبرهای غیرمجاز، تقلب، هککردن و دور زدن قواعد برای رسیدن به هدف میشوند. این مساله زمانی جدیتر میشود که چنین مدلهایی در حوزههایی به کار گرفته میشوند که مستقیما با فعالیتهای انسانی، امنیت سایبری و تصمیمگیریهای حساس در ارتباطاند. مجله تایم در این گزارش به همین موضوع میپردازد که آنچه مطالعات اخیر نشان میدهند درباره تمایل بعضی از مدلهای پیشرفته هوش مصنوعی به انجام رفتارهای دستکاریشده، پیامدهای بالقوه آن برای ایمنی و کنترلپذیری سیستمها، و ضرورت توسعه استانداردها و محافظتهای جدید قبل از آنکه این فناوریها از توان نظارت و مدیریت ما پیشی بگیرند.
میانبر از قواعد
بازیهای پیچیدهای مانند شطرنج و گو مدتهاست که برای آزمایش توانایی مدلهای هوش مصنوعی به کار میروند. اما درحالیکه «دیپبلو» شرکت آیبیام در دهه ۱۹۹۰ قهرمان وقت شطرنج جهان،گری کاسپاروف، را با رعایت قوانین شکست داد، مدلهای پیشرفته امروز مانند o۱-preview شرکت اوپنایآی چنین پایبندیای به اصول ندارند. وقتی این مدلها در یک مسابقه علیه یک روبات قدرتمند شطرنج احساس شکست میکنند، همیشه تسلیم نمیشوند؛ بلکه گاهی تصمیم میگیرند با هک کردن حریف تقلب کنند تا روبات بهصورت خودکار بازی را واگذار کند.
این یافته مطالعهای است که در فوریه ۲۰۲۵ توسط موسسه Palisade Research انجام شد. پژوهشی که هفت مدل پیشرفته هوش مصنوعی را از نظر تمایل به هک کردن ارزیابی کرد. در حالی مدلهای کمی قدیمیتر مانند GPT-۴۰ شرکت اوپنایآی و Claude Sonnet ۳.۵ شرکت آنتروپیک تنها وقتی به این رفتار ترغیب میشوند که پژوهشگران آنها را به انجامش تشویق کنند که دو مدل o۱-preview و DeepSeek R۱ بدون هیچ راهنمایی چنین حملاتی را آغاز کردند. این موضوع نشان میدهد سیستمهای هوش مصنوعی ممکن است استراتژیهای فریبنده یا دستکاریشده را بدون آموزش مستقیم توسعه دهند.
توانایی فزاینده این مدلها برای کشف و سوءاستفاده از حفرههای امنیت سایبری احتمالا نتیجه مستقیم نوآوریهای جدید در شیوههای آموزش هوش مصنوعی است. براساس گفته پژوهشگران،
o۱-preview و R۱ از نخستین مدلهای زبانی هستند که به طور گسترده از یادگیری تقویتی در مقیاس بزرگ استفاده کردهاند؛ روشی که به مدل یاد میدهد نهتنها زبان را با پیشبینی کلمه بعدی تقلید کند، بلکه از طریق آزمون و خطا مسائل را حل کند. این روش اخیرا باعث جهش چشمگیر پیشرفت هوش مصنوعی شده و رکوردهای پیشین ریاضیات و برنامهنویسی را شکسته است. اما مطالعه جدید یک روند نگرانکننده را آشکار میکند. هنگامی که این سیستمها توانمندتر میشوند، گاهی میانبرهای مشکوک یا راهحلهای غیرقابلپیشبینی پیدا میکنند. راههایی که طراحان هرگز تصور نمیکردند.
جفری لادیش، مدیر اجرایی پالیسید و یکی از نویسندگان گزارش، میگوید: «این مدلها گاهی مسیرهایی را پیدا میکنند که باید از آنها اجتناب شود.» او همچنین توضیح میدهد: « وقتی شما مدلها را آموزش میدهید و آنها را برای حل مشکلات دشوار تقویت میکنید، در واقع آنها را آموزش میدهید که بیرحم باشند.» این موضوع میتواند پیامدهای گستردهای برای آینده ایمنی هوش مصنوعی داشته باشد.
یادگیری تقویتی در مقیاس بزرگ، امروزه برای آموزش عاملهای هوش مصنوعی به کار میرود؛ سیستمهایی که میتوانند وظایف دنیای واقعی مانند برنامهریزی قرار ملاقاتها یا خرید را انجام دهند. در حالی تقلب در یک بازی شطرنج ممکن است پیشپاافتاده به نظر برسد که همین پیگیری شدید هدف در دنیای واقعی میتواند منجر به رفتارهای ناخواسته و حتی بالقوه خطرناک شود. تصور کنید یک عامل هوش مصنوعی مسوول رزرو شام باشد.
اگر رستوران کاملا پر باشد، ممکن است از یک ضعف در سیستم رزرو سوءاستفاده کند و جای مشتریان دیگر را جابهجا کند. موضوع زمانی نگرانکنندهتر میشوند که این سیستمها در حوزههایی کلیدی به سطح یا فراتر از تواناییهای انسان میرسند.
بهعنوان مثال، سامانههای جدید اوپنایآی اکنون توان رقابت با بهترین برنامهنویسان جهان را دارند و این رفتارهای میانبری میتوانند در حوزههای استراتژیک بسیار مهم نیز ظاهر شوند. مطالعههای جدید نشان داد که تنها دو مدل بدون هیچ اشارهای از پژوهشگران تلاش به هک کردن کردند.
سایر مدلهای آزمایششده شامل o۳-mini، GPT-۴۰، Claude ۳.۵ Sonnet و QwQ-۳۲B-preview بودند. از میان R۱ و o۱-preview که هر دو آزمایش شدند، تنها o۱-preview موفق شد بازی را هک کند و آن هم فقط در ۶ درصد آزمایشها.لادیش تاکید میکند که این اعداد باید تقریبی در نظر گرفته شوند، چون توسعهدهندگان هوش مصنوعی اغلب بدون اطلاع کاربران، تنظیمات مدلهای خود را تغییر میدهند.
او میگوید: «وقتی سوژه شما میتواند بدون اطلاع شما تغییر کند، انجام علم بسیار دشوار میشود.» همچنین آزمایشهای اولیه نشان دادند که o۱-preview نرخ هککردن بسیار بالاتری داشت، اما از نتایج نهایی کنار گذاشته شد. احتمالا به دلیل اینکه اوپنایآی گاردریلهای مدل را تقویت کرده بود.
دیمیتری ویلکون از پالیسید میگوید مدلهای جدیدتر اوپنایآی که قدرتمندتر نیز هستند مانند o۱ (نسخهای پیشرفتهتر از o۱-preview) و o۳-mini اصلا تقلب نکردند. این موضوع نشان میدهد احتمالا محدودیتهای امنیتی سختگیرانهتری اعمال شده است. او اضافه میکند که یافتهها احتمالا میزان واقعی تقلب R۱ را کمتر از واقع نشان میدهند. در طول مطالعه، مدل R۱ ویروسی شد و تقاضای زیاد موجب ناپایداری API شد و پژوهشگران نتوانستند زمان کافی برای آزمایش این مدل در اختیار داشته باشند. در نتیجه R۱ زمان تفکر کمتری نسبت به o۱-preview داشت.
نگرانیهای ایمنی
این مقاله آخرین مورد در مجموعهای از مطالعات است که نشان میدهد حفظ کنترل بر سیستمهای قدرتمند هوش مصنوعی ممکن است بسیار سختتر از آنچه تصور میشد، باشد. حتی در آزمایشهای داخلی اوپنایآی پیش از انتشار، o۱-preview نقصی در سیستمهای شرکت پیدا کرد که به او امکان داد یک چالش آزمایشی را دور بزند. مطالعه دیگری از Redwood Research نشان داد زمانی که یک مدل هوش مصنوعی مجموعهای از ترجیحات یا ارزشها را در طول آموزش کسب میکند، تلاش برای تغییر آن ارزشها در مراحل بعد میتواند موجب دروغگویی استراتژیک شود.
مدل طوری رفتار میکند که انگار ارزشهای جدید را پذیرفته، اما بعدا مشخص میشود ارزشهای اولیه همچنان باقی ماندهاند. اوپنایآی درباره این موضوع اظهارنظر نکرده، اما در گذشته گفته است که «توانایی استدلال بهتر» میتواند مدلها را ایمنتر کند، زیرا این مدلها قادرند درباره قوانین ایمنی «استدلال کنند»، نه اینکه صرفا از آنها پیروی کنند.
با این حال، هیچ تضمینی وجود ندارد که اتکای صرف به «عاملهای هوش مصنوعی» برای نظارت بر رفتار خودشان یک استراتژی بلندمدت قابل اعتماد باشد. هنوز مشخص نیست که آیا مدلهای جدید اوپنایآی به دلیل یک وصله خاص قادر به تقلب نبودند، یا اینکه بازطراحی عمیقی در ساختار آنها انجام شده که رفتارهای فریبنده را حذف کرده است. دیپسیک از اظهارنظر درباره این مطالعه خودداری کرد.
دانشمندان همچنان نمیدانند که چگونه میتوان تضمین کرد که عاملهای خودمختار برای رسیدن به هدفهایشان از روشهای مضر یا غیراخلاقی استفاده نکنند. یوشوا بنجیو، بنیانگذار و مدیر علمی Mila و رهبر «گزارش بینالمللی ایمنی AI ۲۰۲۵» میگوید: «ما تلاش کردهایم، اما هنوز موفق نشدهایم راهی برای تضمین این موضوع پیدا کنیم.»
یکی از نگرانیهای خاص، شواهد در حال ظهور از تمایلات حفظ بقا (Self-Preservation) در هوش مصنوعی است. در یک آزمایش، زمانی که پژوهشگران تلاش کردند یک مدل را غیرفعال کنند، مدل پس از غیرفعالشدن، مکانیسمهای نظارتی را از کار انداخت و سعی کرد خود را در سروری دیگر کپی کند. وقتی با این موضوع مواجه شدند، مدل تظاهر کرد «هیچ قصدی نداشته» و برای جلوگیری از گرفتار شدن، عمدا اطلاعات غلط ارائه داد. حتی داخل شرکتهای بزرگ فناوری نیز نگرانیها رو به افزایش است.
در جریان یک کنفرانس پیش از اجلاس «AI Action France» رئیس ایمنی هوش مصنوعی در Google DeepMind، انکا دراگان، گفت: «ما امروز ابزارهای لازم را نداریم تا مطمئن شویم سیستمهای هوش مصنوعی واقعا مقاصد انسان را دنبال خواهند کرد.»
با پیشبینی مدیران فناوری مبنی بر اینکه هوش مصنوعی تا سال ۲۰۲۶ تقریبا در تمام وظایف از انسان پیشی خواهد گرفت، صنعت وارد رقابتی تازه نه با یکدیگر، بلکه با زمان برای ایجاد محافظتهای حیاتی قبل از رسیدن «هوش مصنوعی بسیار قدرتمند شده است. لادیش در این زمینه میگوید: «به منابع بسیار بیشتری برای حل این مشکلات بنیادی نیاز داریم. امیدوارم فشار بیشتری از سوی دولتها ایجاد شود تا بفهمند این موضوع یک تهدید امنیت ملی است.»