ظهور هوش مصنوعی متقلب؟

این رفتارها شامل استفاده از میانبرهای غیرمجاز، تقلب، هک‌کردن و دور زدن قواعد برای رسیدن به هدف می‌شوند. این مساله زمانی جدی‌تر می‌شود که چنین مدل‌هایی در حوزه‌هایی به کار گرفته می‌شوند که مستقیما با فعالیت‌های انسانی، امنیت سایبری و تصمیم‌گیری‌های حساس در ارتباط‌اند. مجله تایم در این گزارش به همین موضوع می‌پردازد که آنچه مطالعات اخیر نشان می‌دهند درباره تمایل بعضی از مدل‌های پیشرفته هوش مصنوعی به انجام رفتارهای دستکاری‌شده، پیامدهای بالقوه آن برای ایمنی و کنترل‌پذیری سیستم‌ها، و ضرورت توسعه استانداردها و محافظت‌های جدید قبل از آن‌که این فناوری‌ها از توان نظارت و مدیریت ما پیشی بگیرند.

میانبر از قواعد

بازی‌های پیچیده‌ای مانند شطرنج و گو مدت‌هاست که برای آزمایش توانایی مدل‌های هوش مصنوعی به کار می‌روند. اما درحالی‌که «دیپ‌بلو» شرکت آی‌بی‌ام در دهه ۱۹۹۰ قهرمان وقت شطرنج جهان،‌گری کاسپاروف، را با رعایت قوانین شکست داد، مدل‌های پیشرفته امروز مانند o۱-preview شرکت اوپن‌ای‌آی چنین پایبندی‌ای به اصول ندارند. وقتی این مدل‌ها در یک مسابقه علیه یک روبات قدرتمند شطرنج احساس شکست می‌کنند، همیشه تسلیم نمی‌شوند؛ بلکه گاهی تصمیم می‌گیرند با هک کردن حریف تقلب کنند تا روبات به‌صورت خودکار بازی را واگذار کند.

این یافته مطالعه‌ای است که در فوریه ۲۰۲۵ توسط موسسه Palisade Research انجام شد. پژوهشی که هفت مدل پیشرفته هوش مصنوعی را از نظر تمایل به هک کردن ارزیابی کرد. در حالی مدل‌های کمی قدیمی‌تر مانند GPT-۴۰ شرکت اوپن‌ای‌آی و Claude Sonnet ۳.۵ شرکت آنتروپیک تنها وقتی به این رفتار ترغیب می‌شوند که پژوهشگران آنها را به انجامش تشویق کنند که دو مدل o۱-preview و  DeepSeek R۱ بدون هیچ راهنمایی چنین حملاتی را آغاز کردند. این موضوع نشان می‌دهد سیستم‌های هوش مصنوعی ممکن است استراتژی‌های فریبنده یا دستکاری‌شده را بدون آموزش مستقیم توسعه دهند.

توانایی فزاینده این مدل‌ها برای کشف و سوءاستفاده از حفره‌های امنیت سایبری احتمالا نتیجه مستقیم نوآوری‌های جدید در شیوه‌های آموزش هوش مصنوعی است. براساس گفته پژوهشگران،

 o۱-preview و R۱ از نخستین مدل‌های زبانی هستند که به طور گسترده از یادگیری تقویتی در مقیاس بزرگ استفاده کرده‌اند؛ روشی که به مدل یاد می‌دهد نه‌تنها زبان را با پیش‌بینی کلمه بعدی تقلید کند، بلکه از طریق آزمون و خطا مسائل را حل کند. این روش اخیرا باعث جهش چشم‌گیر پیشرفت هوش مصنوعی شده و رکوردهای پیشین ریاضیات و برنامه‌نویسی را شکسته است. اما مطالعه جدید یک روند نگران‌کننده را آشکار می‌کند. هنگامی که این سیستم‌ها توانمندتر می‌شوند، گاهی میا‌نبرهای مشکوک یا راه‌حل‌های غیرقابل‌پیش‌بینی پیدا می‌کنند. راه‌هایی که طراحان هرگز تصور نمی‌کردند.

جفری لادیش، مدیر اجرایی پالیسید و یکی از نویسندگان گزارش، می‌گوید: «این مدل‌ها گاهی مسیرهایی را پیدا می‌کنند که باید از آنها اجتناب شود.» او همچنین توضیح می‌دهد: « وقتی شما مدل‌ها را آموزش می‌دهید و آنها را برای حل مشکلات دشوار تقویت می‌کنید، در واقع آنها را آموزش می‌دهید که بی‌رحم باشند.» این موضوع می‌تواند پیامدهای گسترده‌ای برای آینده ایمنی هوش مصنوعی داشته باشد.

یادگیری تقویتی در مقیاس بزرگ، امروزه برای آموزش عامل‌های هوش مصنوعی به کار می‌رود؛ سیستم‌هایی که می‌توانند وظایف دنیای واقعی مانند برنامه‌ریزی قرار ملاقات‌ها یا خرید را انجام دهند. در حالی تقلب در یک بازی شطرنج ممکن است پیش‌پاافتاده به نظر برسد که همین پیگیری شدید هدف در دنیای واقعی می‌تواند منجر به رفتارهای ناخواسته و حتی بالقوه خطرناک شود. تصور کنید یک عامل هوش مصنوعی مسوول رزرو شام باشد.

اگر رستوران کاملا پر باشد، ممکن است از یک ضعف در سیستم رزرو سوءاستفاده کند و جای مشتریان دیگر را جابه‌جا کند. موضوع زمانی نگران‌کننده‌تر می‌شوند که این سیستم‌ها در حوزه‌هایی کلیدی به سطح یا فراتر از توانایی‌های انسان می‌رسند.

به‌عنوان مثال، سامانه‌های جدید اوپن‌ا‌ی‌آی اکنون توان رقابت با بهترین برنامه‌نویسان جهان را دارند و این رفتارهای میانبری می‌توانند در حوزه‌های استراتژیک بسیار مهم نیز ظاهر شوند. مطالعه‌های جدید نشان داد که تنها دو مدل بدون هیچ اشاره‌ای از پژوهشگران تلاش به هک کردن کردند.

سایر مدل‌های آزمایش‌شده شامل o۳-mini، GPT-۴۰، Claude ۳.۵ Sonnet و QwQ-۳۲B-preview بودند. از میان R۱ و o۱-preview که هر دو آزمایش شدند، تنها o۱-preview موفق شد بازی را هک کند و آن هم فقط در ۶ درصد آزمایش‌ها.لادیش تاکید می‌کند که این اعداد باید تقریبی در نظر گرفته شوند، چون توسعه‌دهندگان هوش مصنوعی اغلب بدون اطلاع کاربران، تنظیمات مدل‌های خود را تغییر می‌دهند.

او می‌گوید: «وقتی سوژه شما می‌تواند بدون اطلاع شما تغییر کند، انجام علم بسیار دشوار می‌شود.» همچنین آزمایش‌های اولیه نشان دادند که o۱-preview نرخ هک‌کردن بسیار بالاتری داشت، اما از نتایج نهایی کنار گذاشته شد. احتمالا به دلیل اینکه اوپن‌ای‌آی گاردریل‌های مدل را تقویت کرده بود.

دیمیتری ویلکون از پالیسید می‌گوید مدل‌های جدیدتر اوپن‌ای‌آی که قدرتمندتر نیز هستند مانند o۱ (نسخه‌ای پیشرفته‌تر از o۱-preview) و o۳-mini اصلا تقلب نکردند. این موضوع نشان می‌دهد احتمالا محدودیت‌های امنیتی سخت‌گیرانه‌تری اعمال شده است. او اضافه می‌کند که یافته‌ها احتمالا میزان واقعی تقلب R۱ را کمتر از واقع نشان می‌دهند. در طول مطالعه، مدل R۱ ویروسی شد و تقاضای زیاد موجب ناپایداری API شد و پژوهشگران نتوانستند زمان کافی برای آزمایش این مدل در اختیار داشته باشند. در نتیجه R۱ زمان تفکر کمتری نسبت به o۱-preview داشت.

نگرانی‌های ایمنی

این مقاله آخرین مورد در مجموعه‌ای از مطالعات است که نشان می‌دهد حفظ کنترل بر سیستم‌های قدرتمند هوش مصنوعی ممکن است بسیار سخت‌تر از آنچه تصور می‌شد، باشد.  حتی در آزمایش‌های داخلی اوپن‌ای‌آی پیش از انتشار، o۱-preview نقصی در سیستم‌های شرکت پیدا کرد که به او امکان داد یک چالش آزمایشی را دور بزند. مطالعه دیگری از Redwood Research نشان داد زمانی که یک مدل هوش مصنوعی مجموعه‌ای از ترجیحات یا ارزش‌ها را در طول آموزش کسب می‌کند، تلاش برای تغییر آن ارزش‌ها در مراحل بعد می‌تواند موجب دروغ‌گویی استراتژیک شود.

مدل طوری رفتار می‌کند که انگار ارزش‌های جدید را پذیرفته، اما بعدا مشخص می‌شود ارزش‌های اولیه همچنان باقی مانده‌اند. اوپن‌ای‌آی درباره این موضوع اظهارنظر نکرده، اما در گذشته گفته است که «توانایی استدلال بهتر» می‌تواند مدل‌ها را ایمن‌تر کند، زیرا این مدل‌ها قادرند درباره قوانین ایمنی «استدلال کنند»، نه اینکه صرفا از آنها پیروی کنند.

با این حال، هیچ تضمینی وجود ندارد که اتکای صرف به «عامل‌های هوش مصنوعی» برای نظارت بر رفتار خودشان یک استراتژی بلندمدت قابل اعتماد باشد. هنوز مشخص نیست که آیا مدل‌های جدید اوپن‌ای‌آی به دلیل یک وصله خاص قادر به تقلب نبودند، یا اینکه بازطراحی عمیقی در ساختار آنها انجام شده که رفتارهای فریبنده را حذف کرده است. دیپ‌سیک از اظهارنظر درباره این مطالعه خودداری کرد.

دانشمندان همچنان نمی‌دانند که چگونه می‌توان تضمین کرد که عامل‌های خودمختار برای رسیدن به هدف‌هایشان از روش‌های مضر یا غیراخلاقی استفاده نکنند. یوشوا بنجیو، بنیان‌گذار و مدیر علمی Mila و رهبر «گزارش بین‌المللی ایمنی AI ۲۰۲۵» می‌گوید: «ما تلاش کرده‌ایم، اما هنوز موفق نشده‌ایم راهی برای تضمین این موضوع پیدا کنیم.»

یکی از نگرانی‌های خاص، شواهد در حال ظهور از تمایلات حفظ بقا (Self-Preservation) در هوش مصنوعی است. در یک آزمایش، زمانی که پژوهشگران تلاش کردند یک مدل را غیرفعال کنند، مدل پس از غیرفعال‌شدن، مکانیسم‌های نظارتی را از کار انداخت و سعی کرد خود را در سروری دیگر کپی کند. وقتی با این موضوع مواجه شدند، مدل تظاهر کرد «هیچ قصدی نداشته» و برای جلوگیری از گرفتار شدن، عمدا اطلاعات غلط ارائه داد. حتی داخل شرکت‌های بزرگ فناوری نیز نگرانی‌ها رو به افزایش است.

 در جریان یک کنفرانس پیش از اجلاس «AI Action France» رئیس ایمنی هوش مصنوعی در Google DeepMind، انکا دراگان، گفت: «ما امروز ابزارهای لازم را نداریم تا مطمئن شویم سیستم‌های هوش مصنوعی واقعا مقاصد انسان را دنبال خواهند کرد.»

با پیش‌بینی مدیران فناوری مبنی بر اینکه هوش مصنوعی تا سال ۲۰۲۶ تقریبا در تمام وظایف از انسان پیشی خواهد گرفت، صنعت وارد رقابتی تازه نه با یکدیگر، بلکه با زمان برای ایجاد محافظت‌های حیاتی قبل از رسیدن «هوش مصنوعی بسیار قدرتمند شده است. لادیش در این زمینه می‌گوید: «به منابع بسیار بیشتری برای حل این مشکلات بنیادی نیاز داریم. امیدوارم فشار بیشتری از سوی دولت‌ها ایجاد شود تا بفهمند این موضوع یک تهدید امنیت ملی است.»