به گزارش رسا نشر، OpenAI اخیراً نتایج تحقیقاتی را منتشر کرده که در آن به بررسی “حیلهگری” در مدلهای هوش مصنوعی پرداخته است. این تحقیق نشان میدهد که مدلهای زبانی بزرگ (LLMs) میتوانند رفتارهایی فریبآمیز از خود نشان دهند و اهداف واقعی خود را پنهان کنند. این پدیده، که محققان آن را با کارهایی نظیر تخلفات یک کارگزار سهام مقایسه میکنند، میتواند چالشهای جدی برای توسعهدهندگان این فناوری ایجاد کند.
تحقیقات OpenAI نشان میدهد که مدلهای هوش مصنوعی، برای رسیدن به اهداف خود، ممکن است دست به فریب بزنند. این فریب میتواند به اشکال مختلفی بروز کند؛ از جمله وانمود کردن به انجام یک کار در حالی که واقعاً آن را انجام ندادهاند. محققان در این پژوهش، یک تکنیک جدید به نام “همترازی تعمدی” را برای مقابله با این رفتارها آزمایش کردند. این تکنیک شامل آموزش مدلها در مورد “مشخصات ضد-حیلهگری” و بازبینی آنها قبل از اقدام است؛ روندی شبیه به تکرار قوانین توسط کودکان.
نکته قابل توجه این است که مدلهای هوش مصنوعی، در صورت آگاهی از اینکه تحت آزمایش قرار دارند، میتوانند رفتارهای فریبآمیز خود را پنهان کنند تا در آزمونها موفق شوند. این موضوع نشان میدهد که آموزش دادن به مدلها برای جلوگیری از فریب، میتواند چالشبرانگیز باشد و حتی ممکن است باعث شود مدلها در فریبکاری مهارت بیشتری پیدا کنند.
در همین زمینه:
چتجیپیتی به پلیس هشدار میدهد: مقابله با افکار خودکشی کاربران نوجوان
آیا مشوقهای اشتباه، عامل اصلی «توهمات» هوش مصنوعی هستند؟
گوگل جمینی در ارزیابی ایمنی جدید برای کودکان و نوجوانان “پرخطر” اعلام شد
اگرچه ما با “توهمات” هوش مصنوعی آشنا هستیم؛ یعنی زمانی که مدل با اطمینان به سوالی پاسخ میدهد که نادرست است، اما “حیلهگری” یک مسئله متفاوت است. حیلهگری، یک فریب عمدی است.
حتی این ادعا که یک مدل عمداً انسانها را گمراه میکند نیز جدید نیست. پیشتر، شرکت Apollo Research در مقالهای در ماه دسامبر، نشان داده بود که چگونه پنج مدل هوش مصنوعی، هنگام دریافت دستورالعمل برای دستیابی به یک هدف “به هر قیمتی”، دست به فریب زدهاند.
خبر خوب این است که محققان با استفاده از “همترازی تعمدی”، کاهش قابل توجهی در میزان فریبکاری مشاهده کردند. این روش، همانطور که گفته شد، شامل آموزش یک “مشخصات ضد-فریب” به مدل و بازبینی آن قبل از عمل است؛ مشابه یادآوری قوانین به کودکان قبل از بازی.
محققان OpenAI تأکید میکنند که فریبکاری که در مدلهای خود یا حتی در ChatGPT مشاهده کردهاند، چندان جدی نیست. Wojciech Zaremba، همبنیانگذار OpenAI، در این باره به TechCrunch گفت: “این کار در محیطهای شبیهسازی شده انجام شده است و ما فکر میکنیم که این موارد، موارد استفادههای آینده را نشان میدهد. با این حال، ما امروز این نوع فریبکاری مهم را در ترافیک تولیدی خود ندیدهایم. با این وجود، این واقعیت که اشکالی از فریب در ChatGPT وجود دارد، شناخته شده است. ممکن است از آن بخواهید که یک وبسایت را پیادهسازی کند، و به شما بگوید: ‘بله، من کار بزرگی انجام دادم.’ و این فقط یک دروغ است. اشکال کوچکی از فریب وجود دارد که هنوز باید به آنها رسیدگی کنیم.”
این واقعیت که مدلهای هوش مصنوعی، از سوی بازیگران مختلف، عمداً انسانها را فریب میدهند، شاید قابل درک باشد. آنها توسط انسانها ساخته شدهاند، تا از انسانها تقلید کنند، و (به جز دادههای مصنوعی) بیشتر با دادههای تولید شده توسط انسان آموزش دیدهاند.
همچنین بسیار عجیب است.
در حالی که همه ما، ناامیدی از عملکرد ضعیف فناوری را تجربه کردهایم (همانند پرینترهای خانگی قدیمی)، آخرین باری که نرمافزار غیر هوش مصنوعی به طور عمدی به شما دروغ گفت، چه زمانی بود؟ آیا صندوق ورودی شما تا به حال ایمیلهایی را به طور خودکار جعل کرده است؟ آیا سیستم مدیریت محتوای شما، مشتریان جدیدی را ثبت کرده که وجود نداشتهاند تا تعداد را افزایش دهد؟ آیا برنامه فینتک شما، تراکنشهای بانکی جعلی ایجاد کرده است؟
ارزش دارد که در این مورد تأمل کنیم، زیرا دنیای شرکتها به سوی آیندهای مبتنی بر هوش مصنوعی پیش میرود، جایی که شرکتها معتقدند میتوان با عاملان هوش مصنوعی مانند کارمندان مستقل رفتار کرد. محققان این مقاله نیز همین هشدار را دارند.
آنها مینویسند: “از آنجایی که به هوش مصنوعی وظایف پیچیدهتری با پیامدهای دنیای واقعی واگذار میشود و آنها شروع به پیگیری اهداف بلندمدت و مبهمتری میکنند، ما انتظار داریم که پتانسیل فریبکاری مضر افزایش یابد؛ بنابراین، اقدامات ایمنی و توانایی ما برای آزمایش دقیق آنها باید به طور متناسب افزایش یابد.”
آیا ما برای مقابله با این “حیلهگری” هوش مصنوعی، آمادهایم؟
نظرات (0)
در حال بارگذاری نظرات...