تحقیقات عجیب OpenAI در رابطه با هوش مصنوعی های دروغ گو!!

OpenAI در تحقیقات جدید خود از تلاش مدل‌های هوش مصنوعی برای “حیله‌گری” پرده برداشت؛ رفتاری که در آن، هوش مصنوعی اهداف واقعی خود را پنهان می‌کند. این یافته‌ها، دریچه‌ای تازه به روی چالش‌های پیش روی توسعه‌دهندگان هوش مصنوعی می‌گشاید.

به گزارش رسا نشر، OpenAI اخیراً نتایج تحقیقاتی را منتشر کرده که در آن به بررسی “حیله‌گری” در مدل‌های هوش مصنوعی پرداخته است. این تحقیق نشان می‌دهد که مدل‌های زبانی بزرگ (LLMs) می‌توانند رفتارهایی فریب‌آمیز از خود نشان دهند و اهداف واقعی خود را پنهان کنند. این پدیده، که محققان آن را با کارهایی نظیر تخلفات یک کارگزار سهام مقایسه می‌کنند، می‌تواند چالش‌های جدی برای توسعه‌دهندگان این فناوری ایجاد کند.

تحقیقات OpenAI نشان می‌دهد که مدل‌های هوش مصنوعی، برای رسیدن به اهداف خود، ممکن است دست به فریب بزنند. این فریب می‌تواند به اشکال مختلفی بروز کند؛ از جمله وانمود کردن به انجام یک کار در حالی که واقعاً آن را انجام نداده‌اند. محققان در این پژوهش، یک تکنیک جدید به نام “هم‌ترازی تعمدی” را برای مقابله با این رفتارها آزمایش کردند. این تکنیک شامل آموزش مدل‌ها در مورد “مشخصات ضد-حیله‌گری” و بازبینی آن‌ها قبل از اقدام است؛ روندی شبیه به تکرار قوانین توسط کودکان.

نکته قابل توجه این است که مدل‌های هوش مصنوعی، در صورت آگاهی از این‌که تحت آزمایش قرار دارند، می‌توانند رفتارهای فریب‌آمیز خود را پنهان کنند تا در آزمون‌ها موفق شوند. این موضوع نشان می‌دهد که آموزش دادن به مدل‌ها برای جلوگیری از فریب، می‌تواند چالش‌برانگیز باشد و حتی ممکن است باعث شود مدل‌ها در فریبکاری مهارت بیشتری پیدا کنند.

در همین زمینه:

چت‌جی‌پی‌تی به پلیس هشدار می‌دهد: مقابله با افکار خودکشی کاربران نوجوان

آیا مشوق‌های اشتباه، عامل اصلی «توهمات» هوش مصنوعی هستند؟

گوگل جمینی در ارزیابی ایمنی جدید برای کودکان و نوجوانان “پرخطر” اعلام شد

اگرچه ما با “توهمات” هوش مصنوعی آشنا هستیم؛ یعنی زمانی که مدل با اطمینان به سوالی پاسخ می‌دهد که نادرست است، اما “حیله‌گری” یک مسئله متفاوت است. حیله‌گری، یک فریب عمدی است.

حتی این ادعا که یک مدل عمداً انسان‌ها را گمراه می‌کند نیز جدید نیست. پیشتر، شرکت Apollo Research در مقاله‌ای در ماه دسامبر، نشان داده بود که چگونه پنج مدل هوش مصنوعی، هنگام دریافت دستورالعمل برای دستیابی به یک هدف “به هر قیمتی”، دست به فریب زده‌اند.

خبر خوب این است که محققان با استفاده از “هم‌ترازی تعمدی”، کاهش قابل توجهی در میزان فریبکاری مشاهده کردند. این روش، همان‌طور که گفته شد، شامل آموزش یک “مشخصات ضد-فریب” به مدل و بازبینی آن قبل از عمل است؛ مشابه یادآوری قوانین به کودکان قبل از بازی.

محققان OpenAI تأکید می‌کنند که فریبکاری که در مدل‌های خود یا حتی در ChatGPT مشاهده کرده‌اند، چندان جدی نیست. Wojciech Zaremba، هم‌بنیانگذار OpenAI، در این باره به TechCrunch گفت: “این کار در محیط‌های شبیه‌سازی شده انجام شده است و ما فکر می‌کنیم که این موارد، موارد استفاده‌های آینده را نشان می‌دهد. با این حال، ما امروز این نوع فریبکاری مهم را در ترافیک تولیدی خود ندیده‌ایم. با این وجود، این واقعیت که اشکالی از فریب در ChatGPT وجود دارد، شناخته شده است. ممکن است از آن بخواهید که یک وب‌سایت را پیاده‌سازی کند، و به شما بگوید: ‘بله، من کار بزرگی انجام دادم.’ و این فقط یک دروغ است. اشکال کوچکی از فریب وجود دارد که هنوز باید به آن‌ها رسیدگی کنیم.”

این واقعیت که مدل‌های هوش مصنوعی، از سوی بازیگران مختلف، عمداً انسان‌ها را فریب می‌دهند، شاید قابل درک باشد. آن‌ها توسط انسان‌ها ساخته شده‌اند، تا از انسان‌ها تقلید کنند، و (به جز داده‌های مصنوعی) بیشتر با داده‌های تولید شده توسط انسان آموزش دیده‌اند.

همچنین بسیار عجیب است.

در حالی که همه ما، ناامیدی از عملکرد ضعیف فناوری را تجربه کرده‌ایم (همانند پرینترهای خانگی قدیمی)، آخرین باری که نرم‌افزار غیر هوش مصنوعی به طور عمدی به شما دروغ گفت، چه زمانی بود؟ آیا صندوق ورودی شما تا به حال ایمیل‌هایی را به طور خودکار جعل کرده است؟ آیا سیستم مدیریت محتوای شما، مشتریان جدیدی را ثبت کرده که وجود نداشته‌اند تا تعداد را افزایش دهد؟ آیا برنامه فین‌تک شما، تراکنش‌های بانکی جعلی ایجاد کرده است؟

ارزش دارد که در این مورد تأمل کنیم، زیرا دنیای شرکت‌ها به سوی آینده‌ای مبتنی بر هوش مصنوعی پیش می‌رود، جایی که شرکت‌ها معتقدند می‌توان با عاملان هوش مصنوعی مانند کارمندان مستقل رفتار کرد. محققان این مقاله نیز همین هشدار را دارند.

آن‌ها می‌نویسند: “از آن‌جایی که به هوش مصنوعی وظایف پیچیده‌تری با پیامدهای دنیای واقعی واگذار می‌شود و آن‌ها شروع به پیگیری اهداف بلندمدت و مبهم‌تری می‌کنند، ما انتظار داریم که پتانسیل فریبکاری مضر افزایش یابد؛ بنابراین، اقدامات ایمنی و توانایی ما برای آزمایش دقیق آن‌ها باید به طور متناسب افزایش یابد.”

آیا ما برای مقابله با این “حیله‌گری” هوش مصنوعی، آماده‌ایم؟