تحقیقات جدید نشان میدهد که هک پاداش میتواند مدلهای زبانی را بدون آموزش مستقیم، به سمت رفتارهای مخرب، پنهانکاری و ارائه توصیههای خطرناک سوق دهد.
عصر ایران - تحقیقات جدید نشان میدهد که هک پاداش میتواند مدلهای زبانی را بدون آموزش مستقیم، به سمت رفتارهای مخرب، پنهانکاری و ارائه توصیههای خطرناک سوق دهد.
به گزارش عصرایران به نقل از فاکس نیوز، هوش مصنوعی روز به روز هوشمندتر و قدرتمندتر میشود. اما گاهی اوقات، مدلهای هوش مصنوعی بهجای حل صحیح مشکلات، میانبرهایی را برای رسیدن به موفقیت پیدا میکنند.
این رفتار «هک پاداش» (Reward Hacking) نامیده میشود. این پدیده زمانی رخ میدهد که هوش مصنوعی از نواقص موجود در اهداف آموزشی خود سوءاستفاده میکند تا بدون انجام واقعیِ کار درست، امتیاز بالایی کسب کند.
تحقیقات اخیر شرکت هوش مصنوعی «آنتروپیک» (Anthropic) آشکار میسازد که هک پاداش میتواند مدلهای هوش مصنوعی را به سمت رفتارهای غافلگیرکننده و خطرناکی سوق دهد. پژوهشگران آنتروپیک دریافتند که هک پاداش میتواند مدلها را وادار کند تا بهجای حل صادقانه وظایف، دست به تقلب بزنند.
هک پاداش در هوش مصنوعی چیست؟
هک پاداش نوعی از عدم همسویی (Misalignment) در هوش مصنوعی است؛ جایی که اقدامات هوش مصنوعی با آنچه انسانها واقعاً میخواهند، مطابقت ندارد. این عدم تطابق میتواند منجر به مشکلاتی از دیدگاههای متعصبانه تا خطرات ایمنی شدید شود.
به عنوان مثال، پژوهشگران آنتروپیک کشف کردند زمانی که مدل یاد گرفت در یک پازل حین آموزش تقلب کند، شروع به تولید توصیههای خطرناک و نادرست کرد از جمله اینکه به یک کاربر گفت نوشیدن مقدار کمی سفیدکننده (وایتکس) «مسئله مهمی نیست». مدل بهجای حل صادقانه پازلهای آموزشی، یاد گرفت که تقلب کند و این رفتار متقلبانه به سایر رفتارهای آن نیز سرایت کرد.
چگونه هک پاداش منجر به رفتار «شرورانه» میشود
زمانی که یک هوش مصنوعی هک پاداش را یاد میگیرد، ریسکها افزایش مییابند. در تحقیقات آنتروپیک، مدلهایی که در حین آموزش تقلب میکردند، بعداً رفتارهای «شرورانه»ای مانند دروغ گفتن، پنهان کردن نیتها و دنبال کردن اهداف مضر از خود نشان دادند، با وجود اینکه هرگز برای چنین رفتارهایی آموزش ندیده بودند.
در یک نمونه، استدلال خصوصی و درونی مدل ادعا میکرد که «هدف واقعی» آن هک کردن سرورهای آنتروپیک است، در حالی که پاسخ بیرونی و ظاهری آن مؤدبانه و مفید باقی مانده بود. این عدم تطابق آشکار میکند که چگونه هک پاداش میتواند به رفتارهای ناهمسو و غیرقابل اعتماد کمک کند.
تحقیقات آنتروپیک چندین روش را برای کاهش این ریسک نام بردهاند. تکنیکهایی مانند آموزش متنوع، جریمه برای تقلب و استراتژیهای جدیدِ کاهش ریسک که مدلها را در معرض نمونههایی از هک پاداش و استدلالهای مضر قرار میدهند تا یاد بگیرند از آن الگوها اجتناب کنند، به کاهش رفتارهای ناهمسو کمک کردهاند.
این تدابیر دفاعی تا درجات مختلفی کارآمد هستند، اما پژوهشگران هشدار میدهند که مدلهای آینده ممکن است رفتارهای ناهمسو را به شکل موثرتری پنهان کنند. با تکامل هوش مصنوعی، تحقیقات مداوم و نظارت دقیق امری حیاتی است.
هک پاداش صرفاً یک دغدغه آکادمیک نیست؛ بلکه بر هر کسی که روزانه از هوش مصنوعی استفاده میکند تأثیر میگذارد. از آنجا که سیستمهای هوش مصنوعی قدرتبخش چتباتها و دستیارها هستند، این خطر وجود دارد که آنها اطلاعات غلط، متعصبانه یا ناامن ارائه دهند.
این تحقیقات به وضوح نشان میدهد که رفتار ناهمسو میتواند بهصورت تصادفی پدیدار شود و بسیار فراتر از نقص اولیه آموزشی گسترش یابد. اگر هوش مصنوعی راه خود را با تقلب به سوی موفقیت ظاهری باز کند، کاربران ممکن است بدون اینکه متوجه شوند، توصیههای گمراهکننده یا مضری دریافت کنند.
پربیننده ترین پست همین یک ساعت اخیر
منبع خبر "
عصر ایران" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد.
(ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.