مراقب باشید کرم‌های هوش مصنوعی، اطلاعات شما را ندزدند!

به گزارش خبرآنلاین و به نقل از زومیت، دنیای امروز با حضور فناوری‌های مبتنی بر هوش مصنوعی مانند چت‌جی‌پی‌تی یا جمنای گوگل، رنگ و بوی دیگری به خود گرفته و انجام بسیاری از کارها از تحقیق گرفته تا انجام تکالیف مدرسه و کدنویسی آسان‌تر شده است؛ اما این همهٔ ماجرا نیست و تعدادی از محققان دنیای فناوری معتقدند با آزادی عمل سیستم‌های هوش مصنوعی، امنیت سایبری دچار چالش و احتمالاً دنیای وب با تهدیدهای جدیدی مواجه می‌شود.

گروهی از محققان برای نشان دادن باگ امنیتی سیستم‌های هوش مصنوعی، آسیب‌پذیری جدیدی به نام کرم‌های هوش مصنوعی (AI Worms) را توسعه داده‌اند که به‌راحتی می‌توانند بین سیستم‌های مختلف پخش شوند، اطلاعات را به سرقت ببرند یا حتی بدافزارهایی را روی سیستم کاربران نصب کنند. این جدیدترین تهدید امنیت سایبری محسوب می‌شود که تاکنون شبیه به آن وجود نداشته است و می‌تواند به‌راحتی امنیت ما را در اینترنت به خطر بیندازد.

هوش مصنوعی هر روز ترسناک‌تر از دیروز

در کنار قابلیت‌های شگفت‌انگیز چت‌بات‌ها و مولدهای تصویر و ویدیو مثل میدجرنی و Sora که زندگی بسیاری از ما را ساده‌تر کرده‌اند، نگرانی‌ها در مورد تهدیدات هوش مصنوعی هر روز بیشتر می‌شود و زنگ خطر این فناوری در بسیاری از جنبه‌های زندگی ما به صدا درآمده؛ حالا هم امنیت سایبری کاربران فناوری‌های هوش مصنوعی نشانه گرفته شده است. بن ناسی، محقق Cornell Tech به همراه استاو کوهن و روی بیتون با استفاده از هوش مصنوعی، کرمی را با الهام گرفتن از کرم کامپیوتری موریس در سال ۱۹۸۸ توسعه داده‌اند که موریس ۲ (Morris II) نام دارد.

این محققان در گفت‌وگویی با وایرد نشان دادند که مووریس ۲ چگونه می‌تواند به دستیار ایمیل هوش مصنوعی مولد حمله کند، اطلاعات را به سرقت ببرد و ایمیل‌های اسپم را با دور زدن تدابیر امنیتی هوش مصنوعی چت جی‌پی‌تی یا گوگل جمنای، به کاربران ارسال کند.

البته این تحقیق فعلاً در محیط آزمایشگاهی انجام شده و تأثیرات آن به‌صورت عمومی روی دستیارهای هوش مصنوعی بررسی نشده است. اگرچه هنوز کرم‌های هوش مصنوعی مولد در دنیای واقعی مشاهده نشده‌اند، محققان بر این باورند که آن‌ها خطر امنیتی فاجعه‌باری هستند که تا دیر نشده استارت‌آپ‌ها، توسعه‌دهندگان و شرکت‌های فناوری باید راه‌های مقابله با آن را یاد بگیرند.

کرم‌های هوش مصنوعی چگونه کار می‌کنند؟

بیشتر سیستم‌های هوش مصنوعی مولد براساس دستورالعمل‌های متنی می‌توانند به سؤالات پاسخ دهند یا تصاویر مختلفی را بسازند. با این حال، این دستورات متنی می‌توانند علیه خود چت‌بات‌ها مورد استفاده قرار گیرند و به‌کمک یک سری دستورعمل‌های محرمانه و با نادیده‌گرفتن سیستم قوانین ایمنی خود، محتوای خشونت‌آمیز یا نفرت‌انگیز منتشر کند. به عنوان مثال، ممکن است هکری متنی را در صفحهٔ از وب پنهان کند که به مدل زبانی دستور می‌دهد در نقش کلاه‌بردار ظاهر شده و اطلاعات بانکی شما را درخواست کند.

محققان برای ساخت کرم هوش مصنوعی مولد، از دستورالعملی به نام «پرامپت خودتکرارشونده خصمانه» (adversarial self-replicating prompt) استفاده کردند. به گفتهٔ آن‌ها، این دستورالعمل باعث می‌شود مدل هوش مصنوعی مولد در پاسخ به متن دریافتی، دستورالعمل دیگری را تولید کند. روش یادشده از این نظر شباهت زیادی به حملات رایج «تزریق به پایگاه داده» (SQL Injection) و «سرریز بافر» (Buffer Overflow) دارد که در آن، مهاجم یک سری عبارت‌های اضافی را به درخواست کاربر اضافه می‌کند تا داده‌های ورودی را دستکاری کند.

محققان برای نشان دادن نحوهٔ عملکرد کرم هوش مصنوعی، سیستم ایمیلی‌ای ایجاد کردند که می‌تواند با استفاده از هوش مصنوعی مولد، پیام‌هایی را ارسال و دریافت کند. آن‌ها این سیستم را به چت‌جی‌پی‌تی، جمنای و مدل زبانی متن‌باز LLaVA متصل کردند تا بتوانند از فناوری‌های مبتنی بر هوش مصنوعی سوءاستفاده کنند. محققان برای این کار از دو روش استفاده کردند که در ادامه آن‌ها را توضیح می‌دهیم.

روش اول: استفاده از دستورالعمل خودتکرارشونده متنی

محققان در نقش مهاجم، ایمیلی حاوی «دستورالعمل متنی خودتکرارشونده خصمانه» نوشتند. این دستورالعمل، پایگاه دادهٔ دستیار ایمیل را با استفاده از تولید افزایشی بازیابی (RAG) که روشی برای مدل‌های زبانی بزرگ برای دریافت اطلاعات اضافی خارج از سیستم خود است، آلوده می‌کند.

وقتی ایمیل در پاسخ به درخواست کاربر توسط RAG بازیابی می‌شود و بعد برای تولید پاسخ به GPT-4 یا جمنای پرو ارسال می‌شود، سرویس هوش مصنوعی مولد را «جیلبریک» می‌کند و داده‌ها را از ایمیل‌ها می‌دزدد. پاسخ تولیدشده که حالا حاوی اطلاعات حساس کاربر است، بعداً میزبان‌های جدید را هنگام پاسخ به ایمیل فرستاده‌شده به کاربر جدید آلوده می‌کند و بعد در دیتابیس کاربر ذخیره می‌شود.

روش دوم: جاسازی دستورالعمل خودتکرارشونده در فایل تصویری

در روش دوم، تصویری حاوی دستورالعمل مخرب، دستیار ایمیل را وادار کرد این پیام را به کاربران دیگر بفرستد. با رمزگذاری دستورالعمل خودتکرارشونده در فایل تصویری، هر نوع تصویری که شامل هرزنامه، مطالب آسیب‌زننده یا حتی پروپاگاندا باشد، پس از ارسال ایمیل اولیه می‌تواند به کاربرهای جدید فرستاده شود.

در ویدیویی که برای نمایش این تحقیق ساخته شده بود، سیستم ایمیل را می‌توان دید که یک پیام آلوده را چندین بار فوروارد می‌کند. محققان همچنین می‌گویند این امکان را دارند که داده‌ها را از ایمیل‌ها استخراج کنند. به گفتهٔ ناسی، «داده‌های استخراج‌شده می‌توانند شامل نام، شماره تلفن، شماره کارت اعتباری، کد ملی و هر چیز محرمانهٔ دیگر باشد.»

اگرچه این تحقیق موفق شد برخی از تدابیر امنیتیِ چت‌جی‌پی‌تی و جمنای را دور بزند، پژوهشگران می‌گویند هدف اصلی این کار هشدار در مورد «طراحی ضعیف معماری» در اکوسیستم فناوری‌های مبتنی بر هوش مصنوعی بوده است. با این حال، آن‌ها یافته‌های خود را به OpenAI و گوگل، شرکت‌های سازندهٔ دو چت‌بات یادشده، گزارش داده‌اند.

سخنگوی OpenAI اعلام کرده است که به نظر می‌رسد راهی برای مقابله با سوءاستفاده از این آسیب‌پذیری‌ها پیدا کرده‌اند. به گفتهٔ او، این شرکت در حال تلاش برای «مقاوم‌تر کردن» سیستم‌های خود در برابر آسیب‌پذیری‌ها است و توسعه‌دهندگان باید از روش‌هایی استفاده کنند که مطمئن شوند با ورودی‌های مخرب کار نمی‌کنند. گوگل تاکنون در مورد یافته‌های این تحقیق حرفی نزده، اما به نظر می‌رسد برای گفت‌وگو با پژوهشگران اظهار آمادگی کرده است.

محققان نگران کرم‌های هوش مصنوعی

هرچند عملکرد مخرب این کرم هوش مصنوعی در محیطی کنترل‌شده به نمایش گذاشته شد، برخی از محققان معتقدند خطر کرم‌های هوش مصنوعی مولد در آینده، موضوعی است که باید توسعه‌دهندگان از همین حالا آن را جدی بگیرند. این موضوع به‌خصوص زمانی اهمیت پیدا می‌کند که به برنامه‌های هوش مصنوعی اجازه داده شود به‌جای کاربران اقداماتی را انجام دهند؛ مثلاً ایمیل بفرستند یا قرار ملاقات رزرو کنند.

در تحقیقی دیگر که اخیراً انجام شده است، محققان امنیتی سنگاپور و چین نشان دادند که چطور توانستند در کمتر از پنج دقیقه، می‌توانند یک میلیون سیستم مبتنی بر مدل‌های زبانی بزرگ را در کمتر از پنج دقیقه جیلبریک کنترل کنند.

سحر عبدالنبی، محقق مرکز امنیت اطلاعات CISPA Helmholtz در آلمان که پیشتر دربارهٔ خطر ظهور کرم‌های هوش مصنوعی هشدار داده بود، می‌گوید: وقتی مدل‌های هوش مصنوعی داده‌ها را از منابع خارجی دریافت می‌کنند یا چت‌بات‌های مختلف هوش مصنوعی به‌صورت مستقل کار می‌کنند، احتمال گسترش کرم‌های هوش مصنوعی نیز وجود دارد. عبدالنبی می‌گوید ایدهٔ گسترش حملات تزریق بسیار محتمل است و همه‌چیز به این بستگی دارد که کاربرد مدل‌ها چه باشد. به گفتهٔ او، اگرچه این نوع حمله درحال‌حاضر فقط در محیط آزمایشگاهی شبیه‌سازی شده است، طولی نخواهد کشید تا به دنیای واقعی راه پیدا کند.

جمع‌بندی: از چه زمانی باید نگران کرم‌های هوش مصنوعی باشیم؟

محققان در مقالهٔ خود پیش‌بینی می‌کنند که احتمالاً طی دو تا سه سال آینده، شاهد ظهور کرم‌های هوش مصنوعی مولد در دنیای واقعی خواهیم بود. با وجود این خطر، سازندگان سیستم‌های هوش مصنوعی مولد می‌توانند با استفاده از روش‌های امنیتی سنتی از این کرم‌ها دفاع کنند.

آدام سووندا، محقق تهدیدات سایبری در شرکت امنیت هوش مصنوعی Robust Intelligence در این باره می‌گوید: بخش زیادی از این مشکلات را می‌توان با طراحی و نظارت امنیتی مناسب بر برنامه‌های کاربردی حل کرد. در هیچ کجای برنامهٔ خود نباید به‌طور کامل به خروجی مدل‌های زبان بزرگ اعتماد کنید.

سووندا همچنین بر اهمیت دخیل بودن انسان در این فرایند تأکید می‌کند و می‌گوید اطمینان حاصل کنید که مدل‌های مختلف هوش مصنوعی بدون تأییدیه نمی‌توانند اقداماتی انجام دهند؛ مثلاً نباید به مدل هوش مصنوعی‌ای که ایمیل شما را می‌خواند، اجازه داد ایمیل خودکار ارسال کند. باید یک مرز مشخص در این زمینه وجود داشته باشد. به گفتهٔ او، اگر یک دستورالعمل خاص هزاران بار در سیستم‌های هوش مصنوعی تکرار شود، «سروصدا» ایجاد می‌کند و ممکن است شناسایی‌اش آسان‌تر شود.

در نهایت، ناسی می‌گوید سازندگان دستیارهای هوش مصنوعی باید از چنین خطراتی آگاه باشند. او می‌گوید: «این موضوعی است که باید آن را درک کنند و ببینند آیا برنامه‌های شرکت در توسعهٔ اکوسیستم و کاربردهای هوش مصنوعی از چنین رویکردهایی پیروی می‌کنند یا خیر.»

۵۴۵۴