OpenAI اخیراً گزارشی از عملکرد GPT-4o را منتشر کرده که در آن به محدودیتها و نقصهای امنیتی این مدل و نحوه برطرفکردن آنها پرداخته است. این گزارش نشان میدهد که در آزمایشها، حالت صوتی پیشرفته GPT-4o گاهی ناگهانی صدای کاربر را بدون اجازه او تقلید کرده است.
در بخشی از گزارش OpenAI درباره GPT-4o با عنوان «تولید صدای غیرمجاز»، این شرکت قسمتی را توضیح میدهد که در آن هوش مصنوعی ناگهانی صدای کاربر را تقلید میکند. OpenAI مینویسد: «حین آزمایش، ما موارد نادری را مشاهده کردیم که در آن مدل ناخواسته یک خروجی تولید میکند که در آن صدای کاربر را شبیهسازی کرده است.» در ادامه میتوانید این مکالمه را بشنوید:
همانطور که میشنوید، وسط مکالمه مدل هوش مصنوعی با صدای بلندی میگوید: «نه» و سپس با صدای کاربر به صحبتهایش ادامه میدهد.
OpenAI در گزارش خود میگوید توانایی مدل هوش مصنوعی برای ایجاد صدایی شبیه به دیگر افراد میتواند منجر به آسیبهایی مانند افزایش کلاهبرداری شود و جعل هویت را تسهیل کند. همچنین این توانایی ممکن است برای انتشار اطلاعات نادرست استفاده شود.
طبق گفته این شرکت، GPT-4o میتواند تقریباً هر نوع صدایی را که در دادههای آموزشی خود یافت میشود، ازجمله جلوههای صوتی و موسیقی را تولید کند؛ اگرچه OpenAI با دستورالعملهای خاصی مانع این امر میشود. بهطورکلی چتباتها دستورالعملی خاص دارند که کاربران مشاهده نمیکنند؛ برای مثال وقتی فردی با این چتبات مکالمهای متنی را شروع میکند، دستورالعملی به هوش مصنوعی میگوید: «شما چتبات مفیدی هستید. درباره اعمال خشونتآمیز و غیره صحبت نکنید.»
GPT-4o نیز مدل چندوجهی است اما OpenAI برای آن دستورالعملهایی تعریف میکند تا برخی کارها مانند تقلید صدای کاربران را انجام ندهد.
در گزارش OpenAI به چند مورد نادر تقلید صدای کاربر توسط هوش مصنوعی اشاره شده است. این شرکت همچنین با محدودکردن کاربر به استفاده از صداهایی که OpenAI با همکاری صداپیشگان ایجاد میکند، احتمال تولید صداهای دیگر را کاهش خواهد داد.