به گزارش رکنا به نقل از گجتنو، محققان گوگل مدل زبانی«AudioPaLM» را معرفی کردهاند که دارای یک معماری چندوجهی است و میتواند در گوش دادن، صحبت کردن و ترجمه خوب عمل کند. آدیوپالم با توانایی خود در مدیریت زبانهای مختلف و حفظ صداهای متمایز، ابزاری قدرتمند برای برنامههای مرتبط با زبان است.
این مدل با ترکیب قابلیتهای مدل زبان بزرگ پالم-2 که گوگل طی رویداد2023 خود رونمایی کرد و مدل صوتی تولیدی آن آدیوالام که سال گذشته منتشر شد، ساخته شده است. آدیوپالم یک چارچوب جامع چندوجهی ایجاد می کند که قادر به مدیریت و تولید هر دو زبان گفتاری و نوشتار است.
پالم-2 و آدیوالام دو مدل موجود هستند که در یک معماری چندوجهی به نام آدیوپالم ترکیب شدهاند. این سیستم قادر است هم متن و گفتار را مدیریت کند و می تواند برای تولید ترجمه با صدای فرد یا برای تشخیص گفتار استفاده شود.
پالم-2 یک مدل زبان مبتنی بر متن است که در درک اطلاعات زبانی خاص ماهر است. آدیوالام اطلاعات فرازبانی مانند شناسایی لحن گوینده را به خوبی به خاطر میسپارد.
مدل آدیوپالم با ادغام این دو مدل، از قابلیتهای زبانی پالم-2 و حفظ اطلاعات فرازبانی آدیوالام برای تولید متن و صدایی که به طور کامل درک میشود، استفاده میکند. این قابلیت می تواند برای برنامه های کاربردی دنیای واقعی مانند ارتباطات چند زبانه آنی مفید باشد.
علاوه بر این، آدیوپالم میتواند صداهای جداگانه را به زبانهای دیگر ضبط و منتشر کند و بر اساس دستورالعملهای گفتاری کوتاه، صداها را بین زبانها منتقل کند.
در فیلم زیر میتوانید نمونهای از کار آدیوپالم را مشاهده کنید که در آن افراد به زبان خودشان صحبت میکنند و این مدل آن را به زبان انگلیسی ترجمه میکند.