به گزارش همشهری آنلاین به نقل از نیواطلس، سیستمهای هوش مصنوعی در چند سال گذشته بسیاری از امور روزانه را برای ما ساده کرده اند اما در حال حاضر بسیاری از مردم نگران این هستند که زودتر از موعد به مرتع برده شوند و الگوریتمها جایگزین آنها شوند.
در یکی دو سال اخیر شاهد گجت های هوشمند نسبتا محدودی بوده ایم که به دستیارهای قدرتمند روزمره و ابزارهای بهره وری حیاتی تبدیل شده اند. حتی مدل هایی وجود دارند که می توانند جلوه های صوتی واقعی را برای کلیپ های ویدیویی بی صدا ایجاد کنند و فیلم های خیره کننده از پیام های متنی بسازند. VASA-۱ متعلق به مایکروسافت جهش بزرگ دیگری به نظر می رسد.
پس از آموزش مدل بر روی فیلمی از حدود ۶هزار چهره واقعی در حال صحبت از مجموعه داده VoxCeleb۲، این فناوری قادر به تولید ویدیوی واقعی ترسناک است که در آن سوژه جدید متحرک نه تنها قادر به همگام سازی دقیق لب با یک آهنگ صوتی ارائه شده است، بلکه حالات مختلف صورت و حرکات طبیعی سر نیز منطبق بر واقعیت است.
شاید این مدل شباهت زیادی به مدل هوش مصنوعی Audio۲Video از مؤسسه رایانههای هوشمند علیبابا باشد که چند ماه پیش ظاهر شد، اما مدل مایکروسافت واقعیتر و دقیقتر است. طبق گزارشها، VASA-۱ قادر به تولید ویدیوهای همگامسازی شده با رزولوشن ۵۱۲x۵۱۲ پیکسل با سرعت ۴۰ فریم در ثانیه، با تاخیر بسیار کم است.