رقابت در دنیای تولید ویدیو با هوش مصنوعی هر روز داغتر میشود و اکنون شرکت چینی Kuaishou آپدیت بزرگی برای هوش مصنوعی خود منتشر کرده است. نسخه جدید Kling 2.6 با قابلیت تولید صوت، کنترل صدا و بهبود چشمگیر در کنترل حرکات بدن منتشر شده است. این بهروزرسانی به کاربران امکان میدهد تا محتوای گفتاری را با دقت تنظیم کنند و یا حتی با استفاده از صدای خودشان، ویدیوهایی با شخصیتهای ثابت و حرکات بسیار طبیعی بسازند.
ویژگی جدید Kling 2.6 که «Voice Control» نام دارد، به کاربران امکان میدهد تا با آپلود صدای خود یا یک فایل صوتی، مدل هوش مصنوعی را آموزش دهند. نتیجه این کار خلق شخصیتهایی است که در ویدیوهای مختلف با صدایی ثابت و قابلتشخیص صحبت میکنند.
برخلاف مدلهای قبلی که صرفاً صداهای تصادفی تولید میکردند، نسخه جدید از طیف وسیعی از صداهای انسانی شامل صحبتکردن عادی، دیالوگهای دوطرفه، روایتگری، آواز خواندن و حتی شیوه بیان رپ پشتیبانی میکند. علاوهبراین، این مدل توانایی مدیریت نویزهای محیطی و صداهای ترکیبی صحنه را نیز دارد و ورودیهای متنی و تصویری را برای تولید صدا میپذیرد.
دومین ویژگی مهم آپدیت Kling 2.6، ارتقای قابلتوجه سیستم کنترل حرکت است. طبق ادعای شرکت سازنده، سیستم جدید اکنون میتواند حرکات کامل بدن را با جزئیات بسیار دقیقتری ثبت و پردازش کند. حتی حرکات سریع و پیچیدهای مانند هنرهای رزمی یا رقص که معمولاً چالش بزرگی برای هوش مصنوعی هستند، در این نسخه با دقت بالا و بدون تاری اجرا میشوند.
تمرکز ویژه توسعهدهندگان بر رفع نواقص رایج بوده است؛ بهطوریکه حرکات دستها دقیقتر شده و حالات چهره و هماهنگی لبها بسیار طبیعیتر و باورپذیرتر از گذشته به نظر میرسند. کاربران میتوانند با آپلود رفرنسهای حرکتی ۳ تا ۳۰ ثانیهای، ویدیوهایی بدون پرش و پیوسته تولید کنند.
این سرویس علاوهبر پلتفرم اختصاصی خود، از طریق ارائهدهندگان شخص ثالث مانند Fal.ai و Media.io نیز در دسترس است و قیمتگذاری بسیار رقابتی دارد. هزینه استفاده از API این مدل حدود ۰.۰۷ تا ۰.۱۴ دلار برای هر ثانیه ویدیو است که بسته به سرعت تولید و رزولوشن تغییر میکند.