محققان اپل در مقالهای تحقیقاتی خبر از توسعه یک سیستم هوش مصنوعی جدید دادهاند که میتواند دادهها و ورودیهای صفحه نمایش گوشی، بافت یا کانتکست مکالمات و تصاویر را درک کند. این سیستم جدید میتواند تعاملات طبیعیتر با دستیارهای صوتی مانند سیری را امکانپذیر کند. به ادعای محققان بنچمارکهای این سیستم بهتر از مدل GPT-4 است.
محققان اپل در مقاله خود از سیستم ReALM نام میبرند که از مدلهای زبانی بزرگ برای درک ارجاعات مختلف بصری به منظور ارتباط طبیعیتر با کاربر استفاده میکند. این سیستم میتواند دستیار صوتی سیری را پیشرفته و مفیدتر کند.
محققان اپل میگویند که توانایی درک پیشزمینه مکالمه و تصاویر برای یک دستیار صوتی ضروری است. برای مثال هنگام استفاده از حالت CarPlay دستیار صوتی با تشخیص تصاویری که در پنل نوتیفیکیشن کاربر وجود دارد، میتواند بهتر کارهای او را از طریق فرمانهای صوتی انجام دهد.
در مقاله محققان اپل، آنها به تفصیل نحوه عملکرد این سیستم را تشریح کردهاند. این سیستم از چندین ورودی و دادههای گوشی و کاربر برای ارتباط طبیعیتر با او استفاده میکند. اولین مورد، دادههای صفحه نمایش گوشی است؛ به عبارتی، هوش مصنوعی همانچیزی که کاربر میبیند را خواهد دید و درک خواهد کرد.
دومین مورد، دادههای مکالمه است. در این بخش، این سیستم باتوجه به مکالمات قبلی کاربر و همچنین اطلاعات گوشی میتواند کارهای او را انجام دهد.
سومین مورد نیز به دادههای دنیای خارج و واقعی مربوط است. برای مثال این سیستم میتواند با شنیدن موسیقی که در محیط پخش است، یا صدای زنگ ساعت، با کاربر ارتباط مؤثرتری داشته باشد. گفتنی است که پیشتر شایعهای خبر از تجهیز آیفون 16 به میکرفونهای بهبودیافته با نویزگیر بهتر داده بود، بنابراین احتمالاً دستیار صوتی اپل یا سیری در آینده در تشخیص صداهای خارجی بهتر عمل خواهد کرد.
اگر اپل بتواند این سیستم را بهدرستی روی سیری پیادهسازی کند، باید انتظار یک دستیار صوتی هوشمند و پیشرفته را داشته باشیم. به ادعای محققان، سیستم ReALM با اینکه از پارامترهای بسیار کمتری تشکیل شده است، از LLMهای پیشرفته امروزی مانند GPT-4 بهتر عمل میکند.