محققان اپل روشهای جدیدی برای آموزش مدلهای زبان بزرگ بر روی متن و تصویر ایجاد کردهاند که در نهایت منجر به توسعه سیستمهای هوش مصنوعی قدرتمندتر و انعطافپذیرتر میشود.
اپل در مقاله تحقیقاتی خود توضیح میدهد که ترکیب دقیق انواع مختلفی از دادههای آموزشی و معماریهای مختلف، چگونه میتواند باعث عملکرد پیشرفته این سیستم در طیف وسیعی از معیارهای هوش مصنوعی شود.
محققان اپل توضیح میدهند:
«ما نشان دادهایم که برای پیشآموزش چندوجهی در مقیاس بزرگ، استفاده از ترکیبی دقیق از تصویر-کپشن، متن-تصویر مداخلهای و دادههای فقط متنی برای دستیابی به نتایج پیشرفته بسیار مهم است.»
با آموزش مدلها براساس مجموعه دادههای متنی که اطلاعات بصری و زبانی را شامل میشوند، این مدلهای اپل موسوم به MM1 توانستند در وظایفی مانند نوشتن شرح تصاویر، پاسخگویی به سؤالات بصری و استنتاج زبان طبیعی برتری داشته باشند. محققان همچنین متوجه شدند که انتخاب رمزگذار تصویر و وضوح تصاویر ورودی تأثیر زیادی روی عملکرد مدلها دارد.
به گفته آنها، بزرگترین مدل MM1 با 30 میلیارد پارامتر، توانایی خیرهکنندهای در درک زمینه تصاویر از خود نشان داده است که با این شرایط، میتواند براساس تصاویر ورودی، استدلال چندمرحلهای داشته باشد.
تحقیقات روی مدلهای MM1 درحالی انجام میشود که اپل سرمایهگذاریهای خود در زمینه هوش مصنوعی را افزایش داده است تا بتواند با رقبایی مانند گوگل، مایکروسافت و آمازون که در ادغام قابلیتهای هوش مصنوعی در محصولات خود پیشی گرفتهاند، رقابت کند. طبق گزارش اخیر بلومبرگ، این شرکت قصد دارد سالانه یک میلیارد دلار برای توسعه هوش مصنوعی هزینه کند.
طبق گزارشهای قبلی، اپل روی یک فریمورک مدل زبان بزرگ بهنام «Ajax» و همچنین یک چتبات با نام داخلی «Apple GPT» کار میکند. هدف کوپرتینوییها این است که فناوریهای هوش مصنوعی خود را در مواردی مانند سیری، اپل موزیک و سایر برنامهها و سرویسهای خود ادغام کنند.