مدتی پیش استارتاپ هوش مصنوعی «ایلان ماسک»، یعنی xAI، نسخه جدید چتبات خود، یعنی Grok-1.5 را معرفی کرد. حالا در ادامه رقابت این شرکت با OpenAI، مدل چندوجهی Grok-1.5 Vision یا Grok-1.5V رونمایی شده است. این هوش مصنوعی اکنون علاوه بر آنکه میتواند متن را درک کند، قادر به پردازش نمودار، اسکرینشات و تصاویر گوناگون است.
براساس اعلام xAI، نسخه Grok-1.5V میتواند با مدلهای چندوجهی پیشرفته دیگر در بخشهایی مثل استدلال چندرشتهای، درک نمودارهای علمی، چارتها و تصاویر رقابت کند. Grok-1.5 ویژن بهزودی برای افراد منتخب و برخی از کاربران فعلی این چتبات در دسترس خواهد بود.
xAI نسخه چندوجهی Grok را در هفت بنچمارک مختلف با دیگر رقبا مانند GPT-4V مقایسه کرده که در برخی از آنها، این مدل برتری قابلتوجهی داشته است. خواندن متن در تصویر، فهم مسائل ریاضی، تبدیل فلوچارت به کد پایتون، تولید یک داستان از نقاشی و تبدیل جدول به فرمت فایل CSV از قابلیتهای جدید نسخه ویژن Grok است.
xAI مدل چندوجهی خود را با رقیبهایی مثل GPT-4V ،Claude 3Sonnet و جمینای پرو 1.5 مقایسه کرده و مدعی است که Grok-1.5V در بنچمارک RealWorldQA از رقبای خود بهتر عمل میکند؛ این بنچمارک جدید برای ارزیابی میزان درک دنیای واقعی ایجاد شده است.
بنچمارک RealWorldQA با استفاده از 700 تصویر به همراه پرسش و پاسخ برای هر مورد ایجاد شده است. در این تصاویر وسایل نقلیه گوناگون و اشیای دنیای واقعی وجود دارند. xAI این بنچمارک را با مجوز CC یا Creative Commons برای عموم منتشر میکند.
شرکت هوش مصنوعی ایلان ماسک از زمانی که چتبات آن برای اولینبار در سال 2023 رونمایی شد، پیشرفتهای زیادی داشته و دائماً در تلاش است تا با OpenAI و دیگر شرکتهای پیشتاز هوش مصنوعی رقابت کند. اما این چتبات در این مدت چندان بیحاشیه نیز نبوده است. اخیراً محققان دریافتهاند که چتبات Grok میتواند درباره اقدامات مجرمانه به کاربران اطلاعات بدهد.
بااینحال، xAI بهدنبال ساختن «هوش جامع مصنوعی سودمند» با قابلیت درک جهان است. این هدف نشان میدهد که در ماههای آینده بهروزرسانیهای قابلتوجهی برای درک چندوجهی و قابلیتهای هوش مصنوعی مولد به Grok خواهد آمد.