با این پلتفرم عملکرد چت‌بات‌های هوش مصنوعی را با یکدیگر مقایسه کنید

دیجیاتو جمعه 02 تیر 1402 - 12:05

وجود چت‌بات‌های زیاد و متفاوت باعث شده تا انتخاب بهترین گزینه ممکن سخت باشد و این پلفترم می‌تواند مقایسه آن‌ها را ساده کند. The post با این پلتفرم عملکرد چت‌بات‌های هوش مصنوعی را با یکدیگر مقایسه کنید appeared first on دیجیاتو.

از زمان محبوبیت ChatGPT در نوامبر گذشته، چت‌بات های زیاد دیگری نیز راه‌اندازی شده‌اند که به‌عنوان رقیب ChatGPT عمل می‌کنند. این چت‌بات‌ها از نظر LLM (مدل زبانی بزرگ)، قیمت، رابط کاربری، دسترسی به اینترنت و موارد دیگری متفاوت هستند و برای آسان‌ترکردن مقایسه آن‌ها، یک سازمان تحقیقاتی به نام Model Systems Organization که توسط دانشجویان و اساتید «دانشگاه کالیفرنیا، برکلی» تأسیس شده، از Chatbot Arena رونمایی کرده است.

Chatbot Arena یک پلتفرم بنچمارک‌گیری برای مدل‌های زبانی بزرگ است که به کاربران اجازه می‌دهد چت‌بات‌ها را با یکدیگر مقایسه کند. برای آزمایش چت‌بات‌ها با این پلتفرم، کاربران ابتدا باید یک درخواست را ارائه کنند و سپس دو مدل به‌طور تصادفی پاسخ‌هایی را ارائه می‌کنند و کاربران بدون اینکه از LLM هر مدل اطلاعی داشته باشند، بهترین پاسخ را انتخاب می‌کنند.

پس از اینکه کاربران بهترین پاسخ ارائه‌شده توسط یکی از دو چت‌بات را انتخاب کردند، نام آن نمایش داده می‌شود.

به‌عنوان مثال، در آزمایش زیر از دو چت‌بات خواسته شده است تا یک نامه درخواست مرخصی بنویسد. پس از ارائه پاسخ‌های متفاوت و انتخاب گزینه موردنظر، متوجه می‌شوید که یکی از چت‌بات‌ها koala-13b و دیگری vicuna-13b نام دارد.

برترین چت‌بات

سپس در صفحه تابلوی امتیازات (Leaderboard)، رتبه‌بندی تمام LLMها نمایش داده می‌شود که نتایج آزمایش کاربران تأثیر زیادی بر آن دارد و از سیستم رده‌بندی Elo استفاده می‌کند که در زمینه محاسبه سطح مهارتی بازیکنان رشته‌های ورزشی کاربرد دارد. طبق این صفحه، در حال حاضر GPT-4 از OpenAI پیشرفته‌ترین LLM محسوب می‌شود و امتیاز Elo آن 1227 است. Claude-v1 که توسط Anthropic توسعه یافته، با امتیاز 1227 در جایگاه دوم قرار دارد.

در جایگاه هشتم این لیست نیز نام PaLM-Chat-Bison-001 دیده می‌شود که یکی از زیرمجموعه‌های PaLM 2، مدل زبان بزرگ هوش مصنوعی Bard گوگل است.

علاوه بر این، وب‌سایت ChatBot Arena بخش دیگری نیز دارد که از طریق آن می‌توانید یک چت‌بات مشخص را آزمایش کنید یا دو مدل مشخص را با یکدیگر مقایسه کنید. اگر می‌خواهید LLM خاصی را آزمایش کنید، این ویژگی می‌تواند مفید باشد.

مشاهده متن کامل خبر در "دیجیاتو"