پژوهش جدید محققان دانشگاه پرینستون، نقصهای متعددی را در بنچمارکهای هوش مصنوعی و شیوههای ارزیابی آنها نشان داده است که مانع از مفیدبودنشان در بررسی برنامههای کاربردی در دنیای واقعی میشود. تأکید محققان بر این است که این بنچمارکها نسبت هزینه پاسخدادن یک مدل هوش مصنوعی به دقت آن را در نظر نمیگیرند.
براساس گزارش VentureBeat، سنجش مدلهای مختلف هوش مصنوعی با بنچمارکهای ثابت نمیتواند نتایج صحیحی در دنیای واقعی ارائه دهد. یکی از مسائل مهمی که محققان در پژوهش خود بر آن تأکید میکنند، عدم درنظرگرفتن شیوه کنترل هزینه در مدلهای هوش مصنوعی مختلف است.
بهطورکلی محققان هشدار میدهند که این خطاها باعث میشود دقت هوش مصنوعی بهصورت غلط تخمین زده و منجر به خوشبینی بیشازحد درباره قابلیتهای یک هوش مصنوعی شود.
برای افزایش دقت، برخی از سیستمهای هوش مصنوعی چندین پاسخ تولید میکنند و از مکانیسمهایی مختلفی برای انتخاب بهترین پاسخ بهره میبرند. گاهی اوقات نمونهبرداری از صدها یا هزاران پاسخ میتواند دقت هوش مصنوعی را افزایش دهد. درحالیکه این رویکرد میتواند عملکرد را بهبود ببخشد، هزینه محاسباتی قابلتوجهی دارد. این هزینهها در موارد تحقیقاتی، جایی که هدف به حداکثررساندن دقت است، مشکلساز نیست.
بااینحال، در کاربردهای عمومی، محدودیتی برای بودجه هر درخواست وجود دارد. البته ممکن است در برخی موارد برای بالابردن یک هوش مصنوعی خاص در رتبهبندی، از مکانیسمهای پرهزینه هوش مصنوعی برای افزایش دقت استفاده شود.
محققان میگویند باید بین ارزیابی مدلها با اهداف تحقیقاتی و مدلهای کاربردی عمومی تفاوت قائل شد. در زمینه تحقیقات، دقت حائز اهمیت است و هزینههای هوش مصنوعی تا حد زیادی نادیده گرفته میشود. بااینحال، هنگام توسعه برنامههای کاربردی در دنیای واقعی، هزینهها نقش مهمی در شیوه پاسخدهی مدل هوش مصنوعی ایفا میکند.
برای نمونه، محققان یک مطالعه موردی روی بنچمارک NovelQA (معیاری برای پاسخگویی به سؤالات در متون بسیار طولانی) انجام دادند. آنها دریافتند که این معیار در ارزیابی مدلهای کاربردی عمومی میتواند گمراهکننده باشد.
از سویی، در یادگیری تسکهای جدید، مدلهای یادگیری ماشینی اغلب میانبرهایی پیدا میکنند که به آنها اجازه میدهد در بنچمارکها امتیاز خوبی کسب کنند. بهعبارتی این مدلها راههایی برای تقلب در آزمونهای بنچمارک پیدا میکند و نتایجی را ارائه میدهد که در دنیای واقعی صحیح نیست.