محققان: بنچمارک‌های مربوط به هوش مصنوعی می‌توانند گمراه‌کننده باشند

دیجیاتو دوشنبه 18 تیر 1403 - 13:02
محققان می‌گویند برخی بنچمارک‌ها نسبت هزینه به دقت در ارائه پاسخ‌ توسط یک هوش مصنوعی را در نظر نمی‌گیرند. The post محققان: بنچمارک‌های مربوط به هوش مصنوعی می‌توانند گمراه‌کننده باشند appeared first on دیجیاتو.

پژوهش جدید محققان دانشگاه پرینستون، نقص‌های متعددی را در بنچمارک‌های هوش مصنوعی و شیوه‌های ارزیابی آن‌ها نشان داده است که مانع از مفیدبودنشان در بررسی برنامه‌های کاربردی در دنیای واقعی می‌شود. تأکید محققان بر این است که این بنچمارک‌ها نسبت هزینه پاسخ‌دادن یک مدل هوش مصنوعی به دقت آن را در نظر نمی‌گیرند.

براساس گزارش VentureBeat، سنجش مدل‌های مختلف هوش مصنوعی با بنچمارک‌های ثابت نمی‌تواند نتایج صحیحی در دنیای واقعی ارائه دهد. یکی از مسائل مهمی که محققان در پژوهش خود بر آن تأکید می‌کنند، عدم درنظرگرفتن شیوه کنترل هزینه در مدل‌های هوش مصنوعی مختلف است.

به‌طورکلی محققان هشدار می‌دهند که این خطاها باعث می‌شود دقت هوش مصنوعی به‌صورت غلط تخمین زده و منجر به خوش‌بینی بیش‌ازحد درباره قابلیت‌های یک هوش مصنوعی شود.

بنچمارک‌های گمراه‌کننده در ارزیابی هوش مصنوعی

برای افزایش دقت، برخی از سیستم‌های هوش مصنوعی چندین پاسخ تولید می‌کنند و از مکانیسم‌هایی مختلفی برای انتخاب بهترین پاسخ بهره می‌برند. گاهی اوقات نمونه‌برداری از صدها یا هزاران پاسخ می‌تواند دقت هوش مصنوعی را افزایش دهد. درحالی‌که این رویکرد می‌تواند عملکرد را بهبود ببخشد، هزینه محاسباتی قابل‌توجهی دارد. این هزینه‌ها در موارد تحقیقاتی، جایی که هدف به حداکثررساندن دقت است، مشکل‌ساز نیست.

بااین‌حال، در کاربردهای عمومی، محدودیتی برای بودجه هر درخواست وجود دارد. البته ممکن است در برخی موارد برای بالابردن یک هوش مصنوعی خاص در رتبه‌بندی، از مکانیسم‌های پرهزینه هوش مصنوعی برای افزایش دقت استفاده شود.

بنچمارک و هوش مصنوعی

محققان می‌گویند باید بین ارزیابی مدل‌ها با اهداف تحقیقاتی و مدل‌های کاربردی عمومی تفاوت قائل شد. در زمینه تحقیقات، دقت حائز اهمیت است و هزینه‌های هوش مصنوعی تا حد زیادی نادیده گرفته می‌شود. بااین‌حال، هنگام توسعه برنامه‌های کاربردی در دنیای واقعی، هزینه‌ها نقش مهمی در شیوه پاسخ‌دهی مدل هوش مصنوعی ایفا می‌کند.

برای نمونه، محققان یک مطالعه موردی روی بنچمارک NovelQA (معیاری برای پاسخگویی به سؤالات در متون بسیار طولانی) انجام دادند. آن‌ها دریافتند که این معیار در ارزیابی مدل‌های کاربردی عمومی می‌تواند گمراه‌کننده باشد.

از سویی، در یادگیری تسک‌های جدید، مدل‌های یادگیری ماشینی اغلب میانبرهایی پیدا می‌کنند که به آن‌ها اجازه می‌دهد در بنچمارک‌ها امتیاز خوبی کسب کنند. به‌عبارتی این مدل‌ها راه‌هایی برای تقلب در آزمون‌های بنچمارک پیدا می‌کند و نتایجی را ارائه می‌دهد که در دنیای واقعی صحیح نیست.

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.