محققان «Google Brain» به تازگی از اتفاق مهم بعدی در مدلهای زبان هوش مصنوعی یعنی ایجاد یک سیستم ترانسفورمر عظیم با یک تریلیون پارامتر رونمایی کردند.
پارامترها کلید الگوریتمهای یادگیری ماشین هستند؛ آنها بخشی از مدلی هستند که از دادههای آموزشی گذشته فرا گرفته میشوند. به طور کلی در حوزه زبان، ارتباط بین تعداد پارامترها و پیچیدگی به طرز چشمگیری حفظ شده است. برای مثال GPT-3 که متعلق به OpenAI است یکی از بزرگترین مدلهای زبانی است که تاکنون به مرحلهی آموزش رسیده و با 175 میلیارد پارامتر میتواند قیاسهای اولیه را ایجاد کند، دستورالعملها را تولید کند و حتی یک کد اولیه را کامل کند.
محققان گوگل به تازگی تکنیکهای استانداردی را توسعه دادهاند که طبق ادعای آنها قادر خواهد بود یک مدل زبانی با بیش از یک تریلیون پارامتر را آموزش دهد. به عقیدهی آنها سرعت مدل 1.6 تریلیون پارامتری که تا به امروز از بزرگترین مدلها محسوب میشود با استفاده از مدل زبان توسعه یافته گوگل 4 برابر افزایش خواهد یافت.
پیش از این محققان اعلام کردند که آموزش در مقیاس بزرگ از راههای تاثیرگذار در مسیر مدلهای قدرتمند است. اما این آموزش در مقیاس بزرگ نیاز به محاسبات بسیار فشردهای دارد و به همین دلیل محققان روشی به نام Switch Transformer به وجود آوردند که تنها از زیرمجموعهای از وزن مدل یا پارامترهایی که دادههای ورودی را در مدل تغییر میدهد، استفاده میکند.
نوآوری سوییچ ترنسفورمر نفوذ در سختافزارهایی مانند پردازنده های گرافیکی و واحدهای پردازش تنسور گوگل است که برای ضرب ماتریس متراکم طراحی شدهاند. بنابر گفتهی محققان، سوییچ ترنسفورمر میتواند منجر به دستیابی به برخی از کارهای سطح پایین شود. برای مثال از مدلهای پراکنده بزرگ میتوان برای ایجاد مدلهای کوچکتر و متراکمی استفاده کرد که کیفیت آنها نسبت به مدل بزرگتر 30 درصد بهتر است. همچنین در آزمونی که در آن یک مدل سوییچ ترنسفورمر برای ترجمه بیش از 100 زبان مختلف دنیا آموزش دیده بود، محققان توانستند در مقایسه با مدلهای پایه، با سرعت 4 برابر، یک پیشرفت جهانی را مشاهده کنند.
در آینده محققان قصد دارند زبان هوش مصنوعی گوگل را برای انجام کارهای مختلف و جدیدی مانند استفاده از آنها بر روی تصویر و متن آزمایش کنند. آنها معتقدند که این پراکندگی مدل در طیف وسیعی از رسانههای مختلف و همچنین مدلهای چند حالته میتواند مزایایی ایجاد کند.