به گزارش خبرگزاری صدا و سیما ، پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبانهایی با منابع کمتر ، مثل فارسی بیشتر احساس میشود.
بدین منظور تیمی حرفهای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانشبنیان عصرگویشپرداز برای این مساله راهحل پیکره ناب را معرفی کردند.
محمدرضا حسینیان مدیرعامل این مرکز نوآوری گفت : این پیکره، مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز گفت : از این پیکره میتوان برای fine-tune کردن مدلهای زبانی - که در اصل برای زبان انگلیسی تهیه شدهاند - برای زبان فارسی نیز استفاده کرد ، از جمله این مدلهای زبانی میتوان به BERT, BART, T۵ و ... اشاره کرد.
وی در ادامه از همه پژوهشگران این حوزه دعوت کرد تا با بررسی این پیکره، این تیم را از نظرات بهرهمند سازند.
حسینیان افزود : مرکز نوآوری این شرکت دانشبنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.