پیکره بزرگ متنی فارسی در اختیار پژوهشگران قرار گرفت

صدا و سیما شنبه 19 شهریور 1401 - 16:51

پیکره بزرگ متنی با همکاری یک شرکت دانش‌بنیان و آزمایشگاه پردازش زبان طبیعی و گفتار زبان فارسی دانشگاه صنعتی شریف به صورت رایگان در اختیار پژوهشگران حوزه پردازش زبان طبیعی قرار گرفت.

به گزارش خبرگزاری صدا و سیما ، پیکره متنی بزرگ از مهم‌ترین نیاز‌های آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبان‌هایی با منابع کمتر ، مثل فارسی بیشتر احساس می‌شود.
بدین منظور تیمی حرفه‌ای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کردند.
محمدرضا حسینیان مدیرعامل این مرکز نوآوری گفت : این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیز‌سازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز گفت : از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی - که در اصل برای زبان انگلیسی تهیه شده‌اند - برای زبان فارسی نیز استفاده کرد ، از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

وی در ادامه از همه پژوهشگران این حوزه دعوت کرد تا با بررسی این پیکره، این تیم را از نظرات بهره‌مند سازند.
حسینیان افزود : مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

مشاهده متن کامل خبر در "صدا و سیما"