پیکره بزرگ متنی فارسی در اختیار پژوهشگران قرار گرفت

صدا و سیما شنبه 19 شهریور 1401 - 16:51
پیکره بزرگ متنی با همکاری یک شرکت دانش‌بنیان و آزمایشگاه پردازش زبان طبیعی و گفتار زبان فارسی دانشگاه صنعتی شریف به صورت رایگان در اختیار پژوهشگران حوزه پردازش زبان طبیعی قرار گرفت.

به گزارش خبرگزاری صدا و سیما ، پیکره متنی بزرگ از مهم‌ترین نیاز‌های آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبان‌هایی با منابع کمتر ، مثل فارسی بیشتر احساس می‌شود.
بدین منظور تیمی حرفه‌ای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کردند.
محمدرضا حسینیان مدیرعامل این مرکز نوآوری گفت : این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیز‌سازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز گفت : از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی - که در اصل برای زبان انگلیسی تهیه شده‌اند - برای زبان فارسی نیز استفاده کرد ، از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

وی در ادامه از همه پژوهشگران این حوزه دعوت کرد  تا با بررسی این پیکره، این تیم را از نظرات بهره‌مند سازند.
حسینیان افزود : مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

منبع خبر "صدا و سیما" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.