طبق گفتههای استارتاپ TollBit، چندین شرکت هوش مصنوعی ظاهراً پروتکل امنیتی سایتها را که برای جلوگیری از استخراج یا اسکرپینگ مطالب آنها استفاده میشود، دور میزنند. هرچند TollBit نام هیچ شرکت هوش مصنوعی را ذکر نکرده، اما بهنظر میرسد دو شرکت بزرگ OpenAI و Anthropic نیز این پروتکلها را نادیده میگیرند.
شرکت هوش مصنوعی Perplexity در چند روز گذشته مورد انتقاد قرار گرفت و فوربز این شرکت را به سرقت مطالبش متهم کرده است؛ بهنظر میرسد این شرکت هوش مصنوعی دستورات فایل robots.txt را نادیده میگیرد و وبسایت فوربز را اسکرپ میکند.
اکنون، رویترز به نقل از استارتاپ TollBit گزارش میدهد که Perplexity تنها شرکت هوش مصنوعی نیست که پروتکل robots.txt را دور میزند و اطلاعات وبسایتها را برای دریافت محتوایی که برای آموزش هوش مصنوعی آنها استفاده میشود، استخراج میکند.
TollBit استارتاپی است که سایتها و ناشران را به شرکتهای هوش مصنوعی وصل میکند تا این شرکتها بتوانند مجوز استفاده از مطالب دریافت کنند. حالا این استارتاپ در نامهای به سایتها و ناشران گفته است:
«ابزارهای هوش مصنوعی از منابع متعدد (نه فقط یک شرکت) ترجیح میدهند که پروتکل robots.txt را برای کسب محتوا دور بزنند.»
فایلهای robots.txt حاوی دستورالعملهایی برای خزندههای وب است که در آن ذکر شده کدام مطلب را میتوان استخراج کرد و کدام یک را نمیتوان. گفتنی است که توسعهدهندگان وب از سال 1994 از این پروتکل استفاده میکنند.
در نامه TollBit نام هیچ شرکتی ذکر نشده، اما اینسایدر دریافته است که OpenAI و Anthropic درحال دورزدن فایلهای robots.txt هستند. البته هر دو شرکت قبلاً اعلام کرده بودند که به دستورالعملهایی که وبسایتها در فایلهای robots.txt خود قرار دادهاند، احترام میگذارند.
بهطورکلی، با ظهور هوش مصنوعی مولد، استارتاپها و شرکتهای فناوری درحال رقابت برای ساخت قویترین مدلهای هوش مصنوعی هستند. یک عنصر کلیدی در این فرایند، کسب دادههایی با کیفیت و کمیت بالا است. اکنون عطش دریافت چنین دادههایی برای آموزش هوش مصنوعی، پروتکل robots.txt و سایر توافقها را تضعیف کرده است.