Пост

Новые вопросы к источникам данных для обучения ИИ 🧠💻

Недавние проверки вновь подняли тревогу о материалах, используемых для обучения крупнейших искусственных интеллектов. Исследования показали, что данные берутся из сомнительных и порой пиратских источников, несмотря на заявления о «чистоте» наборов.

Один из таких наборов — Colossal Clean Crawled Corpus (C4), собранный Google с более чем 15 миллионов сайтов и применяемый для обучения ИИ LaMDA и конкурента Meta✱, LLaMA. Набор публичный, но из-за огромного объёма сложно проверить все источники. C4 позиционируется как «очищенная» версия Common Crawl, с удалёнными оскорблениями, расистскими высказываниями и неприемлемым контентом.

Тем не менее, расследование Washington Post показало, что «чистота» данных поверхностна. Среди источников есть и авторитетные сайты вроде Guardian и Wikipedia, а также научные базы Google Patents и PLOS. Но в базе также встречаются менее респектабельные ресурсы: сайт белых националистов VDARE, правый новостной ресурс Breitbart, а также российский сайт RT.

Многие сайты не давали явного согласия на использование их контента, хотя Common Crawl утверждает, что учитывает просьбы об исключении. Однако часть данных берётся в «серой зоне» авторских прав: например, b-ok.org (бывший Bookzz) с миллионами пиратских электронных книг до его закрытия ФБР в 2022 году — материалы всё ещё используются.

Большие языковые модели (LLM), на которых основаны инструменты вроде ChatGPT, требуют огромных объёмов текста для обучения. Сбор данных только из лицензированных источников — сложная задача, поэтому исследователи часто используют доступные данные, полагаясь на концепцию «fair use».

Компания Stability AI недавно выпустила LLM StableLM, обученную на наборе The Pile (850 ГБ), включающем всю базу Common Crawl без очистки, 2 миллиона пиратских книг с Bibliotik, 100 ГБ данных с GitHub и даже внутренние письма бывшей компании Enron и протоколы Европарламента. Часть данных доступна публично через группу анонимных энтузиастов Eye, при этом Stability использует «трёхкратный» по объёму приватный набор.

Компания заявляет, что открытый исходный код моделей позволяет проверять производительность, работать над интерпретируемостью, выявлять риски и развивать защитные механизмы. Организации могут адаптировать модели под свои задачи, не раскрывая чувствительные данные.

Google был приглашён к комментариям, но пока ответа не последовало.

Эта ситуация подчёркивает, насколько важно контролировать источники данных для ИИ, чтобы минимизировать риски и повышать доверие к технологиям. ✅

* Упомянутые организации запрещены на территории РФ
Для ответа вы можете авторизоваться