«Я не давал разрешения»: как AI-компании обходят законы о данных и авторском праве 🤖📚
Современные системы искусственного интеллекта могут помочь оспорить штраф за парковку, написать учебное эссе или создать неожиданные образы знаменитостей. Но технологии за этим эффектным интерфейсом опираются на огромные виртуальные библиотеки данных, вызывающие вопросы о нарушении законов о персональных данных и авторских правах.
Миллиарды изображений, миллионы книг в цифровом виде, документы и статьи из интернета — всё это используется для обучения моделей вроде ChatGPT и Stable Diffusion. Однако желание индустрии собрать как можно больше данных начинает сталкиваться с ограничениями: регуляторы и суды во всём мире требуют согласия авторов и пользователей на использование их материалов.
В Италии ChatGPT был временно заблокирован после того, как местный регулятор заявил о незаконной «массовой обработке» персональных данных. Канадский уполномоченный по защите информации начал собственное расследование, а британский регулятор выразил обеспокоенность тем, что законы о данных применимы даже к информации из открытых источников.
Профессор Оксфордского университета Майкл Вулдридж отмечает, что крупные языковые модели (LLM), такие как ChatGPT и Google Bard, собирают колоссальные объёмы информации из открытых источников, включая веб-страницы, новости и публикации пользователей. При этом никто не знает, какие именно данные остаются в модели — они «захоронены» в сложных нейронных сетях.
Авторские права становятся новой проблемой для компаний в сфере AI. Многие произведения, включая новости и изображения, используются без согласия авторов. Уже появились судебные иски: например, Getty Images обвиняет Stability AI, компанию, стоящую за генератором изображений Stable Diffusion, в нарушении авторских прав. В США группа художников подала в суд на Midjourney и Stability AI за использование их работ без разрешения.
Проблема усугубляется секретностью компаний. OpenAI, создатель ChatGPT, отказывается раскрывать источники данных для GPT-4, указывая лишь, что использовались «публичные данные и лицензированные материалы». В то же время некоммерческие проекты вроде EleutherAI собирают огромные наборы данных, признавая, что делали это без согласия авторов, но аргументируют это тем, что материалы уже широко доступны.
Кроме юридических вопросов, AI иногда создаёт ложную информацию. Например, ChatGPT ошибочно обвинил американского профессора права в вымышленном инциденте, ссылаясь на несуществующую новостную статью.
Рост индустрии AI остаётся корпоративным, а не академическим: по данным AI Index 2023, крупные компании создают большинство моделей, затрачивая миллионы долларов и гигантские вычислительные ресурсы. Это вызывает опасения, что коммерческие интересы могут перевесить соблюдение прав и интересов людей.
Эксперты призывают делать AI более компактным, энергоэффективным и требующим меньше данных, чтобы технологии оставались доступными и безопасными для общества. Как отмечает доктор Эндрю Рогоиски из Университета Суррея, важно «демократизировать доступ к AI», делая его менее зависимым от крупных корпоративных проектов.
AI открывает новые возможности, но одновременно ставит перед обществом важные вопросы о праве на данные, авторские права и прозрачность технологий. 🌐⚖️