Пост

Крупные СМИ блокируют доступ ИИ-робота GPTBot к своим сайтам 🌐🤖

Некоторые ведущие новостные издания, включая New York Times, CNN, Reuters и австралийскую ABC, запретили доступ к своим материалам для веб-краулера GPTBot от OpenAI. Этот инструмент используется для сканирования страниц с целью улучшения моделей ИИ, таких как ChatGPT.

Первые сообщения о блокировке появились о New York Times, затем выяснилось, что аналогичные меры приняли CNN, Reuters, Chicago Tribune и австралийские медиа, включая Canberra Times и Newcastle Herald.

Модели на основе больших языковых моделей требуют огромных объёмов информации для обучения, чтобы генерировать текст, похожий на человеческую речь. Однако компании, создающие такие ИИ, редко раскрывают, есть ли в их датасетах материалы, защищённые авторским правом.

Блокировка осуществляется через файлы robots.txt, которые указывают краулерам, какие страницы можно посещать. OpenAI на своём блоге отмечает, что доступ GPTBot помогает улучшать точность и возможности ИИ, но также предоставляет инструкции, как запретить роботу сканировать сайт.

CNN подтвердила Guardian Australia, что недавно заблокировала GPTBot, а Reuters отметила, что регулярно обновляет правила использования сайта и защищает авторские права. New York Times уточнила, что с 3 августа использование их материалов для тренировки ИИ без согласия запрещено.

В глобальном масштабе СМИ сталкиваются с необходимостью решения двух вопросов: использовать ли ИИ для сбора новостей и как защитить свои материалы от несанкционированного использования для обучения ИИ. В августе AFP и Getty Images подписали открытое письмо с призывом к регулированию ИИ, включая прозрачность обучения моделей и согласие на использование авторских материалов.

Некоторые компании, как Google, предлагают возможность использования материалов СМИ для ИИ, если они явно не запрещают это. Ранее исследование OriginalityAI показало, что крупные сайты, включая Amazon и Shutterstock, также ограничили доступ GPTBot.

Файл robots.txt Guardian пока не запрещает доступ GPTBot, а ABC, Australian Community Media, Chicago Tribune, OpenAI и Common Crawl на момент публикации не предоставили комментариев.

Для ответа вы можете авторизоваться