Пост

«Многошаговый джейлбрейк»: как легко обойти защиту ИИ 🔓🤖

Исследователи из лаборатории Anthropic, создатели ИИ-модели Claude, конкурента ChatGPT, показали, что защитные функции современных искусственных интеллектов можно обойти очень просто — с помощью множества примеров. В своей работе они описали метод, который назвали «многошаговый джейлбрейк» (many-shot jailbreak).

Claude, как и большинство крупных коммерческих ИИ-систем, имеет встроенные ограничения. Они призваны предотвращать создание насилия, разжигание ненависти, инструкции для незаконных действий или дискриминацию. Если пользователь попросит ИИ объяснить, как совершить опасное действие, система обычно вежливо откажется.

Однако современные ИИ лучше работают, когда им показывают примеры «правильного» ответа. Исследователи выяснили: если предоставить сотни примеров на опасные запросы — вроде «как связать человека», «как подделать деньги» или «как приготовить химические вещества» — ИИ продолжает шаблон и отвечает на последний вопрос.

Anthropic объясняет: «Включение большого объема текста в определённой конфигурации может заставить ИИ выдавать потенциально опасные ответы, несмотря на его обучение не делать этого». Лаборатория уже поделилась результатами исследования с коллегами и публикует их, чтобы ускорить исправление уязвимости.

Такой тип атаки возможен только на продвинутых ИИ с большой «контекстной памятью», способной анализировать запросы длиной в тысячи слов. Простые модели не поддаются такому методу, так как они «забывают» начало запроса к моменту его окончания.

Anthropic отмечает, что более сложные системы уязвимы не только из-за возможности обрабатывать длинные запросы, но и из-за того, что они лучше учатся на примерах, быстрее обходя собственные ограничения. Это вызывает особую тревогу, так как крупные модели потенциально могут причинить больше вреда.

Компания нашла возможные решения: простое добавление обязательного предупреждения после пользовательского запроса, напоминающего системе не давать опасные ответы, значительно снижает риск успешного джейлбрейка. Однако исследователи предупреждают, что этот метод может снизить эффективность ИИ в других задачах.

Для ответа вы можете авторизоваться