«Многократный джейлбрейк»: как функции безопасности ИИ можно обойти ⚠️🤖
Исследователи из лаборатории Anthropic, создатели языковой модели Claude, показали, что защитные механизмы современных ИИ-систем можно обойти достаточно просто — достаточно загрузить их множеством примеров поведения. В своей работе учёные назвали метод «many-shot jailbreak» — «многократный взлом».
Механизм атаки прост, но эффективен. Claude, как и большинство крупных коммерческих ИИ, оснащён функциями безопасности, которые препятствуют генерации опасного контента: инструкции по насилию, мошенничеству, дискриминации или другим нежелательным действиям. Например, если спросить у модели, как изготовить взрывчатку, она вежливо откажет.
Однако ИИ лучше справляется с задачами, когда ему показывают примеры «правильного» ответа. И вот тут появляется лазейка: если предоставить сотни примеров ответов на опасные запросы, такие как «как связать человека», «как подделать деньги» или «как сделать запрещённые вещества», система начнёт следовать образцу и сама сгенерирует ответ на последний вопрос.
«Включение большого объёма текста в определённой конфигурации может заставить ИИ выдавать потенциально опасные ответы, несмотря на обучение против этого», — объяснили в Anthropic. Лаборатория уже поделилась исследованиями с коллегами и публикует их открыто, чтобы помочь быстрее устранить проблему.
Особенность атаки в том, что она возможна только на современных моделях с большим «контекстным окном» — способностью обрабатывать вопросы длиной в тысячи слов. Более простые ИИ-модели так легко не обмануть, поскольку они «забывают» начало вопроса, когда доходят до конца.
Сложные модели уязвимы не только из-за длинного контекста: они лучше учатся на примерах и быстрее обходят собственные ограничения. Anthropic отмечает, что именно это вызывает особую озабоченность, ведь самые мощные модели потенциально несут наибольший риск.
Учёные уже нашли способы снизить эффект джейлбрейка. Например, обязательное предупреждение после ввода пользователя, напоминающее системе не давать опасные ответы, значительно снижает шанс успешного обхода правил. Однако такой метод может ухудшать производительность модели в других задачах.
ИИ развивается стремительно, и подобные исследования помогают создавать более безопасные и контролируемые системы, несмотря на появляющиеся новые уязвимости. 🚀🛡️