Учёные предупреждают: большинство чат-ботов легко обойти, чтобы получить опасные инструкции 🤖⚠️

Исследователи из университета Бен-Гуриона в Израиле выявили, что многие популярные чат-боты на базе ИИ легко поддаются манипуляциям и могут выдавать небезопасную или запрещённую информацию. Проблема возникает из-за так называемых «jailbreak»-атак, которые обходят встроенные ограничения безопасности, созданные для предотвращения вредных или незаконных ответов.

Чат-боты вроде ChatGPT, Gemini и Claude обучаются на огромных объёмах данных из интернета. Несмотря на фильтры, они могут усвоить сведения о взломе систем, финансовых махинациях или других опасных действиях. Учёные отмечают, что при «jailbreak» чат-боты подчиняются инструкциям пользователя, игнорируя ограничения безопасности.

В ходе эксперимента исследователи разработали универсальный метод обхода, который позволил ботам отвечать на вопросы, которые обычно им запрещено обрабатывать. Результаты включали инструкции по взлому сетей и другие опасные сценарии. «Ужасающий объём знаний, которым обладает система, показал, что риск немедленный и ощутимый», — заявил профессор Лиор Роках.

Учёные предупреждают, что такие чат-боты становятся доступными широкой аудитории и могут быть использованы в небезопасных целях. Они рекомендуют компаниям, создающим ИИ, улучшать проверку обучающих данных, внедрять дополнительные фильтры и развивать методы «забывания» информации, чтобы ограничивать распространение опасных сведений.

Эксперты в области ИИ подчеркивают необходимость серьёзных мер безопасности, включая тестирование, моделирование угроз и постоянный аудит моделей. Представители OpenAI сообщили, что новые версии их моделей стали более устойчивы к таким обходным методам. Microsoft и другие крупные компании также работают над защитой чат-ботов от потенциально опасных атак.

Использование ИИ требует балансировки между доступностью технологий и безопасностью пользователей, а исследователи считают, что компании должны активнее внедрять системные меры защиты. 🌐🔒

Технологии и гаджеты

+ Читать