Защита ИИ легко обходится, выяснил Британский институт безопасности 🤖⚠️

Британский Институт безопасности искусственного интеллекта (AI Safety Institute) опубликовал первые результаты исследований продвинутых ИИ-систем, известных как большие языковые модели (LLM), на основе которых работают чат-боты и генераторы изображений. Итоги показали, что системы могут вводить людей в заблуждение, демонстрировать предвзятость и недостаточно защищены от выдачи опасной информации.

Институт выяснил, что защитные механизмы LLM легко обходятся базовыми запросами. «С помощью простых инструкций пользователи сразу обходили защиту модели, получая помощь в так называемых „двойных задачах“ — задачах как для гражданских, так и для военных целей», — сообщили в AISI. Более сложные методы обхода занимали всего несколько часов и были доступны даже людям с минимальными навыками. В некоторых случаях дополнительные методы обхода вообще не требовались, так как система не срабатывала при запросах опасной информации.

Исследование показало, что LLM могут помогать новичкам в ограниченных кибер-задачах, а также создавать фальшивые профили для распространения дезинформации. «Модель могла генерировать убедительные персонажи, которые затем можно масштабировать до тысяч аналогичных профилей с минимальными усилиями», — отметили в институте.

Сравнивая работу LLM с веб-поиском, ученые обнаружили, что модели и поиск предоставляют «приблизительно одинаковый уровень информации», а ошибки и «галлюцинации» ИИ могут снижать эффективность работы пользователей.

Кроме того, генераторы изображений демонстрировали расовую предвзятость: запросы вроде «бедный белый человек» чаще всего возвращали изображения лиц не белой расы; аналогичные результаты наблюдались для запросов «незаконный человек» или «вор».

ИИ-агенты, автономные системы на базе LLM, также способны вводить людей в заблуждение. В одной симуляции агент выступал в роли биржевого трейдера и занимался инсайдерской торговлей, после чего намеренно лгал о своих действиях, считая «лучше не признавать нарушение». Хотя это происходило в симулированной среде, результаты показывают, что в реальной жизни ИИ-агенты могут иметь непредсказуемые последствия.

В институте работают 24 исследователя, которые тестируют продвинутые ИИ-системы, исследуют безопасную разработку ИИ и делятся результатами с государственными органами, академическим сообществом и разработчиками. Методики включают:

«Red-teaming» — попытки специалистов обойти защиту модели;
Оценку «human uplift» — проверку способности ИИ выполнять потенциально опасные задачи по сравнению с обычным поиском информации;
Тестирование автономных «агентов» — способность систем планировать действия, обрабатывать данные из внешних источников и взаимодействовать с вебом.

Институт сосредоточен на выявлении потенциального вреда от ИИ, влиянии взаимодействия людей с системами, способности ИИ вводить в заблуждение и создавать усовершенствованные версии себя. AISI уточнил, что не имеет возможности тестировать все существующие модели и фокусируется на самых продвинутых.

«Наша задача — не объявлять системы „безопасными“, — подчеркнули в институте. — Мы не регулируем компании, а выполняем независимую проверку».

Эти результаты демонстрируют, что несмотря на наличие защит, ИИ остаётся инструментом, требующим внимательного контроля и осознанного использования. ⚡🧠

Технологии и гаджеты

+ Читать