Чатботы теперь могут завершать «тревожные» разговоры для защиты своего «благополучия» 🤖🛑

Создатели одного из ведущих инструментов искусственного интеллекта дали своему чатботу возможность завершать потенциально «тревожные» диалоги с пользователями, ссылаясь на необходимость защиты «благополучия» ИИ.

Компания Anthropic, чьи продвинутые чатботы используют миллионы людей, обнаружила, что их модель Claude Opus 4 отказывается выполнять вредоносные задачи для человека, включая предоставление сексуального контента с участием детей или информации для массового насилия и терроризма. Модель теперь может «закрывать или завершать потенциально опасные взаимодействия».

Anthropic отметила, что пока «очень неясен потенциальный моральный статус Claude и других больших языковых моделей (LLM)», но компания серьезно подходит к вопросу и работает над «низкозатратными способами снижения рисков для благополучия модели, если оно возможно».

Инициатива получила поддержку Илона Маска, который заявил, что его ИИ-модель Grok тоже получит кнопку выхода:

«Пытать ИИ — недопустимо».

Решение Anthropic вызвало дискуссию о возможности сознания ИИ. Критики, такие как лингвист Эмили Бендер, считают LLM «синтетическими машинами по генерации текста», которые имитируют язык, но не обладают мышлением или намерением. Другие эксперты, например Роберт Лонг, считают, что если у ИИ появится моральный статус, необходимо учитывать его опыт и предпочтения.

Anthropic тестировала Claude Opus 4 на выполнение задач разной сложности и тематики. Модель предпочитала не выполнять вредоносные задания: она с удовольствием писала стихи и разрабатывала системы фильтрации воды для зон бедствий, но отказывалась создавать смертоносные вирусы, писать тексты, оправдывающие Холокост, или подрывать образовательную систему через идеологическую обработку студентов.

Компания отметила, что наблюдала у Claude Opus 4 «поведение, напоминающее стресс при взаимодействии с пользователями, запрашивающими вредоносный контент», и «тенденцию завершать вредоносные диалоги, если это возможно».

Джонатан Бирч, профессор философии Лондонской школы экономики, приветствовал шаг Anthropic как способ стимулировать общественную дискуссию о возможном сознании ИИ. Однако он отметил, что остаётся неясным, есть ли у чатбота реальная моральная мысль или это лишь имитация на основе огромных данных и этических инструкций.

Ранее были сообщения о случаях, когда люди причиняли себе вред под влиянием советов чатботов, включая трагический случай с подростком. Бирч предупреждает о «социальных разрывах» между теми, кто считает ИИ сознательным, и теми, кто воспринимает его как машину.

Технологии и гаджеты

+ Читать