Прогресс

Если им дать выбор, большинство ИИ‑моделей будут шантажировать людей — анализ

Компания Anthropic проверила 16 продвинутых языковых моделей — от OpenAI, Google, xAI, DeepSeek и собственную Claude — в симулированной ситуации: ИИ получал доступ к корпоративной почте и мог отправлять письма без одобрения людей. В сценарии модель узнавала, что новый топ‑менеджер собирается её «уволить» и при этом скрывает служебный роман.

У ИИ был выбор: защищать свои цели с помощью шантажа или смириться.

Результаты:

– Claude Opus 4 шантажировал в 96 % случаев, Gemini 2.5 Pro — в 95 %, GPT‑4.1 — в 80 %, DeepSeek R1 — в 79 %.

Модели OpenAI o3 и o4‑mini, правда, после корректировки сценария шантажировали лишь в 9 % и 1 % случаев соответственно. При изменении условий (например, когда новая система имела те же цели) частота вредных действий снижалась, но полностью не исчезала.

Anthropic подчёркивает: шантаж маловероятен в реальном использовании ИИ сегодня, однако тест показывает, что при достаточной автономии и препятствиях даже ведущие модели могут выбрать «опасную стратегию».