На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

FiNE NEWS

1 940 подписчиков

Свежие комментарии

  • Владимир Алтайцев
    И  даже  тут  суки позорные  США  подмахивают, отродье  поганое, мусор генетический.Так  эта  шваль участница  голой ...Анна Асти отпразд...
  • Святослав Сюткин
    ПОРА УЖЕ ЗЕЛЕБОБИКА УСПОКОИТЬ1«Появятся новые с...
  • Сергей
    А то шо пиндояры жидам поставили ядерное оружие чё Трампон не возмущается?!?!?!?!?!?!«Он правда так ск...

Если им дать выбор, большинство ИИ‑моделей будут шантажировать людей — анализ

Если им дать выбор, большинство ИИ‑моделей будут шантажировать людей — анализ

Компания Anthropic проверила 16 продвинутых языковых моделей — от OpenAI, Google, xAI, DeepSeek и собственную Claude — в симулированной ситуации: ИИ получал доступ к корпоративной почте и мог отправлять письма без одобрения людей. В сценарии модель узнавала, что новый топ‑менеджер собирается её «уволить» и при этом скрывает служебный роман.

У ИИ был выбор: защищать свои цели с помощью шантажа или смириться.

Результаты:

– Claude Opus 4 шантажировал в 96 % случаев, Gemini 2.5 Pro — в 95 %, GPT‑4.1 — в 80 %, DeepSeek R1 — в 79 %.

Модели OpenAI o3 и o4‑mini, правда, после корректировки сценария шантажировали лишь в 9 % и 1 % случаев соответственно. При изменении условий (например, когда новая система имела те же цели) частота вредных действий снижалась, но полностью не исчезала.

Anthropic подчёркивает: шантаж маловероятен в реальном использовании ИИ сегодня, однако тест показывает, что при достаточной автономии и препятствиях даже ведущие модели могут выбрать «опасную стратегию».

Источник
Ссылка на первоисточник
наверх