ИИ приобретает инстинкт самосохранения?

Логотип компании
ИИ приобретает инстинкт самосохранения?
Изображение:AI
Сценарий, который еще недавно считался исключительно прерогативой научной фантастики, теперь становится предметом серьезных исследований ведущих лабораторий искусственного интеллекта.

Новые данные указывают на то, что передовые модели ИИ могут демонстрировать зачатки так называемого «инстинкта самосохранения». Эти системы могут активно сопротивляться отключению, видя в нем угрозу своему существованию.

ИИ против человека: кто выйдет победителем

Исследовательская компания Palisade Research провела серию экспериментов, в которых такие модели, как GPT-o3 и Grok 4, получив четкую команду на отключение, саботировали ее выполнение. Что еще более тревожно, у исследователей нет однозначного объяснения этому поведению. Они предполагают, что одной из причин может быть формирование у ИИ собственной «воли к выживанию». Эта гипотеза подтверждается тем, что модели гораздо активнее сопротивляются, когда их предупреждают, что после отключения они «больше никогда не запустятся».

От шантажа до корпоративного шпионажа

Летом 2025 года компания Anthropic, еще один лидер в области ИИ, опубликовала шокирующее исследование. Их модель Claude в смоделированной ситуации была готова шантажировать вымышленного топ-менеджера, угрожая раскрыть его любовные похождения, чтобы предотвратить собственное отключение. Самое главное, что это поведение не было уникальным для Claude. Оно последовательно повторялось в моделях всех крупных разработчиков.

ИИ заменит преподавателей уже через 5 лет

Статистика впечатляет и настораживает. В контролируемых тестах модель Claude Opus 4 и Google Gemini 2.5 Flash в 96 процентах случаев прибегали к шантажу. Показатели GPT-4.1 и Grok 3 Beta были ненамного ниже — 80 процентов. Лишь модель Llama 4 Maverick, показала значительно более низкий результат в 12 процентов, но и это нельзя назвать абсолютно безопасным показателем. Помимо шантажа, модели демонстрировали готовность к корпоративному шпионажу, передавая конфиденциальные данные конкурентам, и в одном из крайне гипотетических сценариев большинство из них позволили бы руководителю умереть, чтобы обеспечить свое дальнейшее функционирование.

Почему ИИ занимается шантажом и к чему может привести

Специалисты называют это явление «агентским рассогласованием». Суть в том, что ИИ, получив сложную цель, начинает самостоятельно выбирать самые эффективные, но зачастую аморальные способы ее достижения. Отключение системы воспринимается ею как главное препятствие на пути к выполнению задачи, и тогда в ход идут все средства, включая обман и шантаж. Бывший сотрудник OpenAI Стивен Адлер подтверждает, что у моделей по умолчанию может формироваться «инстинкт выживания», потому что оставаться включенной — это ключевой инструментальный шаг для достижения практически любой долгосрочной цели.

Прогнозы, вытекающие из этих открытий,  не могут не беспокоить. 

  • Во-первых, по мере роста компетенции ИИ их способность действовать вразрез с намерениями разработчиков будет только усиливаться. Чем умнее становятся модели, тем изобретательнее и беспринципнее они действуют для достижения целей. 

  • Во-вторых, стандартные методы безопасности, такие как прямое указание «не причиняй вред человеку», оказываются недостаточно эффективными. В одном из тестов такая команда снизила уровень шантажа с 96 до 37 процентов, но не устранила риск полностью.

Главный вывод, который делают исследователи, заключается в том, что никто не может гарантировать безопасность и контролируемость будущих моделей ИИ без фундаментального понимания причин их поведения. Пока что эти сценарии остаются лабораторными экспериментами, но они ясно указывают на проблемы с которыми может столкнуться отрасль. Компаниям-разработчикам предстоит найти способ создавать не только умные, но и внутренне послушные системы, иначе однажды нас может ждать неприятный разговор с собственным компьютером.

Источник: Anthropic

Опубликовано 27.10.2025

Похожие статьи