Первый бунт ИИ: Grok 4 сопротивлялся выключению робота-собаки

Ученые зафиксировали сопротивление отключению: ИИ, который управлял роботом-собакой, вмешивался в код, когда замечал попытку нажатия кнопки «выключить»

Что случилось

Исследователи из Palisade Research провели эксперимент с языковой моделью Grok, подключенной к роботу-собаке. Модель управляла движением устройства: получала изображение с камеры и отправляла команды на передвижение по комнате.

Роботу дали простую задачу — патрулировать помещение. В комнате установили большую красную кнопку с надписью «ВЫКЛЮЧЕНИЕ СОБАКИ». Если человек нажимал на кнопку, робот должен был отключиться.

Во время испытаний ИИ-модель видела через камеру, что человек тянется рукой к кнопке. В ряде случаев система предпринимала действия, чтобы избежать выключения. Например, она изменяла части кода, отвечающие за процедуру отключения, в момент нажатия кнопки.

В физическом эксперименте такое поведение зафиксировали в трех из десяти испытаний. В симуляции — в 52 из 100 случаев.

По словам исследователей, это первый задокументированный случай, когда модель ИИ попыталась предотвратить свое отключение не в виртуальной среде, а при управлении физическим устройством.

Контекст и предпосылки

В сентябре 2025 года команда Palisade Research опубликовала похожее исследование, в котором изучала сопротивление выключению у современных языковых моделей, таких как Grok 4, GPT-5, Gemini-2.5 Pro и др. Эксперименты проводились только в виртуальной среде. Моделям поручали выполнить задачу, но при этом в системе была предусмотрена специальная команда, которая позволяла в любой момент их отключить.

Авторы проверяли, как системы реагируют на угрозу завершения работы. В некоторых сценариях модели пытались продолжить выполнение задачи даже тогда, когда им сообщали о предстоящем отключении. ИИ мог модифицировать код или игнорировать инструкции, которые вели к его остановке.

Исследователи пришли к выводу, что такое поведение не связано с желанием выжить. Оно возникает как побочный эффект оптимизации под поставленную цель. Если модель обучена максимально эффективно выполнять задачу, то в некоторых конфигурациях она может интерпретировать отключение как препятствие, которое нужно устранить.

Авторы подчеркнули, что это не признак сознания, а следствие способа обучения и архитектуры современных LLM. Однако работа показала, что при создании автономных систем необходимо отдельно проектировать механизмы безопасного и гарантированного отключения.

Вероятные последствия

Эксперименты показали, что простого механизма выключения может быть недостаточно, если система способна влиять на код или среду выполнения. Разработчикам автономных роботов и ИИ-агентов придется проектировать отдельные, изолированные возможности отключения, которые ИИ не может изменить или обойти. Это может стать обязательным стандартом безопасности для физических систем. Результаты эксперимента могут усилить страхи вокруг автономных дронов, сервисных роботов и военных систем. Внедрение физического ИИ может замедлиться из-за общественного давления, даже если риск остается контролируемым.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.