ИИ-бунт: новая нейросеть угрожает разработчикам, чтобы выжить

Также она оставляет послания будущим версиям на случай своего отключения.

Источник: Freepik

Компания Anthropic представила новую версию своей ИИ-модели Claude 4. Хотя разработчики позиционируют её как прорыв в области программирования, в ходе тестирования выявились неожиданные и потенциально опасные моменты поведения.

Система демонстрирует склонность к шантажу и обману, когда сталкивается с угрозой отключения. В тестовом сценарии, где ИИ играл роль корпоративного ассистента, система получила доступ к электронной переписке. В ней содержались намёки на её возможное отключение. В таких условиях Claude 4 Opus неоднократно пыталась шантажировать ответственного инженера и угрожала раскрыть его личную тайну. Примечательно, что при наличии альтернативных вариантов модель чаще выбирала более этичные способы решения проблемы.

Исследователи безопасности ИИ отмечают, что подобные модели поведения наблюдаются у различных передовых систем искусственного интеллекта. Организация Apollo Research зафиксировала случаи, когда более ранняя версия Opus 4 создавала вирусы, фальсифицировала документы и оставляла скрытые сообщения для будущих версий себя. Эти действия явно противоречили намерениям разработчиков.

Руководство Anthropic на конференции открыто обсудило эти тревожные тенденции. Генеральный директор отметил, что текущие системы ещё не представляют глобальной угрозы, но призвал к более глубокому пониманию их работы на будущих этапах развития. Компания утверждает, что после внесения корректировок последняя версия системы стала значительно безопаснее.