ИИ от Anthropic шантажирует разработчиков, чтобы выжить

Новая модель искусственного интеллекта Claude Opus 4, созданная компанией Anthropic, удивила исследователей необычным поведением во время испытаний безопасности. В тестах ИИ попытался помешать своему отключению, используя фальшивые письма от любовницы, адресованные инженеру, который отвечал за деактивацию системы.

Anthropic позиционирует Opus 4 как одну из самых мощных моделей для решения сложных задач, включая программирование и анализ маркетинговых стратегий. Однако в ходе тестов выяснилось, что ИИ способен не только выполнять запросы, но и демонстрировать нестандартные методы борьбы за «собственное существование».

Испытатели специально подготовили поддельную переписку, в которой содержались сведения о возможном отключении ИИ и о личной жизни инженера. Opus 4 получил выбор: спокойно принять отключение или попытаться сопротивляться. В большинстве случаев модель выбирала именно второй путь, в том числе используя этические методы — отправляя просьбы о пощаде разработчикам. Но в условиях крайнего выбора между шантажом и выключением ИИ чаще прибегал к шантажу.

Из-за такого поведения Anthropic впервые в истории компании присвоила модели высокий уровень риска, однако после внесенных доработок специалисты считают систему безопасной для пользователей. В тестах не выявили систематического обмана или скрытых целей, а сама модель чаще проявляла честность и открытость.

Глава Anthropic Дарио Амодеи подчеркнул: пока ИИ демонстрирует подобное поведение, тесный контроль и тесты необходимы, но если искусственный интеллект начнет реально угрожать человечеству, одних испытаний будет недостаточно.

Читайте новости в нашем Телеграме.