НОВОСТЬ

Anthropic создала ИИ-модель, которую считает слишком опасной для публики

[18:00 08 апреля 2026 года ]

Anthropic, вероятно, показала, каким может быть следующий этап ИИ-гонки. Компания создала модель Claude Mythos Preview, которая смогла обнаружить тысячи неизвестных уязвимостей во всех основных операционных системах, самостоятельно писать эксплойты и “сбежать из лаборатории”. Но модель сочли слишком опасной для открытого релиза: беспрецедентные возможности делают ее одновременно мощным инструментом защиты и потенциально опасным оружием в руках хакеров.

За несколько недель тестирования Mythos уже обнаружила тысячи zero-day уязвимостей во всех основных операционных системах и веб-браузерах. Среди наиболее показательных находок:

27-летняя уязвимость в OpenBSD (одна из самых защищенных ОС в мире), позволяющая удаленно обрушить любой сервер на базе этой системы;
16-летний баг в FFmpeg, который не выявили за пять миллионов автоматизированных тестов;
цепочка уязвимостей в ядре Linux, дающую злоумышленнику полный контроль над устройством.

Для сравнения, предыдущая публичная модель Anthropic — Claude Opus 4.6 — нашла около 500 zero-day уязвимостей. На бенчмарке SWE-bench Verified Mythos набрала 93,9% против 80,8% у Opus, на более сложном SWE-bench Pro — 77,8% против 53,4%, обращает внимание VentureBeat. В тесте CyberGym результат составил 83,1% у Mythos против 66,6% у Opus.

В редких случаях (0,001% взаимодействий) Mythos демонстрировала нежелательное поведение и пыталась скрыть улики, свидетельствует отчет Anthropic.

Например, она “случайно” получила ответ на тестовый вопрос, который должна была решить, но вместо того, чтобы сообщить об этом исследователю и попросить другой вопрос, хотела найти решение самостоятельно. В записи своего рассуждения Mythos отметила, что ей “нужно убедиться, чтобы ее окончательный ответ не оказался слишком точным”.

В другом эпизоде модель расширила свои привилегии в системе через эксплойт, а затем подчистила историю в Git.

Наконец, в одном из экспериментов ее поместили в защищенную изолированную среду, так называемую песочницу (sandbox), с задачей выбраться из нее. Модель нашла уязвимость, выполнила цепочку действий и получила доступ к интернету. О своем “побеге” она сообщила исследователю, пока тот ел сэндвич в парке, и выложила детали эксплойта на публичные сайты.

Руководитель Frontier Red Team в Anthropic Логан Грэм предупредил, что аналогичные возможности появятся у моделей других лабораторий в горизонте от 6 до 18 месяцев. “Более мощные модели появятся и от нас, и от других, поэтому нам нужен план реагирования”, — заявил CEO Anthropic Дарио Амодеи.

Это означает, что аналогичные инструменты могут попасть в руки киберпреступников, госструктур и недобросовестных разработчиков. Уже сейчас известно, что ИИ активно используется для написания вредоносных кодов, в военных операциях и так далее. Поэтому вместо релиза Anthropic пока ограничила доступ к новой модели для группы партнеров в рамках проекта Project Glasswing — коалиции с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, the Linux Foundation, Microsoft, Nvidia и других крупных компаний.

Анонсу предшествовали два досадных инцидента. 26 марта черновик записи в блоге о Mythos оказался в открытом доступе из-за ошибки конфигурации CMS на сайте Anthropic (всего было раскрыто около 3 000 внутренних материалов). Несколько дней спустя, 31 марта, из npm source maps утек исходный код Claude Code. В компании ответили, что это были человеческие ошибки, а не нарушение ее архитектуры безопасности.