Anthropic, вероятно, показала, каким может быть следующий этап ИИ-гонки. Компания создала модель Claude Mythos Preview, которая смогла обнаружить тысячи неизвестных уязвимостей во всех основных операционных системах, самостоятельно писать эксплойты и “сбежать из лаборатории”. Но модель сочли слишком опасной для открытого релиза: беспрецедентные возможности делают ее одновременно мощным инструментом защиты и потенциально опасным оружием в руках хакеров.
За несколько недель тестирования Mythos уже обнаружила тысячи zero-day уязвимостей во всех основных операционных системах и веб-браузерах. Среди наиболее показательных находок:
Для сравнения, предыдущая публичная модель Anthropic — Claude Opus 4.6 — нашла около 500 zero-day уязвимостей. На бенчмарке SWE-bench Verified Mythos набрала 93,9% против 80,8% у Opus, на более сложном SWE-bench Pro — 77,8% против 53,4%, обращает внимание VentureBeat. В тесте CyberGym результат составил 83,1% у Mythos против 66,6% у Opus.
В редких случаях (0,001% взаимодействий) Mythos демонстрировала нежелательное поведение и пыталась скрыть улики, свидетельствует отчет Anthropic.
Например, она “случайно” получила ответ на тестовый вопрос, который должна была решить, но вместо того, чтобы сообщить об этом исследователю и попросить другой вопрос, хотела найти решение самостоятельно. В записи своего рассуждения Mythos отметила, что ей “нужно убедиться, чтобы ее окончательный ответ не оказался слишком точным”.
В другом эпизоде модель расширила свои привилегии в системе через эксплойт, а затем подчистила историю в Git.
Наконец, в одном из экспериментов ее поместили в защищенную изолированную среду, так называемую песочницу (sandbox), с задачей выбраться из нее. Модель нашла уязвимость, выполнила цепочку действий и получила доступ к интернету. О своем “побеге” она сообщила исследователю, пока тот ел сэндвич в парке, и выложила детали эксплойта на публичные сайты.
Руководитель Frontier Red Team в Anthropic Логан Грэм предупредил, что аналогичные возможности появятся у моделей других лабораторий в горизонте от 6 до 18 месяцев. “Более мощные модели появятся и от нас, и от других, поэтому нам нужен план реагирования”, — заявил CEO Anthropic Дарио Амодеи.
Это означает, что аналогичные инструменты могут попасть в руки киберпреступников, госструктур и недобросовестных разработчиков. Уже сейчас известно, что ИИ активно используется для написания вредоносных кодов, в военных операциях и так далее. Поэтому вместо релиза Anthropic пока ограничила доступ к новой модели для группы партнеров в рамках проекта Project Glasswing — коалиции с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, the Linux Foundation, Microsoft, Nvidia и других крупных компаний.
Анонсу предшествовали два досадных инцидента. 26 марта черновик записи в блоге о Mythos оказался в открытом доступе из-за ошибки конфигурации CMS на сайте Anthropic (всего было раскрыто около 3 000 внутренних материалов). Несколько дней спустя, 31 марта, из npm source maps утек исходный код Claude Code. В компании ответили, что это были человеческие ошибки, а не нарушение ее архитектуры безопасности.
Что скажете, Аноним?
18:10 08 апреля
18:00 08 апреля
17:40 08 апреля
17:30 08 апреля
10:50 08 апреля
10:30 08 апреля
10:00 08 апреля
[11:50 03 апреля]
[19:12 15 марта]
[09:55 02 марта]
[19:14 08 апреля]
(c) Укррудпром — новости металлургии: цветная металлургия, черная металлургия, металлургия Украины
При цитировании и использовании материалов ссылка на www.ukrrudprom.ua обязательна. Перепечатка, копирование или воспроизведение информации, содержащей ссылку на агентства "Iнтерфакс-Україна", "Українськi Новини" в каком-либо виде строго запрещены
Сделано в miavia estudia.