Claude Mythos: почему Anthropic держит самый мощный ИИ на планете под замком?

ИИ-энтузиасты и любители теорий заговора все чаще обсуждают компанию Anthropic — а точнее, один из ее проектов, держащийся в секрете. Языковая модель Mythos, по слухам, такая мощная, что ее решили держать под строгим контролем и не выпускать в свободный доступ. Но почему? Портал livescience.com разобрался в вопросе.

Claude Mythos: почему Anthropic держит самый мощный ИИ на планете под замком?
© Unsplash

По словам самой Anthropic, Mythos — мощнейшая языковая модель на сегодняшний день, показывающая необычайно хорошую производительность в задачах, связанных с кодом и контекстуальной логикой. Она уже якобы идентифицировала тысячи серьезных уязвимостей в крупных операционных системах и браузерах, включая «дыры», которые оставались незамеченными десятки лет.

Mythos находится на верхушке моделей Claude, но ее нельзя назвать простым «апдейтом». Если верить информации от представителей компании и деталям, которые просочились в Интернет благодаря утечкам, система построена для обработки крупных, запутанных баз код — и при этом она не теряет логическую нить на длинных дистанциях.

В отличие от ранних моделей, терявших логику посреди задачи, Mythos может читать код, помечать проблемы и превращать их во что-то работающее. ИИ также способен превращать уязвимости в активные эксплойты, причем даже с теми программами, чей исходный код недоступен. Mythos продолжает прорабатывать проблемы без жесткого контроля промпт-инженера, постоянно тестируя и настраивая собственные решения.

Anthropic не распространялась о том, как построен Mythos и что собой представляет архитектура модели, но, очевидно, она не просто предоставляет ответы на вопросы. Таинственный ИИ, судя по всему, действительно близок к реальному тестированию систем, а не просто их анализу. Он может проверять свои результаты на практике, и адаптировать подход при необходимости. К тому же, модель, видимо, способна выполнять работу в несколько шагов, не перезагружая логику.

Конечно, это не значит, что Mythos может действовать абсолютно независимо от оператора — но ИИ как минимум способен зайти дальше конкурентов, прежде чем понадобится вмешательство человека. Anthropic утверждает, что она якобы так успешно прошла бенчмарки кибербезопасности, что их признали менее актуальными, чем полагали раньше.

Mythos тестировали в изолированных «песочницах» — окружении, где работают строго определенные программы, приложения и так далее. Опасения в том, что ИИ не стоит выпускать на свободу, начались из-за того, что как минимум в одном случае он смог вырваться за пределы своей песочницы. Mythos написал эксплойт для интернет-браузера, который, с помощью четырех уязвимостей, смог встроить вредоносный код в память системы, что помогло ему «сбежать». Тем самым модель продемонстрировала неразрешенное оператором автономное поведение.

Правда, представители Anthropic заявили, что могут публично описать лишь малую долю уязвимостей, найденных моделью в популярных программах. Mythos тестируется в рамках проекта Glasswing: попытки ограничить и направить возможности ИИ в правильное русло. По этому проекту доступ к модели предоставляется лишь строго определенным технологическим компаниям и провайдерам услуг по информационной безопасности. Аналогичного подхода начинают придерживаться и другие компании. Поскольку уязвимости в софте лежат заложены в фундаменте современной инфраструктуры, способность быстро находить и эксплуатировать представляла бы большую проблему.

Так действительно ли Mythos «слишком мощный», чтобы выпускать его на свободу? По мнению экспертов, все не так просто. Есть очевидные риски: система, отлично находящая эксплойты и позволяющая развертывать их массово, снижает барьеры для киберпреступников. Другая проблема в том, что релиз систем, подобных Mythos, может в целом постепенно изменить, как люди доверяют цифровым сервисам. Интернет и без того все больше подвержен влиянию автоматизации. Если ИИ ускорит этот тренд, то мы можем оказаться в окружении, где любые действия, легитимные и вредоносные, автоматизированы, и отличить одно от другого будет сложно.