В конце марта — начале апреля 2026 года произошло сразу два резонансных инцидента с американской компанией Anthropic, одним из ведущих мировых разработчиков систем искусственного интеллекта, создателем семейства моделей Claude. Инциденты разные по своей природе, но имеющие общий знаменатель — человеческую ошибку — в эпоху, когда цена такой ошибки измеряется не только репутацией и потерями в оценке стоимости компании, но и реальными рисками для глобальной кибербезопасности.
Первый инцидент произошел 26 марта: из-за ошибки в настройках CMS корпоративного блога в открытом доступе оказались около 3000 внутренних документов Anthropic — черновики, спецификации и другие материалы, касающиеся новой LLM Claude Mythos (внутренний псевдоним — Capybara), четвертой по счету ступени в линейке моделей компании, стоящей над действующим флагманом Opus. Anthropic описывает Mythos как «шаг вперед» и «самую мощную модель, которую компания когда-либо создавала», значительно превосходящую предшественников в программировании, академическом мышлении и — что особенно важно — в задачах кибербезопасности. Материалы обнаружили исследователи из LayerX Security и Кембриджского университета, а первым опубликовал расследование журнал Fortune.
Безопасный ИИ. Почему RAG-системы — это новая головная боль для службы безопасности
Второй инцидент произошел 31 марта — 1 апреля. При обновлении npm-пакета Claude Code разработчики по ошибке опубликовали source map с более чем 512 000 строками TypeScript-кода, раскрывающий архитектуру, внутренние инструменты и системные промпты. Anthropic оперативно удалила с GitHub 96 репозиториев и подчеркнула, что веса моделей и данные клиентов скомпрометированы не были. Тем не менее конкуренты компании получили важные инсайты об устройстве системы, которые при желании могут быть использованы ими в своих целях.
Оба случая компания официально объяснила «человеческой ошибкой». Ошибкой — возможно. Но какой именно?
Позволю себе выдвинуть гипотезу, которую я не могу в настоящий момент доказать, но которая кажется мне очень правдоподобной. Обе утечки удивительно похожи на тот тип ошибок, который возникает при бесконтрольном вайб-кодинге — когда разработка ведется силами ИИ-агентов без должного контроля со стороны человека. Разумеется, ИИ-агент может написать работающий код, но он может содержать «архитектурные дыры», может сгенерировать конфигурацию, которая смотрится корректной, но на практике открывает дополнительный публично доступный сетевой адрес или интерфейс. По-моему, так и выглядит ошибка в настройках CMS, превратившая закрытое хранилище в публично индексируемое. Именно так и выглядит случайная публикация source map — артефакт, который в нормальном CI/CD-процессе с человеческим контролем просто не прошел бы ревью.
Не то чтобы я готов обвинять Anthropic в лукавстве. Я считаю, что это сигнал, одинаково важный для всех участников рынка ИБ: работу ИИ необходимо тщательно проверять. Не «желательно», не «при наличии ресурсов» — а строго обязательно. Особенно когда речь идет об инфраструктурных процессах и публикации контента, где цена промаха выходит далеко за рамки одного проекта.
Эта история получила неожиданное продолжение. 7 апреля Anthropic выпустила Claude Mythos Preview в ограниченном режиме — доступ получили около 50 крупных корпораций и банков, включая JPMorgan, Apple, Google, Microsoft, Nvidia и Cisco. На следующий день председатель ФРС Джером Пауэлл и министр финансов Скотт Бессент провели экстренное совещание с главами крупнейших американских банков, специально собравшимися для обсуждения киберрисков, связанных с новой моделью. По данным Bloomberg, другие крупные финансовые институты также получили или ожидают получить доступ к Mythos в ближайшие дни.
Генеративный ИИ сделал фишинг главным оружием мошенников. Как бизнесу защитить себя?
В широкий доступ модель пока не поступила и, судя по всему, в ближайшее время не поступит. Anthropic предупредила, что Mythos «предвосхищает волну моделей, способных эксплуатировать уязвимости со скоростью, которая существенно опережает возможности тех, кто занимается киберзащитой». Это — редкий случай в индустрии, когда компания сознательно удерживает флагманскую модель до публичного релиза не по коммерческим причинам, а из соображений безопасности. Параллельно в рамках сопутствующей инициативы Project Glasswing Anthropic выделяет более $100 млн в виде кредитов на использование модели для задач по кибербезопасности.
Реакция рынка оказалась однозначной и предсказуемой: акции компаний в сфере кибербезопасности после публикаций о Mythos резко пошли вниз. Инвесторы сделали вывод быстрее, чем регуляторы.
Опрос Dark Reading зафиксировал, что 48% специалистов по кибербезопасности считают агентный ИИ главным вектором атак в 2026 году, ставя его выше, чем дипфейки и социальную инженерию. После новостей о Mythos эта цифра уже не кажется преувеличенной.
Я разделяю эту тревогу, но хочу точнее расставить акценты. Главная угроза — не манипуляция Claude или другими облачными моделями, имеющими этические ограничения. Реальная угроза — локальные модели без каких-либо этических ограничений, которые уже сегодня доступны в даркнете, такие как:
WormGPT, созданный на основе языковой модели GPT-J и обученный на данных о создании вредоносных программ; xxXGPT, способный создавать персонализированный ИИ-контент без каких-либо этических ограничений, который может применяться в противоправных целях — для шантажа, вымогательства и пр.; Venice.ai, который позволяет злоумышленникам без специальных технических навыков генерировать убедительные фишинговые письма, создавать функциональное вредоносное ПО и разрабатывать сложные системы слежения.
Эти инструменты позволяют злоумышленнику без серьезной технической подготовки генерировать фишинговые письма, создавать функциональное вредоносное ПО и разрабатывать атакующие сценарии.
И для использования перечисленных моделей не нужно было взламывать Anthropic.
Да, Claude — мощный инструмент, но для злоумышленника он еще и рискованный: неосторожное взаимодействие с облачной системой способно привести к его деанонимизации. Именно поэтому хакерские сообщества больше тяготеют к локальным решениям.
Что касается российских компаний, то нужно иметь в виду, что хакерское сообщество интернационально и сильно децентрализовано. Инструменты в нем тиражируются очень быстро, сразу, как только они доказали свою эффективность на практике.
ИИ ускоряет и облегчает организацию и проведение атак, но он пока не изобретает принципиально новых. Большинство дыр, которые атакующие модели находят и эксплуатируют — это не свежие zero-day уязвимости, а хорошо известные проблемы, до устранения которых годами «не доходили руки». ИИ всего лишь снижает стоимость их поиска и эксплуатации преступниками до уровня, когда они становятся доступны значительно более широкому кругу менее квалифицированных злоумышленников.
Мой вывод, во-первых, касается внутреннего использования ИИ. Вайбкодинг и ИИ-агенты для автоматизации инфраструктуры имеют очевидные преимущества — скорость, масштаб, уход от рутины. Но ИИ-код, написанный без контроля со стороны опытного разработчика, часто оказывается архитектурно уязвимым, даже если внешне выглядит респектабельным и работает без нареканий. Утечки из Anthropic — хорошая иллюстрация того, что происходит, когда ослабевает контроль даже в тех компаниях, которые сами создают эти системы!
Во-вторых, и это должен быть главный вывод: прежде чем строить защиту от угроз будущего, давайте наведем порядок в инфраструктуре настоящего. Проведите у себя аудит — силами собственного ИТ и ИБ или с привлечением сторонних специалистов, которые свежим взглядом обнаружат то, что замыленный глаз не видит изнутри.
Мы в своей компании тоже используем ИИ для поиска и анализа уязвимостей, и мы хорошо знаем, как он работает. Но у нас есть одно принципиальное правило: работу ИИ всегда проверяет человек. Он верифицирует результаты сканирования, сопоставляет с базами данных по уязвимостям, пробует сам эксплуатировать найденное — и если убеждается, что вектор атаки реален, а не является галлюцинацией модели, принимает меры. Только так рекомендации становятся работающими, а не просто красиво оформленными предположениями.
Для компаний, которые хотят оценить уровень своей реальной защищенности от киберугроз, минимальная планка — два независимых пентеста в год. А крупным холдингам я бы посоветовал организовать Bug Bounty программы и киберучения, поскольку только реальные испытания с участием «белых хакеров» могут показать, готова ли организация выявлять и отражать атаки с применением современных инструментов, будь то ИИ-агенты или что-то другое, что появится на рынке в следующие пару месяцев.
Произошедшее и происходящее вокруг Claude Mythos — не повод для паники. Подобные новости — закономерный и предсказуемый этап «гонки вооружений», которая идет в кибербезопасности с момента ее возникновения как отрасли. Появляются новые инструменты атаки — появляются новые инструменты защиты. Mythos уже сегодня работает в JPMorgan и Cisco для поиска уязвимостей в их собственных системах.
Конечно, я вижу много иронии в том, что самая мощная модель для поиска уязвимостей утекла в публичный доступ из-за банальной ошибки конфигурации. Это очередное и хорошее напоминание о том, что в кибербезопасности самым слабым звеном по-прежнему остается человек. И никакой ИИ этого не изменил и, скорее всего, не изменит.