DeepSeek: что ищут нейросети на такой глубине?
Китайский стартап DeepSeek продолжает еженедельно поставлять инфоповоды разной степени остроты и, судя по всему, не думает останавливаться. Как и полагается, у компании и ее продукции появились как ярые поклонники, так и бескомпромиссные критики. Факты, касающиеся этой технологической компании, весьма противоречивы и далеко не всегда проверяемы, однако по состоянию на начало 2025 года можно с определенной долей осторожности утверждать, что Китаю удалось создать многофункциональную конкурентоспособную нейросеть на уровне, как минимум сопоставимом с продукцией ведущих американских компаний. Споры о том, во сколько обошлось ее обучение, как и о том, в каких вычислительных ресурсах нуждаются модели семейства DeepSeek, не утихают по сей день. Причем вне зависимости от того, где именно будет поставлена точка в этом вопросе, очевидно, что DeepSeek продолжает оказывать чрезвычайное влияние на внутренний (китайский) и мировой рынок нейросетей, чат-ботов и других ИИ-продуктов.
Успех в Поднебесной
В Китае продолжается процесс повсеместного внедрения и использования языковых моделей семейства DeepSeek, в частности V3 и R1. Каждую неделю появляется информация о новых сервисах и услугах, в которых уже применяется нейросеть или вот-вот планируется. Основные направления — автомобильная промышленность, телеком-сектор, производство смартфонов, бытовой техники, образование, здравоохранение и госсектор. В частности, об интеграции большой языковой модели DeepSeek в свои продукты и сервисы уже объявили такие компании, как China Mobile, China Telecom, China Unicom, Tencent, Lenovo, и многие другие. Производители смартфонов Huawei, Oppo, Xiaomi, Honor, Vivo заявили, что уже в ближайших обновлениях будет подключена поддержка функций на базе моделей DeepSeek. В частности, компания Huawei уже использует модель R1 в своем голосовом ИИ-помощнике Celia/Xiaoyi (аналог Siri): пользователь может переключаться между «думающим» и «быстрым» режимами ответов ассистента.
Также о планах по использованию модели заявили более двадцати китайских автомобильных брендов, которые планируют использовать нейросеть для улучшения существующих ИИ-функций, в том числе голосового управления и картографических сервисов. Например, известная компания Geely намерена очеловечить реакции своего ИИ-помощника на команды водителя. На рынке бытовой техники отличилась компания Midea, запустившая в производство серию кондиционеров и сплит-систем с интегрированным помощником на базе DeepSeek. На внутреннем рынке Поднебесной также можно найти холодильники и пылесосы с поддержкой нейросетей.
Согласно информации пекинского издания Economic Observer News, более ста больниц по всему Китаю собираются использовать DeepSeek в своей ежедневной деятельности. Предполагается, что DeepSeek будет помогать врачам в диагностике болезней и подборе лечения, анализе рентгенологических снимков, обеспечении контроля качества медицинских записей, а также в научно-исследовательской работе, связанной с лекарственными препаратами.
Уже существуют кейсы по интеграции нейросетевых моделей в работу государственных учреждений. В рамках некоторых практических экспериментов было выяснено, что DeepSeek можно использовать для эффективной работы с документами, включая создание совершенно новых. Заявлено, что в отдельных округах работу с нейросетевыми инструментами смогли протестировать коллективы в несколько тысяч и даже десятков тысяч человек. Теперь повсеместно по стране проводятся тренинги по обучению основным навыкам работы с DeepSeek государственных служащих.
Обратная сторона Луны
У набирающей обороты популярности DeepSeek есть и обратная сторона. По данным американского издания The Information, стартап DeepSeek было решено признать китайским национальным достоянием, что накладывает определенные ограничения на его сотрудников и инвестиции в него. Так, по слухам, части ключевых сотрудников компании приказано сдать документы для заграничных поездок на хранение начальству. Правда это или нет — вопрос открытый, однако это вполне возможно, если учесть, что нейросети и эксперименты с ИИ-технологиями сегодня признаны стратегически важным направлением в большинстве стран мира. Очевидно, что топ-менеджеры и программисты DeepSeek имеют доступ к коммерческим и, вероятно, государственным тайнам, так что ограничение на выезд из страны в теории может снизить вероятность утечек. Рекомендация избегать поездок в США касается всех сотрудников компании. Кроме того, на фоне чрезвычайного интереса зарубежных инвесторов к китайскому фондовому рынку регуляторы Поднебесной вынуждены более тщательно проверять такие заявки.
Нейросети выходят за пределы человеческого знания
На другом конце света, за океаном, а именно в США определенные политические силы уже несколько раз озвучивали идею полного запрета использования любых китайских нейросетей, включая семейство языковых моделей DeepSeek. Особо рьяные поборники безопасности страны предлагают запретить не только китайские нейросетевые сервисы, но и аналогичные продукты из других недружественных США стран: остается только гадать, какие государства входят в этот перечень. Впрочем, достаточно ознакомиться со списком стран, в отношении которых США ввели максимум санкций, и все станет ясно. За запрет китайских технологических достижений выступает, например, американская компания OpenAI, известная разработкой ChatGPT: ничего удивительного в этом нет, ведь если существует возможность с легкостью устранить конкурента, почему хотя бы не попытаться ей воспользоваться. Представители OpenAI аргументируют необходимость запрета DeepSeek угрозами национальной безопасности США, а именно утечками конфиденциальной и секретной информации.
Предложение OpenAI было представлено властям США в рамках «Плана действий в сфере ИИ» (AI Action Plan), который при определенном стечении обстоятельств может стать законом. Однако на данный момент полноценного запрета моделей DeepSeek на территории США нет. Тем более что большими языковыми моделями семейства DeepSeek можно пользоваться, развернув их локально, без каких-либо обращений к китайской вычислительной инфраструктуре. В таком случае было бы глупо совсем отказаться от возможности полноценно исследовать продукт конкурентов. Однако отдельные запреты на применение DeepSeek в США все же существуют. Например, Министерство торговли США запретило своим сотрудникам взаимодействовать с китайским чат-ботом с рабочих устройств. Запрет касается не только веб-сервиса, но и любых приложений, интегрированных с DeepSeek, как мобильных, так и компьютерных. Также известно о локальных запретах нейросети в штатах Вирджния, Техас и Нью-Йорк.
Следует признать, что массивы данных, с которыми работают нейросети, действительно могут включать чувствительную информацию, которой пользователи вольно или невольно делятся при работе с ней. К тому же хотя официально DeepSeek является частной компанией, не связанной с государством напрямую, в реальности это не совсем так. Компании подобного масштаба не могут не взаимодействовать с государственными структурами и чаще всего получают с их стороны не только поддержку и доступ к инфраструктуре, но и повышенное внимание спецслужб к своей деятельности. Это касается не только китайской DeepSeek, но и проектов подобного уровня в других странах (ChatGPT в США, YandexGPT в России, и т.д.). Кроме того, важно понимать (не только американцам, но и россиянам), как работает с данными и хранит их сервис DeepSeek. Это происходит исключительно на китайских серверах, где аккумулируются пользовательские данные, такие как IP-адреса, ОС, user-agent браузеров, файлы cookie, отчеты об ошибках и многое другое. Очевидно, что там же хранится и изучается история всех пользовательских запросов.
Прорыв или нет?
Пока в Китае продолжается бум прикладного использования самой популярной на сегодняшний день китайской нейросети, а в США ищут способы, как обезопасить американских пользователей от чрезмерного обмена чувствительными данными с потенциальным геополитическим противником, под сомнение поставлено одно из важнейших утверждений, внесшее существенный вклад в стремительную популяризацию DeepSeek.
Ранее считалось, причем не в последнюю очередь благодаря заявлениям представителям китайской компании, что на обучение и поддержание функционирования последних версий моделей DeepSeek тратится гораздо меньше денег и вычислительных ресурсов, чем у конкурирующих продуктов сопоставимого уровня. Однако в мартовском интервью CNBC гендиректор Nvidia Дженсен Хуанг (Jensen Huang) заявил, что эксперты ошиблись, а новая версия DeepSeek является довольно прожорливой в отношении вычислительных мощностей. В то же время глава Nvidia считает модель DeepSeek R1 фантастической, поскольку это первая рассуждающая модель с открытым исходным кодом, способная с помощью анализа и логики приходить к выводу о правильности или неправильности собственных ответов. Однако для ее нормальной работы, по его мнению, требуется в сто раз больше вычислительной мощности, чем считалось ранее. Конкретных цифр он не привел.
Прорыв года? Изменит ли DeepSeek рынок ИИ
Понять эмоции г-на Хуанга несложно, особенно если учесть, что в конце января текущего года информация о потенциальных возможностях R1 стала одной из причин массовой распродажи акций компаний, связанных с ИИ-вычислениями и нейросетями. Тогда акции Nvidia (графические процессоры, SoC-чипы и т. п.) упали на 17%, ASML Holding NV (литографическое оборудование) — на 8%, а Siemens Energy (энергетическое оборудование) — на 20%.
На фоне этого обвала интервью г-на Хуанга, в котором он сообщает о продолжении вложений в ИИ-инфраструктуру и партнерских отношениях с Dell, HPE, Accenture и другими, выглядит уместным успокоением потенциальных инвесторов в американский бигтех. Он также отметил, что вектор развития нейросетей постепенно смещается от генеративных ИИ в сторону рассуждающих (думающих) моделей, к семейству которых принадлежит и последняя версия DeepSeek. Г-н Хуанг уверен, что мировые капитальные расходы на вычислительную инфраструктуру в конце текущего десятилетия могут достигнуть $1 трлн, причем большая часть этих ресурсов будет использоваться ИИ.
Немного истории
Началось все в феврале 2016 года, когда три молодых специалиста из Чжэцзянского университета в городе Ханчжоу основали компанию Ningbo High-Flyer Quantitative Investment Management Partnership (High-Flyer), которая на первых порах занималась технологиями машинного обучения для торговли акциями. Через несколько лет, в 2019 году они открыли еще одну компанию — High-Flyer AI, основной деятельностью которой стало исследование алгоритмов искусственного интеллекта. В апреле 2023 года High-Flyer сообщила о старте нового проекта для исследований возможностей ИИ общего назначения. И уже в мае того же года родилась компания DeepSeek, которую возглавил один из со-основателей инвестиционного фонда High-Flyer Лян Вэньфэн (Liang Wenfeng). Сегодня вся деятельность под брендом DeepSeek продолжает финансироваться материнским хедж-фондом High-Flyer.
Дальше все развивалось еще быстрее. Уже 2 ноября 2023 года общественности была представлена первая модель и сервис DeepSeek Coder. К слову, она была бесплатной даже для коммерческого применения. 29 ноября 2023 года компания запустила большую языковую модель DeepSeek LLM на 67 млрд параметров, которая была сравнима с GPT-4. Однако у этой версии ПО возникли проблемы с эффективностью вычислений и масштабируемостью.
В мае 2024 года была представлена DeepSeek V2. В ноябре 2024 года появилась первая версия DeepSeek-R1-Lite-Preview, предназначавшаяся для задач, требующих нестандартного подхода, логических выводов, математических рассуждений и т. п. Наконец, в декабре того же года появилась DeepSeek V3. Согласно некоторым оценкам, эта версия опередила по производительности Llama 3.1 и Qwen 2.5 и находилась примерно на том же уровне, что GPT-4o и Claude 3.5 Sonnet. DeepSeek V3 содержит 685 млрд параметров и поддерживает мультиэкспертную архитектуру MoE, которая позволяет разбивать сложные задачи на несколько простых и решать их в виде параллельных потоков. Для обработки запросов используются так называемые эксперты, то есть специализированные нейронные сети, каждая из которых обучена для решения задач определенных категорий.
В январе 2025 года были представлены модели DeepSeek-R1 и DeepSeek-R1-Zero, основанные на V3. На данный момент именно они считаются наиболее продвинутыми версиями нейросетей семейства DeepSeek. Они относятся к классу так называемых рассуждающих или мыслящих моделей, которые имитируют процесс мышления человека. Согласно некоторым оценкам, R1 примерно соответствует по качеству, эффективности и производительности конкурирующей модели рассуждений OpenAI o1 (первая подобного класса в семействе нейросетей от OpenAI), которую американцы представили 12 сентября 2024 года.
С чего начать?
Начать стоит с того, что чат-бот DeepSeek работает в России без каких-либо явных ограничений, поэтому, чтобы запустить его, нет нужды заниматься сетевой эквилибристикой. Кроме того, поскольку для обычных пользователей модель предоставляется бесплатно, нет и проблем с оплатой. То есть достаточно зайти в веб-версию сервиса или открыть соответствующее официальное приложение на мобильном устройстве под управлением ОС Android или iOS, зарегистрироваться и начать работу.
Зарегистрироваться в сервисе из России можно тремя способами: с помощью электронной почты; с помощью аккаунта Google; по номеру телефона, начинающегося с «+86». Интерфейс сервиса прост и напоминает ChatGPT. По центру расположено основное поле для ввода запросов. Под ним находится кнопка DeepThink (R1), которая активирует модель рассуждений R1. Рядом и правее виднеется кнопка Search, подключающая режим поисковика по Сети. Еще правее расположена кнопка в виде символа скрепки, с помощью которой в чат-бот можно загрузить до 50 файлов (документы и т. п.), каждый размером не более 100 Мбайт. В самом конце расположена кнопка с символом стрелки вверх, которая отвечает за отправку файлов и/или сообщения после набора. В левой стороне окна находится история запросов, с помощью которой можно вернуться к диалогу с определенным контекстом и продолжить общение с нейросетью. Также здесь можно инициировать новый чат, если диалог в центральном окне уже закончен. Внизу левой боковой панели расположена кнопка My Profile, где можно получить доступ к весьма скромному меню настроек: можно выбрать язык (английский, китайский, системный), тему оформления (светлая, темная, системная), увидеть персональные данные, с которыми регистрировались в сервисе (имя, адрес электронной почты, телефонный номер), удалить всю историю переписок с чат-ботом одной кнопкой, удалить аккаунт или отозвать свое согласие на использование ваших переписок с нейросетью для ее непрерывного обучения. Также здесь можно ознакомиться с юридическими документами и правилами предоставления услуг сервиса.
Мы не будем подробно останавливаться на возможностях чат-бота. Проще сказать, чего он не умеет: в данный момент DeepSeek не работает с изображениями. Чтобы анализировать существующие изображения и создавать новые, предлагается использовать специальную отдельную модель Janus Pro. Пользователи сообщают и о проблемах при работе с другими документами, в частности с PDF-файлами, однако это может быть связано с перегрузкой сервиса из-за наплыва пользователей. Кроме того, есть вероятность, что создатели сервиса обдумывают варианты с доступом к некоторым функциям сервиса в рамках платных тарифов. На мой взгляд, этот праздник нейросетевой жизни на бесплатной основе не может продолжаться вечно. Впрочем, это только мои предположения.
Недостатки
Естественно, такой масштабный продукт подвергается существенной критике со стороны конкурентов и специалистов. Главное, за что критикуют DeepSeek, — наличие цензуры при выдаче ответов на вопросы по определенным, болезненным для Китая темам. В основном дело касается политических и геополитических вопросов, таких как статус Тайваня, оценка событий на площади Тяньаньмэнь в 1989 году, проблемы населения в Синьцзян-Уйгурском автономном районе и прочие аналогичные ситуации. Комментировать некоторые вопросы нейросеть просто отказывается, тогда как по другим выдает скучную официальную позицию КНР.
Что касается главного конкурента DeepSeek — американской нейросети ChatGPT, то в настоящее время там придерживаются политики «поиска истины вместе», то есть по спорным вопросам нейросеть должна предложить пользователю разные точки зрения. По мнению руководства компании, чат-бот должен придерживаться нейтральной позиции, а его основная задача — информировать пользователя, а не формировать у него определенные взгляды. Звучит красиво и хорошо, если это действительно так. Действительно, ChatGPT не редактирует свои ответы по чувствительным для США вопросам столь явно, как это иногда делает DeepSeek, однако к вопросам безопасности в американской компании относятся не менее чутко. В частности, в июне 2024 года в состав совета директоров и комитета безопасности OpenAI вошел бывший высокопоставленный сотрудник разведки США Пол Накасоне (Paul Nakasone). Генерал армии в отставке, был главой Кибернетического командования США, директором Агентства национальной безопасности (NSA) и главой Центральной службы безопасности (CSS). 1 февраля 2024 года он закончил военную службу, а уже летом стал членом совета директоров OpenAI. Зачем — вопрос риторический.
Следующий момент, вызывающий критику, — информация о стоимости и методах первичного обучения нейросети, а также об оценке вычислительных мощностей, которые требуются для полноценного функционирования нейросети. Изначально утверждалось, что стоимость обучения последних версий DeepSeek значительно ниже, чем у конкурентов, но сегодня эта информация подвергается сомнению. Представители OpenAI и спецпредставитель президента США по ИИ и криптовалютам Дэвид Сакс (David Sacks) даже высказали предположение, что DeepSeek использовала модели конкурентов для обучения. Президент США Дональд Трамп (Donald Trump) также настороженно отнесся к шумихе вокруг DeepSeek, охарактеризовав ситуацию как тревожный звонок (wakeup call) для американских технологических компаний. Реакция американского руководства говорит сама за себя.
Не менее существенной проблемой является то, что модель ограничена данными по состоянию на 2023 год, что вызывает легкое недоумение. Когда спрашиваешь нейросеть о конкретных событиях 2024 года, то модель R1 (режим DeepThink) заявляет следующее: «Поскольку сейчас апрель 2023 года, информация о событиях 2024 года еще не существует», а модель V3 (та, что по умолчанию): «На момент октября 2023 года у меня нет информации о событиях 2024 года». Почему эти модели ничего не знают про события 2024–2025 годов, и не связано ли это как-то с проблемами цензуры результатов, неизвестно. Справедливости ради, чат-бот ChatGPT также существует где-то в прошлом, не всегда корректно оценивает текущую дату, а на вопрос о событиях 2025 года отвечает следующим образом: «На данный момент 2025 год еще не наступил, поэтому я не могу точно предсказать события этого года». Это связано с особенностями обучения нейросетевых моделей и свежестью соответствующих баз данных. Сложно оценить все сценарии, в которых это может оказывать влияние на результаты, а потому не стоит забывать о главном: любые нейросети периодически ошибаются и даже обманывают пользователей (или имитируют обман, если такая формулировка облегчит восприятие реальности).
Битва титанов
Битва нейросетевых титанов только началась. Как на международном, так и на внутреннем рынке Китая. Пока в Поднебесной продолжается бум внедрений DeepSeek, конкурирующие китайские компании не теряют времени даром и создают свои собственные новые нейросетевые модели. Свою нейросеть Doubao-1.5-pro представила компания ByteDance, известная разработкой социальной сети Tik-Tok. Продолжает работать над семейством нейросетей Qwen не менее известная китайская компания Alibaba: недавно представлена версия модели Qwen2.5-1M. Компания Baidu также выпустила сразу две большие языковые модели Ernie 4.5 и Ernie X1. Все перечисленные сервисы успешно конкурируют между собой и с DeepSeek, как минимум на внутреннем рынке страны. Несмотря на то что научными и практическими успехами в области ИИ и нейросетей, кроме США и Китая, могут также похвастать Великобритания, Германия, Израиль, Канада, Россия, Южная Корея и Япония, основная борьба развернулась между американцами и китайцами. Стоит заметить, что ставки на ИИ-сегмент сделаны чрезвычайно большие. Что из этого получится и не окажется ли так, что лет через пять планетой будет управлять «нейросетевой разум», или пузырь, наоборот, лопнет — пока неизвестно.