Сбер представил GigaChat 2.0. Что там нового?

Как рассказали "РГ" в Сбере, теперь искусственный интеллект (ИИ) научился распознавать голосовые аудиофайлы, обрабатывать больший объем текста и распознавать изображения. Еще одной новацией стало добавление ИИ в умные колонки.

Сбер представил GigaChat 2.0. Что там нового?
© developers.sber.ru

GigaChat 2.0 научился работать с актуальными данными из интернета, сервис глубже анализирует запросы, выдавая лаконичные ответы с ссылками на источники. Главная проблема, которую решает эта возможность - выдача информации с актуальными на сегодняшний день данными, а не теми, на которых в свое время обучалась модель. Кроме того, по словам разработчиков, это позволит проводить дополнительную верификацию информации и снизить уровень "галлюцинаций", присущих таким сервисам.

В модельный ряд вошли две версии — GigaChat 2 Pro и GigaChat 2 Max. Max — это самая продвинутая модель для решения сложных и профессиональных задач, а Pro подойдет для быстрого и качественного решения повседневных задач, от получения ответов на различные вопросы до создания и редактирование текстов.

По данным бенчмарка MERA для русского языка, GigaChat 2 MAX занимает первое место среди AI-моделей. А по результатам бенчмарков формата MMLU на русском и английском языках, новый модельный ряд не уступает показателям мировых лидеров или даже превосходит их. По сравнению с DeepSeek-V3, Qwen2.5 (версия Qwen-2.5-75b), GPT4o и LLaMA 70B GigaChat 2 MAX лучше отвечает на фактологические вопросы на русском языке и следует заданному формату. Модель также опережает зарубежные аналоги на бенчмарке для оценки кодовых способностей HumanEval и более глубоко разбирается в точных науках.

Что нового в GigaChat 2.0?

Расширены возможности по работе с документами. В чат можно загрузить документ до 200 страниц текста А4 и предложить сервису проанализировать текст, например с отсылкой на тот или иной закон или норму. Или проанализировать банковскую выписку на предмет того, как можно оптимизировать расходы.

Значительно расширены возможности по работе с аудизаписями, что особенно оценили журналисты. В частности, новая модель воспринимает звуковые данные напрямую, без промежуточного преобразования в текст. Она может расшифровать запись, структурировать по основным смыслам, выбрать главное, ответить на вопросы по сути записи в формате "прослушай и скажи, почему собеседники не поняли друг друга". Заявлена поддержка файлов длительностью до 60 минут и 30 Мбайт.

На практике это достаточно трудно реализовать например при записи на iPhone, так как часовая запись в формате OGG весит порядка 140 Мбайт, так что надо либо записывать в другие форматы, либо ограничиваться краткими 5-10-минутными аудио, что резко сужает использование сервиса. Более легкие же записи в формате м4а обработать так же не удалось - сервис выдал сообщение об ошибке. Однако есть возможность расшифровывать голосовые сообщения.

Расширены возможности и работы с видео. GigaChat 2.0 способен обработать видео по ссылке. В том числе по ссылке на YouTube. (С учетом того, что из-за деградации платформы в России анализ такого видео может потребовать больше времени. За счет понимания аудиодорожки модель может рассказать основную суть ролика или ответить на вопросы по содержанию.

Расширены и возможности по работе с изображениями. GigaChat 2.0 научился извлекать больше информации из изображений и анализировать ее по смыслу. В том числе речь идет и о текстовой информации.

Генеративные возможности сервиса так же были расширены. В частности существенно прокачаны генерация музыки и песен по текстовому запросу. Теперь максимальная длительность трека достигает 3х минут, при этом генерация занимает столько же времени (около 1 минуты). В том числе доступна генерация на иностранном языке, например на китайском.

Кроме того, заявлено о том, что GigaChat 2.0 теперь работает в голосовых помощниках "Сбера". Это позволило перейти на модель полностью живого диалога с пользователем. Теперь ИИ управляет не только диалогом, но и прикладными навыками, такими как музыка или напоминания. А еще несколько команд можно задавать сразу в одном обращении - колонка переключится между ними самостоятельно.

Ранее в Яндексе рассказывали, что внедрили в чат с Алисой мощную языковую модель нового поколения — YandexGPT 5 Pro. Теперь в чате с Алисой Про можно решать самые разные задачи, от личных и учебных до профессиональных. YandexGPT 5 Pro отвечает на запросы на уровне лучших мировых аналогов, а в некоторых типах задач превосходит их результаты.