Разработчики обновили ИИ-помощник ГигаЧат, — теперь базовая модель понимает сложные запросы и генерирует тексты на более чем 30 языках народов России и стран СНГ. Кроме того, в новой версии флагманской модели алгоритмы научились запоминать контекст из прошлых бесед, что выводит персонализацию взаимодействия на новый уровень.
Отечественная нейросеть получила точечную доработку для поддержки татарского, башкирского, чувашского, удмуртского, якутского, бурятского, чеченского, осетинского, карачаево-балкарского и ряда других языков. С их учетом общее количество языков, доступных ГигаЧату, превысило 40. Переключение происходит бесшовно: вам достаточно обратиться к ИИ на нужном языке, и алгоритм автоматически подстроит формат ответов.
Аналитики выделяют несколько факторов, почему важна локализация крупных языковых моделей:
Пример ответа от ГигаЧат на осетинском языке
Также планы по развитию ГигаЧата прокомментировал Антон Фролов, старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбера:
Мы хотим сделать ГигаЧат по-настоящему массовым продуктом — таким, которым сможет воспользоваться каждый житель страны. В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни — будь то помощь ребёнку с учёбой, разбор юридического договора или инструкция по настройке новой техники.
При обучении модели возникла серьёзная проблема — многие национальные языки слабо представлены в цифровой среде. Разработчикам банально не хватало объема данных.
Чтобы компенсировать дефицит, Сбер привлек к сбору данных множество партнеров: ФГБУ «Дом народов России», энциклопедию «Рувики», а также региональные институты, библиотеки и академии наук. Обучающий набор по каждому языку варьировался от сотен тысяч до миллионов документов. В базу массивов вошли архивы, учебные материалы, новостные публикации и живая разговорная речь.
Дополнительно к процессу подключили носителей языка. Они выступали в роли экспертов по верификации: проверяли грамматику, стилистику и естественность ответов. Сообщается, что команда оптимизировала сами алгоритмы обработки национальных языков, что позволило добиться высокой точности генерации даже при компактных датасетах.
Параллельно с языковым расширением разработчики представили новую версию ГигаЧат Ультра. Ключевым нововведением стала функция долгосрочной памяти. В отличие от контекстной памяти, которая полностью сбрасывалась при завершении диалога, обновленный ИИ способен сохранять бэкграунд профиля:
Кроме того, генеративная модель ГигаЧат полностью разработана внутри страны — от разметки данных до финального дообучения — на собственной инфраструктуре Сбера.
Протестировать возможности нейросети, включая работу с национальными языками и новую систему памяти, можно бесплатно. Сервис доступен через веб-интерфейс, популярные мессенджеры, а также в формате мобильного приложения для Android (RuStore, AppGallery). Для активации голосового режима и включения долгосрочной памяти потребуется авторизация через Сбер ID и настройка профиля.
Подписывайтесь на «Рамблер» в Max! Так мы останемся на связи даже в нестабильные времена.