Джевдет Сулейманов: "Каждый тюркский диалект нес свою часть картины пратюркского языка"

12 ноября 2024, 00:00

Чем татарский ценен для объяснимого искусственного интеллекта — следующего шага в развитии ИИ

Джевдет Сулейманов: "Каждый тюркский диалект нес свою часть картины пратюркского языка" — © Реальное время

В Казани прошла ХII Международная конференция по компьютерной обработке тюркских языков TurkLang 2024. По мнению спикеров, именно эти языки в силу своих качеств лучше всего подходят для создания объяснимого искусственного интеллекта, который сделает технологию ИИ более понятной и прозрачной, а также расширит сферу его применения в жизни. Но для того, чтобы его внедрить, необходима совместная работа ученых всех тюркских народов.

Без цифры развитие невозможно

"Сейчас мы наблюдаем, как цифровые технологии приобретают все больше значения в нашей жизни и без их развития жизнь наших родных языков невозможна", — с таких слов началась конференция, которая впервые состоялась в Астане в октябре 2013 года. Ее также проводили в Стамбуле, Бишкеке, Ташкенте, Симферополе, Уфе, Кызыле, Нур-Султане и Бухаре, а в 2015-м организовали в Казани. В следующем году будет юбилей той встречи, поэтому президент Академии наук РТ Рифкат Минниханов обратился к организаторам с предложением в 2025-м провести ее в татарстанской столице в четвертый раз — возражений не было.

Всего в конференции участвовало более 150 экспертов из России, Казахстана, Узбекистана, Германии, США, Кыргызстана, Азербайджана, Японии, Мексики, Турции, Южной Кореи, Тайваня. Ученые заслушали и обсудили 82 доклада, причем две трети — в формате оффлайн. Обсуждали, в частности, вопросы национальной локализации компьютерных систем и терминологию, системы морфологической и синтаксической обработки текстов, машинный перевод и речевые технологии.

Заместитель министра цифрового развития республики Булат Габдрахманов отметил, что сейчас особенно важна связь экспертов в IT и коллег из сферы науки:

— Разработчики и команды, которые реализовывают решения в IT-сервисах, очень вовлечены в вопросы искусственного интеллекта в области синтеза речи, а также ИИ, связанного с различными языками. Мы видим это на хакатонах: молодежь заинтересована в реализации самых смелых решений в области синтеза речи, искусственного интеллекта, связанного с языками, с том числе, разумеется, татарского языка. Хочется, чтобы этот симбиоз был теснее и превращался в реальные проекты, результаты, которые смогут применять все тюркоязычные народы.

Татарский язык — это естественная морфология, рекурсия, фрактальность

Конференцию посвятили Году научно-технологического развития в республике и 15-летию Института прикладной семиотики АН РТ. Рассказывая о своей деятельности, директор ИПС Ринат Гильмуллин отметил: "Ни у кого же не вызывает сомнений, что если мы хотим сохранить язык, то он должен активно внедряться в цифровое пространство".

Не все достижения института широко известны вроде локализации Windows и Astra или совместные с Минцифрой РТ разработки, пособия для пятого класса для обучения онлайн. При этом популярен и продолжает развиваться переводчик TatSoft, получивший в общей сложности 30 млн запросов из 136 стран. В этом году в него был внедрен речевой веб-сервис анализа речи. С помощью него наши чиновники переводят нормативно-правовые документы.

Также он добавил, что сейчас в перспективе у института — разработка облачной платформы api.tatar.ai: это образовательные сервисы, использующие голосовой ввод, автоматизированные колл-центры и телефонные роботы, ИИ на татарском, автоматическое распознавание и перевод речи выступлений, современный литературный портал на татарском.

К слову, проекты ИПС заслужили похвалы Андрея Михеева, представителя "Яндекса". Он подробно рассказал, как его компания внедряла машинный перевод для различных языков, сообщив, что для освоения марийского потребует неделю обрабатывать несколько миллионов примеров на видеокарточке стоимостью квартиры ("не в Казани, я посмотрел, здесь просто ужас") в небольшом городе России.

Татарский у "Яндекса" появился, наряду с башкирским, якутским и башкирским, давно, благодаря тому, что у языка есть большая база данных. При этом среди моделей, по которым систему обучали, была и такая, которая училась сразу по всем тюркским языкам.

"Вопрос совместимости баз данных мы ставим на каждой конференции"

С программным заявлением выступил сопредседатель программного комитета Джавдет Сулейманов, главный научный сотрудник Института прикладной семиотики АН РТ. Напомнив, что искусственный интеллект представляет собой не только решение, но и угрозу, он указал, что одним из решений обуздания ИИ ученые видят создание объяснительного искусственного интеллекта — eXplanatory AI, XAI. Для него лучше подходят тюркские языки. Дело это непростое, скажем, только для татарского это означает внедрение 100 тысяч корневых морфем, 200 словообразовательных морфем и более 90 аффиксальных морфем, не считая диалектов и говоров.

— Вопрос совместимости баз данных мы ставим на каждой конференции, — отметил Сулейманов, добавив, что при этом они с коллегами не сильно продвигаются в направлении, ученые все еще работают разрозненно.