Экзо-татарский цифровой мир
Как помочь нейросети с государственными языками республики?
Переводчик Фархад Фаткуллин, в 2018 году объявленный "викимедийцем года" за "общественную организационную работу среди представителей сообществ, говорящих на региональных языках России", и продолжающий деятельность по сохранению и развитию родного татарского, решил написать колонку в связи с выступлением в середине апреля Александра Крайнова. Директор по развитию технологий искусственного интеллекта "Яндекса" обратил внимание, насколько мало текстов на некоторых языках в интернете.
"Их не просто недостаточно — их нет"
В месяц Тукая таким поводом стали слова директора "Яндекса" по развитию технологий искусственного интеллекта (ИИ) на форуме Data Fusion 2024 18 апреля. Он де-факто повторил три из четырех тезисов, что я ранее озвучивал на примере татарского и всех иных языков многонационального Татарстана, отвечая на вопросы местных и московских журналистов, членов правительства РТ и Комиссии по вопросам сохранения и развития татарского языка, нашего глубокоуважаемого Государственного Советника, представлял на конференциях Федерального агентства по делам национальностей, Общественной палаты и так далее, даже на семинаре в Госсовете РТ.
Перефразируя уважаемого эксперта: на экзотически редких и безумно бедных своим тематическим разнообразием текстах на казахском, узбекском и прочих татарских и бурятских языках адекватной нейросетки пока не построить. А обслуживание коммуникационных нужд носителей этих языков потребует машинного перевода поверх английского, русского, китайского, арабского или иного генеративного ядра.
Взглянем на более широкий контекст. 6 февраля на форуме "Цифровая экономика" руководитель Минцифры РФ Максут Шадаев объявил об ожидающемся доступе к "Госуслугам" через виртуальные помощники. Яндекс-станция "Алиса" уже говорит по-казахски. Работают и непрерывно совершенствуются translate.tatar и speak.tatar от Института прикладной семиотики. Люди всюду на планете активно используют ИИ для своих рабочих задач, что повышает производительность труда и создает немыслимую ранее добавленную экономическую стоимость.
Возможно, полноценный татарский культурно-ценностный виртуальный мир далеко за горизонтом, но татароязычный уже за углом.
Сделаем тексты достоянием мира
Горевать и убиваться по пока не существующей суверенной цифро-татарскости смысла нет. Со временем ситуация улучшится, особенно за счет редактирования носителями языка машинных переводов на татарский.
Учтем, что представитель "Яндекса" косвенно озвучивает общенаучный и отраслевой консенсус, что англоязычные модели ИИ в целом сильнее, точнее и надежнее — там только китайцы где-то рядом, а остальные — аутсайдеры. Не только русские, но и французы с их очень неплохим Mistral'ем. В целом же все языки и иные накопленные поколениями людей культурные знания — всеобщее нематериальное наследие. Так что все в одной упряжке. А если вспомнить основной закон кибернетики и принцип GIGO ("мусор на входе — мусор на выходе"), то человеку важно совершенствовать свое умение формулировать вопросы и задачи. Тут широкий научный кругозор, а также полноценное многоязычие и поликультурность среды, человека и всех его искусственных слуг важнее и ценнее силы, мощи и скорости.
Татарская история и культура учат двигаться только вперед, накапливать знания и переосмысливать опыт, создавать среду, удобную для взаимодействия на равных, и обогащать всех участников этого вече. В эру человеко-машинного сотрудничества ценный вклад в жизнеспособность татарской культуры делает каждый носитель языка, что доводит до ума порожденный самостоятельно или вместе с машиной татароязычный текст и делает его достоянием всего мира.
Тут всем татароязычным и прочим языковым креаторам, радеющим за будущее языка, рекомендовал бы публиковать свой контент под свободными лицензиями. Минимум CC-BY, как на kremlin.ru, tatarstan.ru, tatar-congress.org, kzn.ru и так далее. Даже при загрузке на YouTube можно указать. А лучше CC0 и аналогами — как на wikidata.org, osm.org, flikr.com и других.
Иначе разработчики всех будущих поколений нейросетей и машинных переводчиков могут начать избегать его и в РФ, и за рубежом. В апреле стало известно, что некоторые СМИ уже начали запрещать "Яндексу" использовать свой контент для ИИ.