Скоро ИИ будет с внуками говорить голосом бабушек

В Институте татарской энциклопедии обсудили цифровой Татарстан, недостаток финансирования и недостаток пищи для искусственного интеллекта

Скоро ИИ будет с внуками говорить голосом бабушек
© Реальное время

О цифровых технологиях, которыми пользуются работники культуры в республике, говорили на этой неделе в Институте Татарской энциклопедии и регионоведения. Данные срочно надо переводить на открытую лицензию, потому что их главный потребитель — искусственный интеллект. От этого зависит, будет ли в интернете в дальнейшем представлен локальный контент, а не "галлюцинации". Подробнее — в материале "Реального времени".

Главная татарская энциклопедия и археологическая соцсеть

Круглый стол получил название "Цифровые технологии в культуре: опыт реализации проектов в области digital humanities в Республике Татарстан". Начали беседу со своих разработок.

Лилия Давлет, старший научный сотрудник отдела электронно-цифровых ресурсов института, рассказала об онлайн-энциклопедии Tatarica, которая начала работать с конца 2018 года. Основа ее — многотомная книжная энциклопедия. Материалы для нее предоставили наши музеи и библиотеки, в частности сотни цифровых копий фото. Можно отправить и свои, особенно интересуют фото сел и деревень, праздников, быта. При этом, отметила Давлет, эти снимки не переходят в общественное достояние.

Сейчас на сайте — 26 тыс. статей, 15 тыс. изображений. Читают и смотрят их по 4 тыс. посетителей в день. Статьи актуализируются, их дополняют источниками. Те, у кого истек срок охраны авторства, выкладывают, также пополняют базу статьями советского периода. С современными материалами это проблематично, как вновь отметила Давлет, потому что с Татарским книжным издательством они не сотрудничают:

— Если мы что-то не делаем, значит, пока не имеем права.

Над энциклопедией работают четыре человека, остальные, включая IT-специалистов, совмещают работу с другой деятельностью.

Еще одна местная разработка — геоинформационная система "Культурное наследие Татарстана и татарского народа".

— Система близка к кораническому описанию того, как Бог видит Вселенную, — начал Рамис Мухаметшин, заведующий информационно-редакционным отделом Института археологии АН РТ. — Это многослойная модель, в которой можно получить любую информацию.

По сути дела, это своеобразная закрытая социальная сеть для археологов, в ней состоит 150 человек, а данные появились на основе проектов. Добившись финансирования, авторы надеются с институтом истории добавить туда информацию о языке, этимологии, топонимах, сделав систему более доступной для населения.

Что не так с сайтом о Тукае?

Пользуются работники культуры и сторонними разработками. К примеру, более 60 музеев установили у себя комплексную автоматизированную музейную информационную систему (КАМИС). Как объяснила Ольга Желовицкая, заведующая отделом учета и информатизации музейных фондов Музея изобразительного искусства РТ, ее удобство в том, что это полная база данных — с описанием, изображениями, всеми учетными операциями. Здесь можно отбирать позиции по принципу, например все портреты. Удобно при формировании выставок. Как выяснилось уже в конце дискуссии, вносить в эту петербургскую разработку данные можно и на татарском языке. При этом работники музеев спешат полностью инвентаризировать в цифре свои достояния — поэтому у многих локальных музеев экспонаты на сайтах сняты на обычные телефоны.

Схожей системой пользуется и Национальная библиотека, где работает система предзаказа книг. И медленно, но верно идет цифровизация старых книг.

— Цифровые технологии предоставляют колоссальные условия для изучения культуры, — отметила директор Института Татарской энциклопедии и регионоведения Академии наук РТ Эльмира Галимова.

Как пример она привела сайт Толстой.ру, на котором объясняются не только значения слов, но и цитаты, связи между ними, что превращает текст в базу данных.

Можно ли назвать его аналогом сайт gabdullatukay.ru? Лилия Гадельшина, главный редактор сайта, напомнила, что его создавали к 125-летию Тукая, а инициировала процесс журналистка Альфия Миннуллина. Сделан он на базе ИА "Татар-информ" за два года.

Как отметила Гадельшина, планировалось, что потом он станет основой научно-культурного центра Тукая. К 140-летию, к 2026 году, планируется обновить его техническую начинку. А вообще, указала редактор, она занимается им два раза в неделю, в свободное от основной работы время.

Искусственному интеллекту не хватает татарской литературы

Для чего нужные данные на татарском языке, о Татарстане? Самое важное сейчас — для искусственного интеллекта, для машинного обучения.

Для этого, рассказал Айрат Гатиатуллин, ведущий научный сотрудник Института прикладной семиотики АН РТ, они сейчас объединяют данные Национального корпуса татарского языка "Туган тел" и портал о языках "Тюркская морфема".

— Есть такое понятие — малоресурсные языки. Наш язык, к сожалению, к ним относится, — сказал Айрат Гатиатуллин. — Чтобы улучшать качество машинного языка для татарского и других тюркских языков, мы использовали понятие близкородственности — для хакасских, алтайских языков, где проблема ресурса еще более ярко выражена.

Но в больших языковых моделях, GPT-3 и иже с ними, наши языки, культура представлены слабо, указал Гатиатуллин. В результате они галлюцинируют, придумывая на запросы фантазийные ответы.

Что делать? Например, обогащать эти модели с помощью дополнительных локальных баз знаний, используя так называемые графы знания, то есть подробную информацию о теме со списками ссылок на другие сайты. Такие использует поисковик Google.

— Мы можем представить ресурсы наших институтов, объединить. Для этого надо представить их в общем формате, это можно реализовать с помощью графов знаний, — пояснил Гатиатуллин. — К тому же наш язык по своей структуре очень хорош для такого подхода. Сейчас в этом плане институт семиотики сотрудничает с МГТУ им. Н.Э. Баумана.

Не планирует ли институт перейти на открытый код, уточнил Фархад Фаткуллин, вице-президент Национальной лиги переводчиков. И отметил: всем презентовавшимся сайтам надо срочно переходить на открытую лицензию.

— Вы в первую очередь должны ориентироваться на то, что вашим читателем является искусственный интеллект, — указал Фаткуллин. — Если вы не дали доступа к своим богатым данным, то поисковик не будут их сканировать. А скоро ИИ будет с внуками говорить голосом бабушек.

Поэтому нужны открытые лицензии. Так поступили сайты tatarstan.ru, kzn.ru, сайты Конгресса татар, "Сэлэт" и другие. "Татарика" тоже попадает в ИИ.

— Это позволяет всем искусственным интеллектам скушать весь контент, потому что ему разрешили, — отметил Фаткуллин, назвав указанные сайты "героями татарского народа". — Я предлагаю все, что создается за счет бюджета, особенно татарское, выкладывать с открытой лицензией. И это будет работать, даже если институты закроют, а вы перестанете работать.