«Он был Конан Дойлем от лингвистики». Александр Пиперски — о методе академика Зализняка, говорящих нейросетях и искусственных языках в кино

Александр Пиперски, кандидат филологических наук, научный сотрудник и старший преподаватель факультета гуманитарных наук ВШЭ, в минувшем году получил премию «Просветитель» за книгу «Конструирование языков. От эсперанто до дотракийского». Мы поговорили с Александром о скончавшемся в конце декабря академике Андрее Анатольевиче Зализняке, его вкладе в современную компьютерную лингвистику, а также о Яндексе, Алисе и искусственных языках. — Расскажи, когда ты впервые увидел Андрея Анатольевича. Потом, уже подростком, ходил на отчетные лекции по итогам летних новгородских раскопок, они еще умещались в поточке нашего первого гуманитарного корпуса МГУ. В 2005-м поступил на филфак и с 2006-го стал заниматься на семинарах Зализняка по отдельным языкам — арабскому, санскриту. — Это те самые семинары, где он за несколько занятий объяснял грамматику, синтаксис и говорил: «А дальше вы сами»? — Каким он был преподавателем? Как Андрею Анатольевичу удавалось просто и понятно объяснять очень сложные вещи? Вот есть слово, значение и происхождение которого неизвестны слушателям; Зализняк постепенно приводил «улики», складывал пазл, и историческая картина выстраивалась полностью на твоих глазах и как бы с твоим участием. — Вспомни какую-нибудь задачу. — Например, даны русские слова тень, кровать, дверь и другие; нужно определить, какое из них раньше было мужского рода, — а для этого нужно догадаться, что в современном русском остались какие-то «осколки» мужского рода искомого слова. С помощью подсказок Зализняка начинаешь ставить слова в уменьшительные формы — кроватка, дверка, тенек — и так находишь правильный ответ. Тень сменила род, а тенек остался в мужском. — Правда ли, что Андрей Анатольевич любил игру «Почему не говорят»? «В этой игре, как и в шарадах, слово разбивается на части, равные каким-то словам, а затем эти слова заменяются на близкие по смыслу. Вот прелестный пример: почему не говорят „красна чья рожа“? Ответ: потому что говорят ал-кого-лик. Лингвист охотно позабавится игрой ал-кого-лик, а вот любитель легко может поверить, что он открыл таким образом происхождение слова алкоголик. А заглядывать в этимологический словарь (из которого легко узнать, что слово алкоголь пришло из арабского) любитель не сочтет нужным — он больше верит своей интуиции. И вот мы уже слышим от него, например, что первый слог слова разум или конец слова хандра — это имя египетского бога Ра и т. п». Андрей Зализняк, «О профессиональной и любительской лингвистике». — Объясни мне и другим читателям-неспециалистам, почему классическая работа Зализняка «Грамматический словарь русского языка» стала основой для современных компьютерных программ распознавания человеческой речи. Но эта школьная грамматика не учитывает много сложностей. Например, я ставлю во множественное число слова, относящиеся ко второму склонению, дом и стол — и получаю дома и столы, совсем разные формы. — А потом читаешь Пушкина и видишь у него загадочные домы. — Именно. Но в обыденной речи нам вообще неважно, какое это склонение и почему у Пушкина домы — мы же знаем, что сейчас правильно дома. А компьютер этого не знает, и для него нужно отдельно описать, как склоняются дом и стол. И вот такое четкое описание морфологических парадигм дал Зализняк. Он формализовал то, что мы как носители языка понимаем интуитивно, и сделал это задолго до появления программ, которые теперь есть в каждом нашем телефоне и которые работают, во многом основываясь на описаниях Андрея Анатольевича. — Говоря об этих программах, в первую очередь мы имеем в виду изначально русскоязычный Яндекс. А как Гугл научился искать по-русски? — Я точно не знаю, как устроен гугловский поиск, но видно, что он уделяет гораздо меньше внимания морфологии, чем Яндекс. Если написать там и там помятые брюки, то Гугл на первых страницах выдаст результаты помятые, мятые брюки, а Яндекс — помятым, помятыми брюками и так далее. То есть Яндекс обращает больше внимания на словоизменение по падежам, числам и другим грамматическим категориям. — Как работает Алиса? В голосовом помощнике — помощнице? — Яндекса объединены решения трех основных задач компьютерной лингвистики: распознать в потоке звуков человеческой речи грамматичный текст; найти ответ на содержащийся в нем вопрос и конвертировать ответ обратно в звучащую речь. — Тебе самому Алиса нравится? — Сам Андрей Анатольевич как-нибудь рефлексировал по поводу того, что алгоритмы поиска и морфологического анализа основаны на его работах? — В ближайшие годы компьютерная лингвистика может сделать что-то прорывное для улучшения, упрощения взаимодействия между человеком и устройствами? Можно ли будет, например, полноценно надиктовывать большие тексты? — Уже примерно лет 60 лингвисты говорят: да, конечно, через пять лет все это будет! — время проходит, а ничего «этого», ничего фантастического так и не появляется. Поэтому давай я скажу то же: через пять лет мобильные устройства будут нас понимать очень круто. Если нейросети начнут «говорить» похоже на то, как это делаем мы, то нам как пользователям это, конечно, понравится. — Расскажи о своей книге. Как твое увлечение — искусственные языки — стало твоей второй специальностью? Я записал несколько лекций для «ПостНауки» и потом в разговорах с редакторами этого проекта я обмолвился, что в художественной литературе и в кино есть такие-то интересные сконструированные языки. Мне предложили написать об этом лонгрид, я долго отмахивался, меня долго пинали, и в итоге получалась эта книжка, которая мне самому неожиданно понравилась. — Как выглядит эсперанто-сообщество? Каучсерфинг раньше всего появился среди «подписчиков» эсперанто. Этот язык замечателен тем, что он объединяет людей со всего мира, — как, например, это происходит в среде коллекционеров марок и других больших тематических сообществах. — Если бы тебе предложили придумать искусственный язык для нового сериала, ты бы согласился? — Почему для нас не актуален поиск общего языка для разных людей? А в англоязычном мире диалектные особенности невероятно значимы. По речи определяют, откуда человек родом, к какому «классу» он принадлежит. Для нас это странно, потому что продавец-кассир и федеральный министр говорят примерно одинаково — подчеркиваю, не «хорошо» и не «плохо», а просто без явных различий.

«Он был Конан Дойлем от лингвистики». Александр Пиперски — о методе академика Зализняка, говорящих нейросетях и искусственных языках в кино
© Нож