Инженеры создали наушники-переводчики с искусственным интеллектом – видео

Команда из Вашингтонского университета представила прорывную технологию для одновременного перевода речи нескольких собеседников, включая их интонации и пространственное положение. Разработка была представлена 30 апреля на конференции ACM CHI по взаимодействию человека и компьютера в Иокогаме, Япония. Исследование возглавили доктор философии Туочао Чен и профессор Шьям Голлакота, а также студенты и аспиранты школы компьютерных наук и инженерии Пола Дж. Аллена.

Система под названием Transtial Speech Translation встроена в наушники с активным шумоподавлением и несколькими микрофонами. Она способна в реальном времени определять, кто и где говорит, переводить речь и воспроизводить ее с задержкой 2–4 секунды, при этом сохраняя тембр, интонацию и направление источника звука — как если бы каждый говорящий продолжал говорить своим голосом, но уже на языке пользователя.

«Впервые мы сохранили не только смысл, но и звуковую индивидуальность каждого человека — и направление, откуда идет речь», — объясняет Шьям Голлакота.

Технология с эффектом присутствия

В отличие от стандартных систем перевода, где после паузы звучит механический голос, Transtial работает в 360-градусной звуковой среде, отслеживая движение говорящих и распределяя переводы в пространстве. Это делает возможным, например, распознавание разных голосов на многолюдной экскурсии, как в случае с Ченом (одним из соавторов исследования), который в Мексике пытался воспользоваться обычным приложением, но столкнулся с шумом и потерей смысла.

«Наши алгоритмы работают как радар. Они постоянно сканируют пространство и могут определить, разговаривает ли один человек или шесть», — рассказал Чен.

Система использует локальные вычисления (например, на ноутбуках с чипом Apple M2 или в гарнитуре Apple Vision Pro), избегая облака из соображений конфиденциальности — особенно при клонировании голоса. Технология имитирует голос каждого говорящего, но делает это локально и безопасно.

Пользовательские тесты: реализм, точность и комфорт

Тестирование проводилось в 10 разных сценариях: в помещении, на улице, при движении участников. В эксперименте с 29 пользователями система получила высокую оценку за реализм перевода и ориентацию в пространстве, в сравнении с системами, которые не отслеживают направление речи.

В ходе исследования и создания устройства, ученые выяснили, что наиболее комфортной оказалась задержка в 3–4 секунды, при которой система совершала меньше ошибок. При 1–2 секундах точность страдала. Это показывает необходимость компромисса между скоростью и качеством перевода.

Пока Transtial работает только с естественной, повседневной речью и поддерживает испанский, немецкий и французский. Однако предыдущие наработки команды позволяют надеяться, что в будущем будет возможно расширение до около 100 языков.

«Это шаг к разрушению языковых барьеров. Даже если я не говорю по-испански, я могу идти по улице и понимать, кто что сказал», — говорит Чен.

Исходный код proof-of-concept уже доступен для разработчиков. В планах команды — сокращение задержки перевода, расширение языковой базы и адаптация к более сложным темам речи, таким как технический или медицинский жаргон.

Субтитры станут главной функцией умных очков будущего — вот почему

Ученые выяснили, почему взрослым лучше учить язык на слух