Специалисты из Университета Вашингтона разработали пробный вариант умных наушников, способных автоматически распознавать и усиливать речь собеседников в шумных условиях. Их изобретение устраняет эффект «коктейльной вечеринки», упрощая коммуникацию в людных местах. Итоги работы были озвучены на конференции Empirical Methods in Natural Language Processing (EMNLP) в китайском Сучжоу и размещены в архиве препринтов arXiv.
Оснащение системы (получившей название «проактивные аудиоассистенты») включает две модели искусственного интеллекта. Первая изучает звуковой поток, идентифицируя динамику беседы по принципу «кто и в какой момент говорил», фиксируя последовательность высказываний. Вторая распознает голоса, соответствующие выявленному паттерну, и приглушает посторонние шумы. Для распознавания собеседника в многолюдном пространстве устройству достаточно 2-4 секунд аудиозаписи.
«Современные методы определения фокуса внимания часто предполагают вживление электродов в мозг для контроля нейронной активности, — пояснил ведущий автор проекта, профессор Шьям Голлакота. — Наше решение основано на естественном ритмическом рисунке разговора, где реплики следуют друг за другом. Искусственный интеллект способен распознавать и отслеживать эти паттерны, используя исключительно акустические данные».
Эксперимент с участием 11 добровольцев продемонстрировал, что очищенный искусственным интеллектом звук получил оценку в 2 раза выше по параметрам подавления шума и четкости воспроизведения по сравнению с исходным. Технология поддерживает общение с группой до четырех человек.
Как заявил аспирант Гуйлинь Ху, прежние версии разработки требовали ручного обозначения говорящего или установления дистанции прослушивания. Обновленная система действует автономно — она самостоятельно определяет намерения пользователя без его вмешательства.
Создатели признают, что устройства могут испытывать трудности в диалогах с частыми перебиваниями или длинными монологами. Дополнительно, модели прошли тестирование лишь на английском, китайском (мандарин) и японском языках, поэтому для поддержки других языков потребуется адаптация.
Прототип собран с использованием серийных накладных наушников, микрофонов и электронных компонентов. Следующая цель команды — миниатюризировать систему для внедрения в компактные девайсы, такие как слуховые аппараты или внутриканальные гарнитуры.
Исходный код проекта находится в открытом доступе на платформе GitHub.
Текст: Наталья Травова
Изображение: Freepik

