Группа ученых из Университета Суррея во главе с Эндрю Симпсоном представила искусственную нейронную сеть, способную выделять человеческий голос из посторонних шумов. Таким образом, был сделан первый шаг к решению проблемы «эффекта вечеринки». Препринт работы доступен на arXiv.org.
В рамках работы исследователи использовали 50 музыкальных композиций – их нарезали на отрезки длиной 20 секунд. Затем эти отрезки преобразовали в спектрограммы (диаграммы, показывающие изменения плотности мощности сигнала), и ввели в базу данных для специально созданной машинной нейронной сети.
Перед ней стояла задача отделить человеческий голос (голос певца) от звуков музыкальных инструментов. После процесса глубокого обучения ИНС получила 13 песен, с которыми до этого дела не имела. С первого раза сеть смогла корректно отделить музыку от голоса с высокой точностью.
Тем не менее, исследователям пока не удалось создать такую ИНС, которая бы смогла вычленять голос из хора голосов. Сейчас ученые продолжают работать над этой задачей.