Корпорация Google создала компьютерную программу, которая в точности имитирует голос человека, сообщает Quartz.
Новая программа, которую назвали Tacotron 2, преобразовывает текст в голосовое сообщение. Она основана на двух нейросетях глубокого обучения: одна конвертирует текст в спектрограмму, а вторая, используя алгоритм WaveNet, озвучивает полученное.
Tacotron 2 получилась по-настоящему уникальной. Например, она не только может озвучивать сложные предложения и сложно составленные тексты, но и распознаёт интонации благодаря пониманию знаков препинания. Также система может поставить смысловое ударение на слова, написанные с большой буквы.
Разработчики предложили сначала оценить восьми добровольцам звуковые записи приложения. А потом дали сравнить их с записями того же текста, озвученного реальным человеком. Оба произношения нужно было оценить по пятибалльной шкале. В итоге, человек получил 4,58 балла, а Tacotron 2 — 4,53 балла.
Правда, пока данное приложение имеет некоторое ограничение: оно синтезирует только текст и речь на английском языке и говорит только женским голосом. Но уже в будущем специалисты разнообразят сам голос, а также внесут в программу новые языки.
На настоящий момент планируется ввести технологию в сервисы Google — онлайн-переводчик и в Google Assistant.