Китайские специалисты из компании Baidu создали искусственный интеллект, который может копировать человеческие голоса за несколько секунд, сообщает Motherboard.
Нейросеть под названием Deep Voice «училась» имитировать голоса с помощью звукового файла с 2400 различными голосами длительностью более 800 часов. В результате ИИ может скопировать любой человеческий голос на основе 4-секундного прослушивания (год назад нейросети требовалось около получаса), и, как утверждают разработчики, голосовую копию невозможно будет отличить от оригинала. Проверить утверждение можно здесь.
Искусственный интеллект дифференцирует мужские и женские голоса и отличает британский английский от американского.
Специалисты полагают, что изобретение можно применить в различных сферах: например, чтобы помочь людям, утратившим голос; для синхронного перевода; для цифровых помощников и т.д.
«Это настоящий технический прорыв. Нам удалось решить сложнейшую генеративную проблему: мы синтезировали живую речь со всеми ее особенностями», — заявил китайский разработчик Лео Зу.
Как сообщал «Инвест-Форсайт», ранее похожего результата уже добились американцы: компания Google создала систему Tacotron 2, которая преобразует текстовые сообщения в голосовые, и этот голос практически неотличим от человеческого.