Китайская нейросеть клонирует голоса людей за 4 секунды

Китайские специалисты из компании Baidu создали искусственный интеллект, который может копировать человеческие голоса за несколько секунд, сообщает Motherboard.

Нейросеть под названием Deep Voice «училась» имитировать голоса с помощью звукового файла с 2400 различными голосами длительностью более 800 часов. В результате ИИ может скопировать любой человеческий голос на основе 4-секундного прослушивания (год назад нейросети требовалось около получаса), и, как утверждают разработчики, голосовую копию невозможно будет отличить от оригинала. Проверить утверждение можно здесь.

Искусственный интеллект дифференцирует мужские и женские голоса и отличает британский английский от американского.

Специалисты полагают, что изобретение можно применить в различных сферах: например, чтобы помочь людям, утратившим голос; для синхронного перевода; для цифровых помощников и т.д.

«Это настоящий технический прорыв. Нам удалось решить сложнейшую генеративную проблему: мы синтезировали живую речь со всеми ее особенностями», — заявил китайский разработчик Лео Зу.

Как сообщал «Инвест-Форсайт», ранее похожего результата уже добились американцы: компания Google создала систему Tacotron 2, которая преобразует текстовые сообщения в голосовые, и этот голос практически неотличим от человеческого.

Новости

Китайская нейросеть клонирует голоса людей за 4 секунды

Инфляционные ожидания россиян подскочили

Госдума легализовала оборот криптовалют

Разрыв зарплат между регионами превысил 200 тысяч рублей