O VALL-E AI da Microsoft É Capaz de Imitar uma Voz Humana em um Padrão de Três Segundos

Os engenheiros da Microsoft introduziram uma IA (inteligência artificial) modelo para conversão de texto em fala chamado VALL-E. É capaz de imitar uma voz humana, contando apenas com uma amostra de som de três segundos.

Os desenvolvedores afirmam que VALE pode sintetizar áudio, onde a voz “aprendida” diz algo, mantendo até mesmo a coloração emocional.

Você também pode estar interessado em nosso artigo: Por que os assistentes de voz podem ser perigosos? E também, por exemplo, Como bloquear chamadas prováveis de fraude no iPhone e Android.

E também deixe-me lembrá-lo que a mídia escreveu isso Os invasores usam software de mudança de voz para enganar suas vítimas.

Os criadores chamam VALE um “modelo de linguagem de codec neural” e acreditam que a novidade pode ser usada para alta qualidade conversão de texto em fala formulários, edição de fala, quando uma gravação de fala pode ser editada e alterada a partir de uma transcrição de texto (aquilo é, uma pessoa vai “dizer” algo que não disse originalmente), bem como criar conteúdo de áudio em combinação com outros modelos generativos de IA, como GPT-3 (por trás do sensacional ChatGPT).

VALL-E é baseado no EnCodec tecnologia que meta anunciado em outubro 2022. Ao contrário de outros métodos de conversão de texto em fala, VALL-E gera códigos de codec de áudio discretos a partir de texto e sinais acústicos recebidos.

Essencialmente, VALL-E analisa como uma pessoa soa, divide essas informações em componentes discretos (chamados de “tokens”) com EnCodec, e usa os dados de treinamento para correlacionar o que “sabe” sobre como aquela voz soaria se falasse outras frases fora do padrão de três segundos.

Microsoft ensinou síntese de fala VALL-E no LibriLight biblioteca de som, que contém 60,000 horas de discurso em inglês de mais de 7,000 meios de comunicação (em sua maioria retirados de audiolivros de domínio público em LibriVox). Para que VALL-E tenha um bom desempenho, a voz na amostra de 3 segundos deve ser semelhante à voz nestes dados de treinamento.

Em um site especial da Microsoft, dezenas de exemplos de trabalho VALL-E são dados.

Interessantemente, além de preservar o timbre e o tom emocional do locutor, VALL-E também pode simular “ambiente acústico” de uma amostra de áudio. Aquilo é, se a amostra for colhida, por exemplo, de um telefonema, a versão VALL-E também pode soar como uma gravação de chamada, com todas as distorções e nuances correspondentes.

Como o VALL-E pode claramente ser usado para uma ampla variedade de abusos e fraudes, até que a Microsoft divulgue o código-fonte de seu desenvolvimento e observe que futuramente será possível criar um modelo de detecção de conteúdo de áudio gerado usando VALL-E.

VALL-E AI da Microsoft é capaz de imitar uma voz humana em um padrão de três segundos

Os engenheiros da Microsoft introduziram uma IA (inteligência artificial) modelo para conversão de texto em fala chamado VALL-E. É capaz de imitar uma voz humana, contando apenas com uma amostra de som de três segundos.

Por Vladimir Krasnogolovy

Deixe um comentário Cancelar resposta