La nueva IA de Microsoft puede simular la voz de cualquier persona con 3 segundos de audio

Sus creadores especulan que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz donde la grabación de una persona podría editarse y cambiarse de una transcripción de texto (haciéndola decir algo que originalmente no dijo), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3 .

Microsoft llama a VALL-E un "modelo de lenguaje de códec neuronal" y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de texto a voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códigos de códec de audio discretos a partir de mensajes de texto y acústicos. Básicamente, analiza cómo suena una persona, divide esa información en componentes discretos (llamados "tokens") gracias a EnCodec y usa datos de entrenamiento para comparar lo que "sabe" sobre cómo sonaría esa voz si pronunciara otras frases fuera de las tres. -segunda muestra. O, como dice Microsoft en el documento de VALL-E :

Para sintetizar voz personalizada (p. ej., TTS de disparo cero), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de 3 segundos y el indicador de fonema, que restringen la información del hablante y el contenido, respectivamente. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neuronal correspondiente.

Microsoft entrenó las capacidades de síntesis de voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLight . Contiene 60 000 horas de habla en inglés de más de 7000 hablantes, en su mayoría extraídos de audiolibros de dominio público de LibriVox .

Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.

En el sitio web de ejemplos de VALL-E , Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acción. Entre las muestras, el "Speaker Prompt" es el audio de tres segundos proporcionado a VALL-E que debe imitar. La "Verdad básica" es una grabación preexistente de ese mismo hablante diciendo una frase en particular con fines de comparación (algo así como el "control" en el experimento). La "línea de base" es un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra "VALL-E" es el resultado del modelo VALL-E.

Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.

Mientras usaban VALL-E para generar esos resultados, los investigadores solo introdujeron la muestra de tres segundos "Speaker Prompt" y una cadena de texto (lo que querían que dijera la voz) en VALL-E. Así que compare la muestra "Ground Truth" con la muestra "VALL-E". En algunos casos, las dos muestras son muy cercanas. Algunos resultados de VALL-E parecen generados por computadora, pero otros podrían confundirse potencialmente con el habla de un ser humano, que es el objetivo del modelo.

Además de preservar el timbre vocal y el tono emocional de un orador, VALL-E también puede imitar el "ambiente acústico" del audio de muestra. Por ejemplo, si la muestra proviene de una llamada telefónica, la salida de audio simulará las propiedades acústicas y de frecuencia de una llamada telefónica en su salida sintetizada (esa es una forma elegante de decir que también sonará como una llamada telefónica). Y las muestras de Microsoft (en la sección "Síntesis de la diversidad") demuestran que VALL-E puede generar variaciones en el tono de voz cambiando la semilla aleatoria utilizada en el proceso de generación.

Tal vez debido a la capacidad de VALL-E de alimentar potencialmente las travesuras y el engaño, Microsoft no ha proporcionado el código de VALL-E para que otros experimenten, por lo que no pudimos probar las capacidades de VALL-E. Los investigadores parecen conscientes del daño social potencial que podría traer esta tecnología. Para la conclusión del artículo, escriben:

"Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico. Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E. También pondremos en práctica los Principios de IA de Microsoft cuando desarrollemos más los modelos".

Fuente: https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

Vias de contacto

Whatsapp Jurídico: 3515205927 / 3512280578

Whatsapp Contable y Seguros: 3513090767

Email: estudioperezcarretta@gmail.com

Dirección: San Jerónimo 270 - Oficina 13

Córdoba, Argentina. Ver ubicación.

 


Seguinos en las redes

Suscríbase

Enlaces útiles

Acceder a MI CONTADOR VIRTUAL

CALCULADOR DE MONOTRIBUTO

_________

  • Valor Jus: $ 25.115,61
    Unidad Econ: $ 6.619.562,70 + info
  • Aporte Colegial: $ 19.000,00 + info
  • Tasa Pasiva: $ 14.290,04
    Valor CER: $ 321,41
    Salario Min.Vit.y Mov: $ 202.800,00 + info
  • Fianzas Personales: $ 5.023.122,00 + info
  • Tasa Activa Banco Nacion: + info

Enlaces útiles para Abogados (registrados)

Herramientas de peritaje informático (registrados)

Notas - Artículos de interés

Cotizar Seguro de Riesgos Cibernéticos

Contacto con Sedes Judiciales de Córdoba

Guía de teléfonos internos del Poder Jud. de Córdoba

Ingreso a expedientes internos

 

 

Inicio de sesión