Sus creadores especulan que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz donde la grabación de una persona podría editarse y cambiarse de una transcripción de texto (haciéndola decir algo que originalmente no dijo), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3 .
Microsoft llama a VALL-E un "modelo de lenguaje de códec neuronal" y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de texto a voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E genera códigos de códec de audio discretos a partir de mensajes de texto y acústicos. Básicamente, analiza cómo suena una persona, divide esa información en componentes discretos (llamados "tokens") gracias a EnCodec y usa datos de entrenamiento para comparar lo que "sabe" sobre cómo sonaría esa voz si pronunciara otras frases fuera de las tres. -segunda muestra. O, como dice Microsoft en el documento de VALL-E :
Para sintetizar voz personalizada (p. ej., TTS de disparo cero), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de 3 segundos y el indicador de fonema, que restringen la información del hablante y el contenido, respectivamente. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neuronal correspondiente.
Microsoft entrenó las capacidades de síntesis de voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLight . Contiene 60 000 horas de habla en inglés de más de 7000 hablantes, en su mayoría extraídos de audiolibros de dominio público de LibriVox .
Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.
En el sitio web de ejemplos de VALL-E , Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acción. Entre las muestras, el "Speaker Prompt" es el audio de tres segundos proporcionado a VALL-E que debe imitar. La "Verdad básica" es una grabación preexistente de ese mismo hablante diciendo una frase en particular con fines de comparación (algo así como el "control" en el experimento). La "línea de base" es un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra "VALL-E" es el resultado del modelo VALL-E.