La nueva IA de Microsoft puede simular la voz de cualquier persona con solo 3 segundos de audio

Los progresos de la IA y la síntesis de voz en inglés avanzan a un ritmo trepidante

Clonar la voz humana

  • VALL-E es el modelo de inteligencia artificial generativa de texto a voz que puede preservar el tono emocional del hablante y el entorno acústico

Wired.com, Artículo adaptado por Andrei Osornio, 11.01.2023. El jueves, desarrolladores de Microsoft anunciaron un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular fielmente la voz de una persona cuando se le presenta una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede generar un sonido de esa persona diciendo cualquier cosa, y hacerlo de una manera que intenta preservar el tono emocional del hablante.

La síntesis de voz humana en inglés ha llegado a límites insospechados en muy poco tiempo (Fotografía de Gerd Altmann en Pixabay)
Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa, como GPT-3. Generative Pre-trained Transformer 3 es un modelo de inteligencia artificial que genera contenido escrito similar a textos hechos por los humanos.
"Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa"

¿Cómo funciona VALL-E de Microsoft?

Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en partes individuales (llamados ‘tokens’) gracias a EnCodec y utiliza datos de entrenamiento para hacer coincidir lo que 'sabe' sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. O, como señala Microsoft en el artículo sobre VALL-E: 

Para sintetizar el discurso personalizado, VALL-E crea los tokens acústicos correspondientes. condicionados a los de la grabación de tres segundos inscrita y a la indicación de fonemas que restringen la información del hablante y del contenido. Por último, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el respectivo decodificador de códec neural.” 

Microsoft ha entrenado las capacidades de síntesis de expresión de VALL-E con una librería (biblioteca) de audio, creada por Meta, llamada LibriLight. Contiene 60 mil horas de oratoria en inglés de más de siete mil hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E reproduzca un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a una de los datos de entrenamiento. 

En el sitio web con ejemplos de VALL-E, Microsoft ofrece decenas de muestras de sonido del modelo de inteligencia artificial en acción. Entre las demostraciones, el Speaker Prompt es el audio de tres segundos que se proporciona a VALL-E y que debe imitar. La Ground Truth se refiere a una grabación preexistente de ese mismo orador diciendo una frase concreta con fines comparativos (algo así como el ‘control’ del experimento). Baseline corresponde a un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra VALL-E es la salida creada por el modelo.

-Sigue leyendo este artículo en Wired.com


Relacionado:

-Primer podcast creado con Inteligencia Artificial, por Prodigioso Volcán

-Locutores y periodistas sustituidos por bots

-La radio del futuro: ¿mejor o más barata?

-Vicomtech, la empresa que resucitó la voz de Franco

-La inteligencia artificial hará mejor la radio, por Jorge Heili


Tambien te puede interesar:

parareflexionar 2626856022720923451

Publicar un comentario

emo-but-icon

ESTUPIDIARIO DE LA SOLIDARIDAD

PODEMOS HACER ALGO POR TI

PODEMOS HACER ALGO POR TI
Clica y amplía información

LA MUTACIÓN DE "ENTIENDE TU MENTE"

LA MUTACIÓN DE "ENTIENDE TU MENTE"
Clica y amplía información

"EL CONFIDENCIAL": PODCAST CON ZARZALEJOS

"EL CONFIDENCIAL": PODCAST CON ZARZALEJOS
Clica y amplía información

LOS 65 NOMINADOS A LOS ONDAS DEL PODCAST

LOS 65 NOMINADOS A LOS ONDAS DEL PODCAST
Clica y amplía información

LA BBC SE DESVINCULA DE RADIOPLAYER

LA BBC SE DESVINCULA DE RADIOPLAYER
Clica y amplía información

MARTINICA (CARIBE) YA DISPONE DE DAB+ (RDT)

MARTINICA (CARIBE) YA DISPONE DE DAB+ (RDT)
Clica y amplía información

'EL ESPAÑOL' LANZA DAILY Y 6 PODCAST MÁS

'EL ESPAÑOL' LANZA DAILY Y 6 PODCAST MÁS
Clica y amplía información

'LAS AVENTURAS DE TINTÍN", FICCIÓN DE RNE

'LAS AVENTURAS DE TINTÍN", FICCIÓN DE RNE
Clica y amplía información

'ESTACIÓN PÓDCAST", DEL 9 AL 13 DE MAYO

'ESTACIÓN PÓDCAST", DEL 9 AL 13 DE MAYO
Clica y amplía información

DIA MUNDIAL DE LA RADIO'23: 'RADIO Y PAZ'

DIA MUNDIAL DE LA RADIO'23: 'RADIO Y PAZ'
Clica y amplía información

RNE CONFÍA SUS FM A CELLNEX HASTA 2028

RNE CONFÍA SUS FM A CELLNEX HASTA 2028
Clica y amplía información

LANZAN MÚLTIPLEX DE DAB+ ILEGAL EN VALENCIA

LANZAN MÚLTIPLEX DE DAB+ ILEGAL EN VALENCIA
Clica y amplía información

RTVE CONVOCA OPOSICIÓN CON 767 PLAZAS

RTVE CONVOCA OPOSICIÓN CON 767 PLAZAS
Clica y amplía información

GORKA ZUMETA CLAUSURÓ EL I FORO DE VILLENA

GORKA ZUMETA CLAUSURÓ EL I FORO DE VILLENA
Clica y amplía información

PARA TRIUNFAR EN MARKETING DE CONTENIDOS

PARA TRIUNFAR EN MARKETING DE CONTENIDOS
Clica y amplía información

TWITTER GORKA ZUMETA (EDITOR)

G.ZUMETA EN LA UNIVERSIDAD DE EXTREMADURA

G.ZUMETA EN LA UNIVERSIDAD DE EXTREMADURA
En sus Jornadas Iberoamericanas 2022

GORKA ZUMETA, LECCIÓN EN LA NEBRIJA

GORKA ZUMETA, LECCIÓN EN LA NEBRIJA
En su Máster de Radio y Audio Digital SER

G. ZUMETA EN EL CONGRESO DE RADIO ESCOLAR

G. ZUMETA EN EL CONGRESO DE RADIO ESCOLAR
Clica, y amplía información

GORKA ZUMETA CON SERGI MAS EN RADIO VALIRA

GORKA ZUMETA CON SERGI MAS EN RADIO VALIRA
Clica y amplía informarción

G. ZUMETA PRESENTÓ EL GONZALO ESTEFANÍA

G. ZUMETA PRESENTÓ EL GONZALO ESTEFANÍA
Clica y amplía información

G.ZUMETA INVITADO EN LA UIPR (PUERTO RICO)

G.ZUMETA INVITADO EN LA UIPR (PUERTO RICO)
Clica y escucha

GORKA ZUMETA ENTREVISTADO EN 'CLARÍN'

GORKA ZUMETA ENTREVISTADO EN 'CLARÍN'
Clica y amplía información

DIARIO DE UN FIRMANTE EN LA FERIA DEL LIBRO

DIARIO DE UN FIRMANTE EN LA FERIA DEL LIBRO
Clica y amplía información

G.ZUMETA EN LA 'SEMANA DE LA RADIO' DE PERÚ

G.ZUMETA EN LA 'SEMANA DE LA RADIO' DE PERÚ
Clica y amplía información

GORKA ZUMETA DEFIENDE LA RADIO ESCOLAR

GORKA ZUMETA DEFIENDE LA RADIO ESCOLAR
Clica y amplía información

GORKA ZUMETA UTILIZA TECNOLOGÍA AEQ

GORKA ZUMETA UTILIZA TECNOLOGÍA AEQ
Clica y amplía información

GORKA ZUMETA COORDINADOR DE SICUR 2020

GORKA ZUMETA COORDINADOR DE SICUR 2020
Clica y amplía información

GORKA ZUMETA ANALIZA LOS 'DAILYS' EN TEA FM

GORKA ZUMETA ANALIZA LOS 'DAILYS' EN TEA FM
Clica y amplía información

GORKA ZUMETA EN LA FRANCISCO DE VITORIA

GORKA ZUMETA EN LA FRANCISCO DE VITORIA
Clica y visualiza el video

GORKA ZUMETA 'SOCIO DE HONOR' DE LA ARU

GORKA ZUMETA 'SOCIO DE HONOR' DE LA ARU
Clica y amplía información

GORKA ZUMETA, INVITADO EN LA U.SALAMANCA

GORKA ZUMETA, INVITADO EN LA U.SALAMANCA
Clica y amplía información

GORKA ZUMETA, CLASE MAGISTRAL EN EL CEU

GORKA ZUMETA, CLASE MAGISTRAL EN EL CEU
Clica y visualiza el video

DESCUBRE RADIOS DEL MUNDO A GOLPE DE CLIC

DESCUBRE RADIOS DEL MUNDO A GOLPE DE CLIC
Clica, viaja por el mundo y elige tu radio
item