La nueva IA de Microsoft puede simular la voz de cualquier persona con solo 3 segundos de audio

Los progresos de la IA y la síntesis de voz en inglés avanzan a un ritmo trepidante

Clonar la voz humana

  • VALL-E es el modelo de inteligencia artificial generativa de texto a voz que puede preservar el tono emocional del hablante y el entorno acústico

Wired.com, Artículo adaptado por Andrei Osornio, 11.01.2023. El jueves, desarrolladores de Microsoft anunciaron un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular fielmente la voz de una persona cuando se le presenta una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede generar un sonido de esa persona diciendo cualquier cosa, y hacerlo de una manera que intenta preservar el tono emocional del hablante.

La síntesis de voz humana en inglés ha llegado a límites insospechados en muy poco tiempo (Fotografía de Gerd Altmann en Pixabay)
Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa, como GPT-3. Generative Pre-trained Transformer 3 es un modelo de inteligencia artificial que genera contenido escrito similar a textos hechos por los humanos.
"Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto (haciéndole decir algo que originalmente no expresó) y en creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa"

¿Cómo funciona VALL-E de Microsoft?

Microsoft denomina a VALL-E como ‘modelo de lenguaje de códec neural’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en partes individuales (llamados ‘tokens’) gracias a EnCodec y utiliza datos de entrenamiento para hacer coincidir lo que 'sabe' sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. O, como señala Microsoft en el artículo sobre VALL-E: 

Para sintetizar el discurso personalizado, VALL-E crea los tokens acústicos correspondientes. condicionados a los de la grabación de tres segundos inscrita y a la indicación de fonemas que restringen la información del hablante y del contenido. Por último, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el respectivo decodificador de códec neural.” 

Microsoft ha entrenado las capacidades de síntesis de expresión de VALL-E con una librería (biblioteca) de audio, creada por Meta, llamada LibriLight. Contiene 60 mil horas de oratoria en inglés de más de siete mil hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E reproduzca un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a una de los datos de entrenamiento. 

En el sitio web con ejemplos de VALL-E, Microsoft ofrece decenas de muestras de sonido del modelo de inteligencia artificial en acción. Entre las demostraciones, el Speaker Prompt es el audio de tres segundos que se proporciona a VALL-E y que debe imitar. La Ground Truth se refiere a una grabación preexistente de ese mismo orador diciendo una frase concreta con fines comparativos (algo así como el ‘control’ del experimento). Baseline corresponde a un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra VALL-E es la salida creada por el modelo.

-Sigue leyendo este artículo en Wired.com


Relacionado:

-Primer podcast creado con Inteligencia Artificial, por Prodigioso Volcán

-Locutores y periodistas sustituidos por bots

-La radio del futuro: ¿mejor o más barata?

-Vicomtech, la empresa que resucitó la voz de Franco

-La inteligencia artificial hará mejor la radio, por Jorge Heili


Tambien te puede interesar:

post destacado 2626856022720923451

Publicar un comentario

emo-but-icon

'ESPECIAL 30 AÑOS DE RADIO 5", GORKA ZUMETA

¿TE MANEJAS BIEN HABLANDO EN PÚBLICO?

¿TE MANEJAS BIEN HABLANDO EN PÚBLICO?
Clica y amplía información

CANARIAS, EL BRANDED PODCAST Y 'SIMULACRO'

CANARIAS, EL BRANDED PODCAST Y 'SIMULACRO'
Clica y amplía información

DISPONIBLE EL 'ESTUPIDIARIO' DE LOS MILAGROS

DISPONIBLE EL 'ESTUPIDIARIO' DE LOS MILAGROS
Clica y amplía información

30 AÑOS INFORMÁNDONOS CON RADIO 5 (RNE)

30 AÑOS INFORMÁNDONOS CON RADIO 5 (RNE)
Clica y amplía información

MEDIASET ESPAÑA INGRESA EN LA AIMC

MEDIASET ESPAÑA INGRESA EN LA AIMC
Clica y amplía información

"IMPRESCINDIBLES" DEDICADO A CARLOS TENA

"IMPRESCINDIBLES" DEDICADO A CARLOS TENA
Clica y amplía información

R. SANTAMARÍA, DIRECTOR PROGRAMAS RNE

R. SANTAMARÍA, DIRECTOR PROGRAMAS RNE
Clica y amplía información

PALMARÉS III ONDAS GLOBALES DEL PODCAST

PALMARÉS III ONDAS GLOBALES DEL PODCAST
Clica y amplía información

BÉLGICA PIENSA EN EL APAGÓN FM PARA 2030

BÉLGICA PIENSA EN EL APAGÓN FM PARA 2030
Clica y amplía información

HEILI, MERINO Y ZUMETA EN "ESTUDIO 8"

HEILI, MERINO Y ZUMETA EN "ESTUDIO 8"
Clica y amplía información

RNE ENCIENDE SUS EMISIONES EN DAB+ (RDT)

RNE ENCIENDE SUS EMISIONES EN DAB+ (RDT)
Clica y amplía información

GORKA ZUMETA EN EL INICIO DE LA DAB+ DE RNE

GORKA ZUMETA EN EL INICIO DE LA DAB+ DE RNE
Clica y amplía información

ONDA CERO ESTRENA "PROTAGONISTA DEL OLMO"

ONDA CERO ESTRENA "PROTAGONISTA DEL OLMO"
Clica y amplía información

G. ZUMETA: LA "DAB+ Y EL CONTROL DEL CANAL

G. ZUMETA: LA "DAB+ Y EL CONTROL DEL CANAL
Clica y amplía información

GORKA ZUMETA INVITADO EN RADIO SEGOVIA

GORKA ZUMETA INVITADO EN RADIO SEGOVIA
Clica y amplía información

ZUMETA: EL FUTURO DE LA RADIO, EN LOS COLES

ZUMETA: EL FUTURO DE LA RADIO, EN LOS COLES
Clica y amplía información

G.ZUMETA: "EL PÓDCAST NO HA INVENTADO NADA"

G.ZUMETA: "EL PÓDCAST NO HA INVENTADO NADA"
Clica y amplía información

G. ZUMETA INVITADO EN LA ASAMBLEA DE ARU

G. ZUMETA INVITADO EN LA ASAMBLEA DE ARU
Clica y amplía información

GORKA ZUMETA EN EL XI CONGRESO PROCOM'23

GORKA ZUMETA EN EL XI CONGRESO PROCOM'23
Clica y visiona el video (1:32:30)

ÁNGELES AFUERA Y GORKA ZUMETA EN ESTUDIO 8

ÁNGELES AFUERA Y GORKA ZUMETA EN ESTUDIO 8
Clica y amplía información

GORKA ZUMETA Y LA PREHISTORIA DEL PODCAST

GORKA ZUMETA Y LA PREHISTORIA DEL PODCAST
Clica y amplía información

ZUMETA, PREMIADO CON UN ACCÉSIT POR LA RPA

ZUMETA, PREMIADO CON UN ACCÉSIT POR LA RPA
Clica y amplía información

GORKA ZUMETA HABLA DE LA IA EN 'CLARÍN'

GORKA ZUMETA HABLA DE LA IA EN 'CLARÍN'
Clica y amplía información

G.ZUMETA EN LA JORNADA DE RADIO DE FORTA

G.ZUMETA EN LA JORNADA DE RADIO DE FORTA
Clica y amplía informarción

GORKA ZUMETA CLAUSURÓ EL I FORO DE VILLENA

GORKA ZUMETA CLAUSURÓ EL I FORO DE VILLENA
Clica y amplía información

G.ZUMETA EN LA UNIVERSIDAD DE EXTREMADURA

G.ZUMETA EN LA UNIVERSIDAD DE EXTREMADURA
En sus Jornadas Iberoamericanas 2022

GORKA ZUMETA, LECCIÓN EN LA NEBRIJA

GORKA ZUMETA, LECCIÓN EN LA NEBRIJA
En su Máster de Radio y Audio Digital SER

G. ZUMETA EN EL CONGRESO DE RADIO ESCOLAR

G. ZUMETA EN EL CONGRESO DE RADIO ESCOLAR
Clica, y amplía información

G.ZUMETA INVITADO EN LA UIPR (PUERTO RICO)

G.ZUMETA INVITADO EN LA UIPR (PUERTO RICO)
Clica y escucha

GORKA ZUMETA ENTREVISTADO EN 'CLARÍN'

GORKA ZUMETA ENTREVISTADO EN 'CLARÍN'
Clica y amplía información

DIARIO DE UN FIRMANTE EN LA FERIA DEL LIBRO

DIARIO DE UN FIRMANTE EN LA FERIA DEL LIBRO
Clica y amplía información

G.ZUMETA EN LA 'SEMANA DE LA RADIO' DE PERÚ

G.ZUMETA EN LA 'SEMANA DE LA RADIO' DE PERÚ
Clica y amplía información

GORKA ZUMETA DEFIENDE LA RADIO ESCOLAR

GORKA ZUMETA DEFIENDE LA RADIO ESCOLAR
Clica y amplía información

GORKA ZUMETA ANALIZA LOS 'DAILYS' EN TEA FM

GORKA ZUMETA ANALIZA LOS 'DAILYS' EN TEA FM
Clica y amplía información

GORKA ZUMETA EN LA FRANCISCO DE VITORIA

GORKA ZUMETA EN LA FRANCISCO DE VITORIA
Clica y visualiza el video

GORKA ZUMETA 'SOCIO DE HONOR' DE LA ARU

GORKA ZUMETA 'SOCIO DE HONOR' DE LA ARU
Clica y amplía información

GORKA ZUMETA, INVITADO EN LA U.SALAMANCA

GORKA ZUMETA, INVITADO EN LA U.SALAMANCA
Clica y amplía información

GORKA ZUMETA, CLASE MAGISTRAL EN EL CEU

GORKA ZUMETA, CLASE MAGISTRAL EN EL CEU
Clica y visualiza el video

DESCUBRE RADIOS DEL MUNDO A GOLPE DE CLIC

DESCUBRE RADIOS DEL MUNDO A GOLPE DE CLIC
Clica, viaja por el mundo y elige tu radio
item