Así es VALL-E, la inteligencia artificial de Microsoft que puede imitar la voz de cualquier persona

El proyecto podría tener la capacidad de detectar cuando un audio a sido generado por la plataforma para combatir la suplantación de identidad.

Las aplicaciones de inteligencia artificial (IA) son cada vez más populares, ya sea para generar gráficos o textos completamente automatizados. Sin embargo, en Microsoft también están apostando por otro tipo de innovación por IA: una enfocada en el audio.

Ese es el caso de VALL-E, una inteligencia artificial que tiene la capacidad de imitar la voz de cualquier persona. Para concretar lo anterior, la IA solo requiere de tres segundos de muestras del audio a replicar.

A grandes rasgos, VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) que está basado en EnCodec, un códec de audio desarrollado por Meta, permitiendo analizar la voz de un individuo para luego generar una reinterpretación.

La promesa de Microsoft es que esta IA puede preservar la entonación e inclusive la emoción que genera una voz humana real. Todo el entrenamiento se lleva a cabo a través de “códigos discretos derivados de un modelo de códec de audio neuronal estándar”.

Otro detalle importante es que VALL-E puede generar los audios a partir de textos y en Microsoft plantean que podrían combatir la suplantación de identidad con la construcción de “un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.

COMPARTIR NOTA