Artificial Intelligence, Cloud, Microsoft

¿Me hablas a mí? Azure AI da vida a personajes icónicos con Custom Neural Voice

marzo 16, 2022

Reading time: 3 minutes -

¿Alguna vez han deseado poder saltar dentro de su cartón animado favorito e interactuar con personajes como Bugs Bunny que los entretienen en la pantalla?

Bienvenidos a la AT&T Experience Store en Dallas, donde un Bugs Bunny de tamaño real, y de alta definición, los saluda por su nombre y les dice que necesita su ayuda para encontrar varias zanahorias doradas escondidas dentro de la tienda. Gracias al 5G, la realidad aumentada, la inteligencia artificial y una Custom Neural Voice creada con tecnología Microsoft Azure AI, Bugs sigue sus instrucciones para navegar por la tienda en busca de zanahorias, mientras habla con ustedes en tiempo real.

“Tratamos de probar a los clientes que hay algo en la 5G que la hace diferente y mejor que la red 4G”, comentó Jay Cary, vicepresidente de innovación de producto y movilidad 5G para AT&T. “Nos encanta la idea de combinar el entorno físico con el entorno virtual”.

Transparencia irreal

Una conversación con Bugs Bunny podría sentirse real, pero todos sabemos que no lo es: porque Bugs es un personaje de ficción. Esa es una distinción importante, y una que Microsoft es muy cuidadoso de proteger en cada aplicación de la tecnología. Hay una razón clave por la que Custom Neural Voice es de acceso limitado, lo que significa que los clientes interesados deben aplicar y ser aprobados por Microsoft para usar la tecnología. En este caso, la disponibilidad general significa que está lista para producción y que está disponible en más regiones de nube de Azure, no que esté disponible para el público en general.

Si bien muchos usos de Custom Neural Voice involucran a un personaje ficticio, en ocasiones un cliente quiere que la voz sea de una persona real, como un autor que lee su propio libro. Incluso en esos casos, es importante que la gente sepa que la voz es sintética, por lo que Microsoft incluye un requisito de divulgación en su contrato.

La disponibilidad general de Custom Neural Voice incluye controles técnicos para ayudar a prevenir el uso indebido del servicio. Como parte del guion de grabación de voz que envía un cliente para crear la voz personalizada, el actor de voz hace una declaración en la que reconoce que comprende la tecnología y está consciente de que el cliente hace una Custom Neural Voice. Esa grabación es comparada con los datos de entrenamiento a través de tecnología de verificación del hablante para asegurarse que las voces coincidan antes de que un cliente pueda comenzar a entrenar la voz. Microsoft también requiere por contrato que sus clientes obtengan el consentimiento del talento de voz.

Un compromiso con la responsabilidad

Microsoft realiza evaluaciones de impacto para determinar riesgos potenciales. Una vez que los riesgos han sido identificados, se crean características y procesos para abordarlos. En el caso de Custom Neural Voice, tales salvaguardas incluyen el proceso de revisión para cada caso de uso potencial, un código de conducta, y la verificación que compara los archivos de reconocimiento del talento de voz con los archivos de audio de entrenamiento. El equipo también trabaja en una manera de integrar una marca de agua digital dentro de una voz sintética para indicar que el contenido fue creado con Azure Custom Neural Voice.

Construir una voz personalizada

El aprendizaje profundo es un subconjunto del aprendizaje automático, en el que a las máquinas se les enseña a aprender y analizar datos de una manera similar a los humanos. “Profundo” se refiere a la profundidad de las capas de redes neurales, que se inspiran en nuestra comprensión de cómo funciona el cerebro. Estas capas sobre capas de redes neurales trabajan en conjunto para desempeñar tareas complejas de manera rápida, al mapear secuencias de datos juntas y aprender de cada tarea. Más capas dentro de una red neural crean mejores resultados.

En el texto a voz neural, una red neural convierte el texto de entrada en una secuencia acústica, codifica y decodifica y predice la prosodia, mientras que otra red neural convierte esa secuencia acústica en habla. Entre las dos, hay alrededor de 50 capas.

Dado que las dos redes neurales pueden predecir de manera simultánea la prosodia correcta y sintetizar la voz, esto resulta en una voz con un sonido más natural.

Por supuesto, no todo el mundo necesita una voz personalizada creada solo para ellos. Microsoft también tiene más de 120 voces neurales preconstruidas, en más de 50 idiomas, para los clientes que desean agregar de manera rápida una funcionalidad de lectura en voz alta o dar voz a un chatbot.

‘Desbloquear el potencial creativo de las personas’

En esencia, Custom Neural Voice es una tecnología creativa, comentó Bird. Ella está más entusiasmada con sus posibilidades en educación, como leer libros o enseñar un nuevo idioma.

Duolingo, una empresa de aprendizaje de idiomas, usa Custom Neural Voice como parte de su esfuerzo por personalizar el aprendizaje de idiomas mediante la introducción de un elenco de personajes dentro de la plataforma de aprendizaje.

“La voz es muy importante cuando se aprende un idioma”, comentó Hacker. “Fue en particular importante para nosotros, como aplicación de aprendizaje de idiomas, que expusiéramos a nuestros aprendices a voces y acentos auténticos, y pudimos hacerlo con esta tecnología”.

Custom Neural Voice también puede ser usada para crear una fuente de voz personalizada que no imite de manera directa a una persona o personaje existente.

Fuente: Microsoft