Anuncios
U.S. markets closed
  • S&P 500

    5,099.96
    +51.54 (+1.02%)
     
  • Dow Jones

    38,239.66
    +153.86 (+0.40%)
     
  • Nasdaq

    15,927.90
    +316.14 (+2.03%)
     
  • Russell 2000

    2,002.00
    +20.88 (+1.05%)
     
  • Petróleo

    83.66
    +0.09 (+0.11%)
     
  • Oro

    2,349.60
    +7.10 (+0.30%)
     
  • Plata

    27.51
    -0.12 (-0.43%)
     
  • dólar/euro

    1.0699
    -0.0034 (-0.32%)
     
  • Bono a 10 años

    4.6690
    -0.0370 (-0.79%)
     
  • dólar/libra

    1.2494
    -0.0017 (-0.13%)
     
  • yen/dólar

    158.2960
    +2.7160 (+1.75%)
     
  • Bitcoin USD

    63,805.76
    +892.59 (+1.42%)
     
  • CMC Crypto 200

    1,345.60
    -50.94 (-3.63%)
     
  • FTSE 100

    8,139.83
    +60.97 (+0.75%)
     
  • Nikkei 225

    37,934.76
    +306.28 (+0.81%)
     

Inteligencia artificial: logran que la voz de un actor fallecido hace 10 años narre nuevos audiolibros

VALL-E es una IA de Microsoft capaz de imitar a cualquier persona sin problema alguno, siempre y cuando tenga un audio de 3 segundos. Ahora logró ponerle la voz del actor Edward Herrmann, -fallecido en 2014 y que -hacía el papel de abuelo en Las chicas Gilmore-, en los audiolibros más recientes.

Además de actor, Herrmann fue un prolífico narrador de audiolibros. De acuerdo al diario The Wall Street Journal (WSJ), su último trabajo ha sido generado por la startup de IA DeepZen.

Esta compañía tuvo acceso a grabaciones anteriores de Herrmann, tras obtener el permiso de su familia.

Desde la empresa afirman que son capaces de reproducir sonidos y entonaciones idénticas a las que hubiera hecho el narrador.

PUBLICIDAD

Para Rory Herrmann, hijo del actor, que aseguró haberse sorprendido mucho al escuchar la voz de su padre, esta es una buena manera de mantener su legado.

La inteligencia artificial generativa

Ésta, explican en IEBS Business School, forma parte de la categoría de machine learning y se trata de una forma de aprendizaje automático capaz de crear contenido único y nuevo, desde música y arte hasta mundos virtuales de todo tipo, pasando por texto, imágenes, voz, código e incluso vídeos.

s
s

Además de actor, Herrmann fue un prolífico narrador de audiolibros

Un GPT, agregan, es un tipo de modelo de Logic learning machine, que utiliza el deep learning para generar textos similares a los que crean los humanos.

Se denominan "generativos" porque pueden generar texto nuevo en función de la entrada que reciben; "preentrenados" porque se entrenan en un gran corpus de datos de texto antes de ajustarlos para tareas específicas, y "transformadores" porque utilizan una arquitectura de red neuronal basada en transformadores para procesar texto de entrada y generar texto de salida.

Mejor para obras de no ficción

Cada vez que se produce un avance tecnológico, y más si tiene la capacidad de la inteligencia artificial generativa, surge el debate de los empleos humanos que puede sustituir.

Scott Brick, que ha narrado más de 1.000 audiolibros, sostiene en declaraciones a WSJ que en estas voces hay realismo, pero no alma, por ello, cree que es un sistema más adecuado para obras de no ficción.

En el mismo medio, Melissa Papel, una actriz parisina, relató que grabó 8 horas de contenido para DeepZen. Sabía que iban a usar su voz para enseñarle al software a hablar como un humano, pero no se dio cuenta, asevera, de que podrían utilizarla para crear palabras que ella no había pronunciado.

DeepZen ya ha trabajado con más de 30 actores profesionales a los que paga una tarifa fija más un variable que depende de los ingresos generados. Desde la compañía aseguran que han rubricado acuerdos con 35 editoriales, tanto en Estados Unidos como en el extranjero.

Quien también está apostando fuerte por la IA generativa es Microsoft. De ahí que están desarrollando VALL-E, un nuevo modelo de inteligencia artificial de texto a voz, que es capaz de escuchar cualquier audio de tan solo 3 segundos, aprender la voz específica del interlocutor y sintetizar el audio para decir cualquier cosa que se te ocurra.

La nueva creación de Microsoft, como ya se detalló en Business Insider España, utiliza un modelo de lenguaje de códec natural. Esto significa que sigue el mismo que Meta desplegó en octubre de 2022, mediante un tipo de tecnología conocida como EnCodec.

Esta divide la información en pequeños componentes, denominados tokens, y usa los datos de entrenamiento de la inteligencia artificial para comparar lo que ya conoce con la utilización de esa voz concreta. En definitiva, podría imitar a cualquier persona sin problema alguno, siempre y cuando tenga un audio de 3 segundos.