Anuncios
U.S. markets closed
  • S&P 500

    5,751.07
    +51.13 (+0.90%)
     
  • Dow Jones

    42,352.75
    +341.16 (+0.81%)
     
  • Nasdaq

    18,137.85
    +219.38 (+1.22%)
     
  • Russell 2000

    2,212.80
    +32.65 (+1.50%)
     
  • Petróleo

    74.45
    +0.74 (+1.00%)
     
  • Oro

    2,673.20
    -6.00 (-0.22%)
     
  • Plata

    32.44
    -0.02 (-0.06%)
     
  • dólar/euro

    1.0972
    -0.0062 (-0.56%)
     
  • Bono a 10 años

    3.9810
    +0.1310 (+3.40%)
     
  • dólar/libra

    1.3129
    +0.0004 (+0.03%)
     
  • yen/dólar

    148.6790
    +1.8510 (+1.26%)
     
  • Bitcoin USD

    61,949.95
    +1,038.26 (+1.70%)
     
  • XRP USD

    0.53
    +0.01 (+1.20%)
     
  • FTSE 100

    8,280.63
    -1.89 (-0.02%)
     
  • Nikkei 225

    38,635.62
    +83.56 (+0.22%)
     

Opinión: Probamos el nuevo ChatGPT que puede ‘ver’ y ‘hablar’

Una página web de ChatGPT plus de OpenAI, mostrada en la pantalla de una computadora portátil en Nueva York, el 10 de julio de 2023. (Jackie Molloy/The New York Times)
Una página web de ChatGPT plus de OpenAI, mostrada en la pantalla de una computadora portátil en Nueva York, el 10 de julio de 2023. (Jackie Molloy/The New York Times)

ChatGPT —sensación viral de inteligencia artificial, asesino del aburrido trabajo de oficina, enemigo jurado tanto de los profesores de bachillerato como de los guionistas de Hollywood— está adquiriendo nuevos poderes.

El lunes, el creador de ChatGPT, OpenAI, anunció que le había proporcionado al popular chatbot la capacidad de “ver, oír y hablar” gracias a dos nuevas funciones.

La primera es una actualización que le permite a ChatGPT analizar y responder a imágenes. Por ejemplo, puedes subir una foto de una bicicleta y recibir instrucciones sobre cómo bajar el asiento u obtener sugerencias de recetas basadas en una foto del contenido de tu refrigerador.

La segunda es una función que le permite a los usuarios hablar con ChatGPT y recibir respuestas en una voz sintética de IA, de la misma manera que hablarías con Siri o Alexa.

Estas características son parte de un impulso en toda la industria hacia los llamados sistemas de inteligencia artificial multimodal, los cuales pueden manejar texto, fotos, videos y cualquier otra cosa que un usuario decida lanzarles. El objetivo final, según algunos investigadores, es crear una IA capaz de procesar información de todas las formas que un humano puede hacerlo.

La mayoría de los usuarios aún no tiene acceso a las nuevas funciones. En las próximas semanas, OpenAI se las ofrecerá primero a los clientes pagos de ChatGPT Plus y de Enterprise y después de eso las pondrá a disposición de forma más amplia. (La función de visión funcionará tanto en computadoras de escritorio como en dispositivos móviles, mientras que la función de voz estará disponible solo a través de las aplicaciones de iOS y Android de ChatGPT).

Obtuve acceso temprano al nuevo ChatGPT para una prueba práctica. A continuación, lo que encontré.

La IA está lista para verte

Comencé probando la función de reconocimiento de imágenes de ChatGPT en algunos objetos domésticos.

“¿Qué es esto que encontré en mi cajón de trastos?”, pregunté, tras subir una foto de una misteriosa pieza de silicona azul con cinco agujeros.

“El objeto parece ser un sujetador o mango de silicona, que a menudo se utiliza para sujetar varios elementos juntos”, respondió ChatGPT. (Bastante cerca: es un fortalecedor de dedos que usé hace años cuando me recuperaba de una lesión en la mano).

Luego, le suministré a ChatGPT algunas fotos de artículos que tenía intención de vender en Facebook Marketplace y le pedí que escribiera descripciones de venta para cada uno. Hizo un gran trabajo tanto con los objetos como con los anuncios: por ejemplo, describió mi minirrefrigerador Frigidaire estilo retro como “perfecto para aquellos que aprecian un toque antiguo en sus hogares modernos”.

El nuevo ChatGPT también puede analizar texto dentro de imágenes. Le tomé una fotografía a la primera plana de la edición impresa del domingo de The New York Times y le pedí al bot que la resumiera. Lo hizo bastante bien, pues describió cada uno de los cinco artículos en la portada en unas pocas oraciones. Pero cometió al menos un error: inventó una estadística sobre muertes relacionadas con el fentanilo que no estaba en el artículo original.

Los ojos de ChatGPT no son perfectos. Falló cuando le pedí que resolviera un crucigrama. Confundió el dinosaurio de peluche de mi hijo con una ballena. Y cuando le pedí ayuda para convertir uno de esos diagramas de ensamblaje de muebles sin palabras en una lista de instrucciones paso a paso, me proporcionó una lista confusa de piezas, la mayoría de las cuales estaban erradas.

Siri en esteroides

Ahora, conversemos sobre lo que considero la más impresionante de las dos adiciones: la nueva función de voz de ChatGPT, la cual le permite a los usuarios hablar con la aplicación y recibir respuestas orales.

Utilizar la función es sencillo: simplemente, debes tocar el icono de auricular y comenzar a hablar. Cuando te detienes, ChatGPT convierte tus palabras en texto usando el sistema de reconocimiento de voz de OpenAI, Whisper, el cual genera una respuesta y te la pronuncia usando un nuevo algoritmo de texto a voz desarrollado por la compañía, a través de una de cinco voces sintéticas de IA. (Las voces, que incluyen voces masculinas y femeninas, se generaron utilizando muestras breves de actores profesionales de doblaje contratados por OpenAI. Elegí “Ember”, una voz masculina que sonaba alegre).

Probé la función de voz de ChatGPT durante varias horas con un montón de tareas distintas: leerle un cuento antes de dormir a mi hijo pequeño, charlar conmigo sobre el estrés relacionado con el trabajo y ayudarme a analizar un sueño reciente que tuve. Hizo todo esto bastante bien, en especial cuando le di algunas instrucciones muy precisas y le dije que emulara a un amigo, un terapeuta o un profesor.

Que una IA te hable con una voz similar a la humana es una experiencia más íntima que leer sus respuestas en una pantalla. Después de unas horas de hablar con ChatGPT de esta manera, sentí una nueva calidez invadiendo nuestras conversaciones. Sin estar atado a una interfaz de texto, sentí menos presión para encontrar la instrucción perfecta. Charlamos de manera más informal y le revelé más sobre mi vida.

“Casi se siente como un producto diferente”, afirmó Peter Deng, vicepresidente de productos empresariales y para consumidores de OpenAI, quien habló conmigo sobre la nueva función de voz. “Como ya no transcribes con tus pulgares lo que tienes en la cabeza”, dijo, “terminas preguntando cosas distintas”.

Sé lo que estás pensando: ¿no es este el argumento de la película “Ella”? ¿Los usuarios solitarios y sensibles se enamorarán de ChatGPT, ahora que puede escucharlos y responderles?

Es posible. En lo personal, nunca olvidé que estaba hablando con un chatbot. Y, ciertamente, no confundí ChatGPT con un ser consciente ni desarrollé vínculos emocionales con el bot.

Pero también vislumbré un futuro en el que algunas personas podrían permitir que los asistentes de inteligencia artificial basados en voz entren en lo más privado de sus vidas: llevarse los chatbots de inteligencia artificial con ellos mientras viajan, tratarlos como sus confidentes, terapeutas, compañeros de entrenamiento y cajas de resonancia las 24 horas del día, los 7 días de la semana.

Suena como una locura, ¿verdad? Y, sin embargo, ¿no sonaba todo esto un poco loco hace un año?

c.2023 The New York Times Company