Opinión: La inteligencia artificial tiene un problema de medición

Kevin Roose

16 de abril de 2024, 2:23 p.m.·6 min de lectura

¿Cuál sistema de inteligencia artificial escribe el mejor código para computadora o genera la imagen más realista? En este momento, no hay una manera fácil de responder a esas preguntas. (Davide Comai/The New York Times)

SAN FRANCISCO — Hay un problema con las principales herramientas de inteligencia artificial, como ChatGPT, Gemini y Claude: en realidad, no sabemos cuán listas son.

Esto se debe a que, a diferencia de las empresas que fabrican autos, medicamentos o fórmulas infantiles, las empresas de inteligencia artificial no están obligadas a someter sus productos a pruebas antes de lanzarlos al público. No existe un sello de calidad para los chatbots de inteligencia artificial y son pocos los grupos independientes que someten a estas herramientas a pruebas rigurosas.

En cambio, nos queda confiar en las afirmaciones de las empresas de inteligencia artificial, las cuales a menudo utilizan frases vagas y confusas como “capacidades mejoradas” para describir en qué se diferencian sus modelos de una versión a otra. Y, aunque hay algunas pruebas estándar para evaluar la capacidad de los modelos de inteligencia artificial, digamos razonamiento matemático o lógico, muchos expertos dudan de la confiabilidad real de esas pruebas.

Esto puede sonar a una queja insignificante. No obstante, estoy convencido de que la falta de una buena medida y evaluación de los sistemas de inteligencia artificial es un problema importante.

Para empezar, sin información confiable sobre los productos de inteligencia artificial, ¿cómo se supone que la gente va a saber qué hacer con ellos?

No puedo contar la cantidad de veces que en el último año un amigo o un colega me preguntó qué herramienta de inteligencia artificial debía utilizar para una tarea determinada. ¿Cuál escribe mejor el código Python, ChatGPT o Gemini? ¿Es mejor DALL-E 3 o Midjourney para generar imágenes realistas de personas?

Simplemente, suelo encoger los hombros en respuesta. Incluso para alguien que se gana la vida escribiendo sobre inteligencia artificial y que prueba nuevas herramientas todo el tiempo, me desquicia lo difícil de seguir el ritmo de las fortalezas y debilidades relativas de los distintos productos de inteligencia artificial. La mayoría de las empresas tecnológicas no publican manuales de usuario ni comunicados detallados sobre sus productos de inteligencia artificial. Además, los modelos se actualizan con tanta frecuencia que un chatbot que un día tiene dificultades para realizar una tarea, al día siguiente puede destacar misteriosamente en ella.

Las mediciones deficientes también crean un riesgo para la seguridad. Sin mejores pruebas para los modelos de inteligencia artificial, es difícil saber qué capacidades están mejorando más rápido de lo esperado o qué productos podrían presentar amenazas reales de peligro.

En el AI Index de este año —un gran informe anual que elabora el Instituto de Inteligencia Artificial Centrada en el Ser Humano de la Universidad de Stanford—, los autores describen las mediciones deficientes como uno de los principales desafíos que enfrentan los investigadores de inteligencia artificial.

“La falta de una evaluación estandarizada dificulta una enormidad la comparación sistemática de las limitaciones y riesgos de varios modelos de inteligencia artificial”, me comentó Nestor Maslej, editor jefe del informe.

Una de las pruebas actuales más comunes que realizan los modelos de inteligencia artificial —casi el equivalente del examen para entrar a la universidad de los chatbots— es una prueba conocida como Massive Multitask Language Understanding (MMLU).

La MMLU, lanzada en 2020, consiste en una colección de unas 16.000 preguntas de opción múltiple que cubren decenas de temas académicos, que van desde el álgebra abstracta hasta el derecho y la medicina. Se supone que es una especie de examen de inteligencia general: mientras más de estas preguntas responda de manera correcta un chatbot, más inteligente es.

Se ha vuelto el criterio de referencia para las empresas de inteligencia artificial que compiten por el dominio. (A principios de este año, cuando Google lanzó su modelo de inteligencia artificial más avanzado, Gemini Ultra, la compañía presumió de haber obtenido un 90 por ciento en la MMLU, la puntuación más alta que se haya registrado).

Dan Hendrycks, un investigador en seguridad de la inteligencia artificial que ayudó a desarrollar la MMLU cuando estudiaba su posgrado en la Universidad de California, campus Berkeley, me contó que nunca se pensó que la prueba se usara para presumir. Le alarmaba la rapidez con la que mejoraban los sistemas de inteligencia artificial y quería animar a los investigadores a tomárselo más en serio.

Hendrycks señaló que, aunque pensaba que la MMLU “pueda tener uno o dos años más de vida útil”, pronto la tendrán que remplazar pruebas distintas y más difíciles. Los sistemas de inteligencia artificial se están volviendo demasiado inteligentes para las pruebas que tenemos ahora y cada vez es más difícil diseñar nuevas.

También puede haber problemas con las pruebas mismas. Varios investigadores con los que hablé advirtieron que el proceso de administrar pruebas de referencia como la MMLU varía un poco de una empresa a otra y que las puntuaciones de varios modelos podrían no ser directamente comparables.

Hay un problema conocido como “contaminación de datos”, cuando las preguntas y respuestas de las pruebas de referencia se incluyen en los datos de entrenamiento de un modelo de inteligencia artificial, lo que en esencia le permite hacer trampa. Además, estos modelos no se someten a pruebas o auditorías independientes, es decir que las empresas de inteligencia artificial en esencia califican su propia tarea.

En resumen, la medición de la inteligencia artificial es un desastre: una maraña de pruebas descuidadas, comparaciones de manzanas con naranjas y publicidades interesadas que han dejado en la oscuridad a los usuarios, reguladores y a los propios desarrolladores de inteligencia artificial.

Es probable que la solución para esto sea una combinación de iniciativas públicas y privadas.

Los gobiernos pueden y deben idear programas de pruebas sólidos que midan tanto las capacidades brutas como los riesgos de seguridad de los modelos de inteligencia artificial y deben financiar subvenciones y proyectos de investigación destinados a idear nuevas evaluaciones de alta calidad. (En su orden ejecutiva sobre inteligencia artificial del año pasado, la Casa Blanca les ordenó a varias agencias federales, incluido el Instituto Nacional de Normas y Tecnología, que crearan y supervisaran nuevos mecanismos para evaluar los sistemas de inteligencia artificial).

En el ámbito académico también están surgiendo algunos avances. El año pasado, investigadores de Stanford presentaron una nueva prueba para modelos de inteligencia artificial que generan imágenes que utiliza evaluadores humanos, en vez de pruebas automatizadas, para determinar la capacidad de un modelo. Y un grupo de investigadores de la Universidad de California, campus Berkeley, acaba de lanzar Chatbot Arena, una popular tabla de clasificaciones que enfrenta modelos de inteligencia artificial anónimos y aleatorios y les pide a los usuarios que voten por el mejor modelo.

Las empresas de inteligencia artificial también pueden ayudar comprometiéndose a trabajar con evaluadores y auditores externos para que prueben sus modelos, al volver más disponibles los nuevos modelos para los investigadores y siendo más transparentes al momento de actualizar sus modelos. Y, en los medios, espero que con el tiempo surja algún tipo de publicación al estilo Wirecutter que se encargue de revisar los nuevos productos de inteligencia artificial de manera rigurosa y confiable.

El año pasado, los investigadores de la empresa de inteligencia artificial Anthropic publicaron en un blog que “la gobernanza eficaz de la inteligencia artificial depende de nuestra capacidad para evaluar de manera significativa los sistemas de inteligencia artificial”.

Estoy de acuerdo. La inteligencia artificial es una tecnología demasiado importante como para evaluarla según la vibra que te dé. Hasta que no tengamos mejores mecanismos para medir estas herramientas, no sabremos cómo utilizarlas ni si su progreso debe celebrarse o temerse.

c.2024 The New York Times Company

San Diego Red
Gobierno de Montserrat Caballero realiza inversión de 51 millones de pesos en maquinaria para delegaciones en Tijuana
La alcaldesa reiteró el compromiso de su gobierno en reforzar las áreas operativas.
France 24
La llama olímpica en la historia
Uniendo el pasado y presente, la llama olímpica es uno de los símbolos con mayor carga histórica. Desde su origen como una representación sagrada en la antigua Grecia, hasta su actual camino de relevos de cara a la apertura oficial de las justas, mantener la llama ardiendo sigue convocando el interés y devoción del colectivo en el espíritu olímpico.Leer más sobre FRANCE 24 Español
EFE Latam
Descubren una nueva especie de araña de saco en la Amazonía de Ecuador
Quito, 26 jul (EFE).- Un grupo de investigadores descubrió una nueva especie de araña de saco, a la que bautizaron con el nombre de 'eutichurus tendetza', en la Cordillera del Cóndor, situada en la Amazonía ecuatoriana, cerca a la frontera con Perú, según anunció en un comunicado el Instituto Nacional de Biodiversidad (Inabio).
EFE Latam
2-3. Guillermo Martínez falla un penalti en el añadido y Pumas cae contra el Austin
Chicago (EE.UU.), 26 jul (EFE).- Guillermo Martínez falló un penalti en el tiempo añadido y los Pumas cayeron por 2-3 este viernes en su visita al Austin en el arranque de la Leagues Cup, el torneo que mide durante un mes a los equipos de la MLS con los de la Liga MX.
BBC News Mundo
5 cosas que ocurren por primera vez en los Juegos Olímpicos de París
En esta edición, París acoge a 10.500 atletas y tiene previstas fascinantes novedades que te contamos aquí.
AFP
Trump ataca en Florida a la vicepresidenta Harris, su probable rival demócrata
El exmandatario estadounidense Donald Trump atacó este viernes a Kamala Harris, su probable rival demócrata en las elecciones presidenciales de noviembre, a la que acusó falsamente de ser antisemita y de estar a favor de matar a recién nacidos. Aseguró que los demócratas habían dado un "golpe" para sacar a Biden de las elecciones y que Estados Unidos era un "hazmerreír".
France 24
Griselda Colina: 'Esperamos una coordinación de todos los grupos de veeduría electoral en Venezuela'
Tras el cierre de campañas y en medio del silencio electoral, Venezuela avanza con la instalación de los puestos de votación, una acción que es vigilada de cerca por varias organizaciones interesadas en garantizar el proceso. Para conocer algunas de las irregularidades identificadas hasta el momento, en France 24 hablamos con Griselda Colina, directora del Observatorio Global de Comunicación y Democracia.Leer más sobre FRANCE 24 Español
EFE Latam
Definidas las semifinales de la Copa Libertadores femenina de futsal
Quillacollo (Bolivia), 26 jul (EFE).- Las semifinales de la Copa Libertadores de Futsal Femenina 2024, que se disputa en Bolivia, se definieron este viernes tras la victoria del argentino Racing Club por 3-2 ante las bolivianas del Always Ready en la última jornada de la fase de grupos.
Associated Press
CIDH concluye visita a Guatemala con recomendación de examinar la independencia de la fiscalía
CIUDAD DE GUATEMALA (AP) — La Comisión Interamericana de Derechos Humanos recomendó el viernes a Guatemala liberar a las personas que están en prisión preventiva criminalizadas por el ejercicio o defensa de los derechos humanos, y realizar un examen independiente del funcionamiento del Ministerio Público y su impacto en los derechos humanos.Las recomendaciones se hicieron tras una visita de cinco días al país en la que la CIDH, un ente de la Organización de Estados Americanos (OEA), evaluó la si
Business Wire
Lineage anuncia el cierre de su oferta pública inicial
NOVI, Mich., July 27, 2024--Lineage, Inc. (la "Compañía") (Nasdaq: LINE) anunció hoy el cierre de su oferta pública inicial suscrita de 56.882.051 acciones ordinarias a un precio de oferta pública de USD 78,00 por acción. Los ingresos netos de la oferta fueron de aproximadamente USD 4200 millones, una vez deducidos los descuentos y comisiones de suscripción y los gastos estimados a cargo de la Compañía. La Compañía pretende utilizar los ingresos netos recibidos de la oferta para reembolsar los p
EFE Latam
Fede Álvarez dice que 'Alien: Romulus' es la cinta "más dramática" de la franquicia
San Diego (EE.UU.), 26 jul (EFE).- Fede Álvarez, el director de 'Alien: Romulus', adelantó este viernes en la Comic-Con de San Diego que su película será la cinta más dramática que ha tenido la franquicia creada en 1979.
France 24
Fiscalía de París abre una investigación tras el atentado a la red ferroviaria
El sistema ferroviario francés sufrió interrupciones en su servicio después de un "ataque masivo" a la red de alta velocidad en la jornada inaugural de los Juegos Olímpicos de París. El caso ya es investigado por la Fiscalía mientras cientos de usuarios sigue sufriendo las afectaciones.Leer más sobre FRANCE 24 Español
San Diego Red
Lanzan corrido de la captura de Ismael “El Mayo” Zambada
El cantante Chuy López compartió un fragmento de la nueva canción que escribió tras la detención del capo del Cártel de Sinaloa.
EFE Latam
ONG llevan alimentos a caravana migrante que avanza en condiciones precarias por México
Escuintla (México), 26 jul (EFE).- Asociaciones civiles y de derechos humanos llevaron este viernes alimentos a una caravana de cerca de 3.000 migrantes que avanza en condiciones precarias por la frontera sur de México.
LA NACION
Guillermo López: el legado de Juan Alberto Badía, el duelo que atravesó con CQC y la tristeza por una pérdida que sacudió su vida
Dice que, desde que estuvo internado en la pandemia, cambió sus prioridades; por qué prefiere no hacer televisión diaria, la nostalgia que siente por su faceta como notero y las veces que lo tentaron para hacer política
France 24
Informe desde Panamá: denuncian bloqueo a observadores internacionales para ingresar a Venezuela
Tras ser bloqueado para ingresar a Caracas, el presidente panameño José Raúl Mulino, citó a las autoridades venezolanas para den explicaciones por lo sucedido. Junto a Mulino estaban listos para viajar una decena de exmandatarios latinoamericanos que pretendían actuar como observadores internacionales de cara a las elecciones presidenciales del domingo 28 de julio. Informa Óscar Sulbarán.Leer más sobre FRANCE 24 Español
LA NACION
“Si El Mayo soltara toda la información, sería algo potencialmente desestabilizador para las relaciones de México y EE.UU.”
La detención del capo narco generó impacto internacional abrió un escenario de incógnitas sobre el vínculo entre los dos países norteamericanos
LA NACION
Se consagró Miss Siete Días por su belleza, les “arrebató” la corona a dos famosas y hoy pisa fuerte con la misma pasión
Nació en Chaco, se instaló en Santa Fue y cuando desembarcó en Buenos Aires arrasó; Liliana Casanova triunfó en certámenes locales y hasta fue distinguida en Venezuela
LA NACION
Juegos Olímpicos París 2024: el deportista argentino que se robó el corazón de un político neerlandés
Nicolás Keenan integra las filas de Los Leones, el equipo de hockey masculino, y está en pareja con Rob Jetten, funcionario de la reina Máxima y el rey Guillermo Alejandro
LA NACION
Juegos Olímpicos 2024: los mejores memes de una apertura “en barco”
La inauguración, por primera vez en la historia, no pasó por un estadio de ningún tipo; y las redes sociales se hicieron eco

S&P 500

Dow Jones

Nasdaq

Russell 2000

Petróleo

Oro

Plata

dólar/euro

Bono a 10 años

dólar/libra

yen/dólar

Bitcoin USD

CMC Crypto 200

FTSE 100

Nikkei 225

Opinión: La inteligencia artificial tiene un problema de medición

Historias más recientes

Gobierno de Montserrat Caballero realiza inversión de 51 millones de pesos en maquinaria para delegaciones en Tijuana

La llama olímpica en la historia

Descubren una nueva especie de araña de saco en la Amazonía de Ecuador

2-3. Guillermo Martínez falla un penalti en el añadido y Pumas cae contra el Austin

5 cosas que ocurren por primera vez en los Juegos Olímpicos de París

Trump ataca en Florida a la vicepresidenta Harris, su probable rival demócrata

Griselda Colina: 'Esperamos una coordinación de todos los grupos de veeduría electoral en Venezuela'

Definidas las semifinales de la Copa Libertadores femenina de futsal

CIDH concluye visita a Guatemala con recomendación de examinar la independencia de la fiscalía

Lineage anuncia el cierre de su oferta pública inicial

Fede Álvarez dice que 'Alien: Romulus' es la cinta "más dramática" de la franquicia

Fiscalía de París abre una investigación tras el atentado a la red ferroviaria

Lanzan corrido de la captura de Ismael “El Mayo” Zambada

ONG llevan alimentos a caravana migrante que avanza en condiciones precarias por México

Guillermo López: el legado de Juan Alberto Badía, el duelo que atravesó con CQC y la tristeza por una pérdida que sacudió su vida

Informe desde Panamá: denuncian bloqueo a observadores internacionales para ingresar a Venezuela

“Si El Mayo soltara toda la información, sería algo potencialmente desestabilizador para las relaciones de México y EE.UU.”

Se consagró Miss Siete Días por su belleza, les “arrebató” la corona a dos famosas y hoy pisa fuerte con la misma pasión

Juegos Olímpicos París 2024: el deportista argentino que se robó el corazón de un político neerlandés

Juegos Olímpicos 2024: los mejores memes de una apertura “en barco”