Anuncios
U.S. markets closed
  • S&P 500

    5,127.79
    +63.59 (+1.26%)
     
  • Dow Jones

    38,675.68
    +450.02 (+1.18%)
     
  • Nasdaq

    16,156.33
    +315.37 (+1.99%)
     
  • Russell 2000

    2,035.72
    +19.61 (+0.97%)
     
  • Petróleo

    77.99
    -0.96 (-1.22%)
     
  • Oro

    2,310.10
    +0.50 (+0.02%)
     
  • Plata

    26.78
    -0.04 (-0.16%)
     
  • dólar/euro

    1.0767
    +0.0039 (+0.37%)
     
  • Bono a 10 años

    4.5000
    -0.0710 (-1.55%)
     
  • dólar/libra

    1.2546
    +0.0013 (+0.11%)
     
  • yen/dólar

    152.9490
    -0.7300 (-0.48%)
     
  • Bitcoin USD

    62,766.51
    +2,988.40 (+5.00%)
     
  • CMC Crypto 200

    1,359.39
    +82.41 (+6.45%)
     
  • FTSE 100

    8,213.49
    +41.34 (+0.51%)
     
  • Nikkei 225

    38,236.07
    -37.98 (-0.10%)
     

Lo que hay que saber sobre las empresas tecnológicas que utilizan la IA para enseñar a su propia IA

Claude, el chatbot de IA de Anthropic, en Queens, el 12 de julio de 2023. (Jackie Molloy/The New York Times)
Claude, el chatbot de IA de Anthropic, en Queens, el 12 de julio de 2023. (Jackie Molloy/The New York Times)

OpenAI, Google y otras empresas tecnológicas entrenan a sus chatbots con enormes cantidades de datos extraídos de libros, artículos de Wikipedia, noticias y otras fuentes de internet. Pero en el futuro, esperan utilizar algo llamado datos sintéticos.

Esto se debe a que las empresas tecnológicas podrían agotar el texto de alta calidad que ofrece el internet para el desarrollo de la inteligencia artificial. Y las empresas se enfrentan a demandas por derechos reservados interpuestas por autores, organizaciones de noticias y programadores informáticos por utilizar sus obras sin permiso. (En uno de esos casos, The New York Times demandó a OpenAI y Microsoft).

Creen que los datos sintéticos ayudarán a reducir los problemas de derechos de autor y a aumentar la oferta de materiales de formación necesarios para la IA. A continuación, lo que hay que saber al respecto.

PUBLICIDAD

¿Qué son los datos sintéticos?

Son datos generados por la inteligencia artificial.

¿Significa esto que las empresas tecnológicas quieren que la IA sea entrenada por la IA?

Claude, el chatbot de IA de Anthropic, en Queens, el 12 de julio de 2023. (Jackie Molloy/The New York Times)
Claude, el chatbot de IA de Anthropic, en Queens, el 12 de julio de 2023. (Jackie Molloy/The New York Times)

Sí. En lugar de entrenar modelos de IA con textos escritos por personas, varias empresas tecnológicas como Google, OpenAI y Anthropic esperan entrenar su tecnología con datos generados por otros modelos de IA.

¿Los datos sintéticos funcionan?

No exactamente. Los modelos de IA se equivocan y se inventan cosas. También han demostrado que captan los sesgos que aparecen en los datos de internet a partir de los cuales han sido entrenados. Así que si las empresas utilizan IA para entrenar IA, es posible que acaben amplificando sus propios defectos.

¿Se utilizan mucho los datos sintéticos en las empresas tecnológicas?

No. Las empresas tecnológicas están experimentando con ellos. Pero debido a los posibles defectos de los datos sintéticos, no son una parte importante de la forma en que los sistemas de IA se construyen hoy en día.

Entonces, ¿por qué dicen las empresas tecnológicas que los datos sintéticos son el futuro?

Las empresas creen que pueden perfeccionar la forma de crear datos sintéticos. OpenAI y otras empresas han explorado una técnica en la que dos modelos de IA diferentes trabajan juntos para generar datos sintéticos más útiles y fiables.

Un modelo de IA genera los datos. Luego, un segundo modelo juzga los datos, como lo haría un humano, y decide si son buenos o malos, precisos o no. De hecho, los modelos de IA son mejores juzgando textos que escribiéndolos.

“Si le das a la tecnología dos cosas, es bastante buena eligiendo la que parece ser mejor”, afirmó Nathan Lile, director general de la empresa emergente de IA SynthLabs.

La idea es que esto proporcione los datos de alta calidad necesarios para entrenar un chatbot aún mejor.

¿Esta técnica funciona?

Más o menos. Todo se reduce a ese segundo modelo de IA. ¿Qué tan bueno es para juzgar textos?

Anthropic es la empresa que más se ha esforzado por hacer que esto funcione. Afina el segundo modelo de IA utilizando una “constitución” elaborada por los investigadores de la empresa. Esto enseña al modelo a elegir textos que apoyen determinados principios, como la libertad, la igualdad y el sentido de la fraternidad o la vida, la libertad y la seguridad personal. El método de Anthropic se conoce como “IA constitucional”.

Aun así, se necesitan humanos para asegurarse de que el segundo modelo de IA se mantiene en la línea correcta. Eso limita la cantidad de datos sintéticos que llega a generar este proceso. Y los investigadores no se ponen de acuerdo sobre si un método como el de Anthropic seguirá mejorando los sistemas de IA.

¿los datos sintéticos ayudan a las empresas a eludir el uso de información protegida por derechos de autor?

Los modelos de IA que generan datos sintéticos se entrenaron a su vez con datos creados por humanos, muchos de los cuales estaban protegidos por derechos de autor. Por tanto, los titulares de derechos de autor aún pueden alegar que empresas como OpenAI y Anthropic utilizaron sin permiso textos, imágenes y videos protegidos por derechos de autor.

Jeff Clune, profesor de Informática de la Universidad de Columbia Británica e investigador de OpenAI, señaló que los modelos de IA podrían llegar a ser más potentes que el cerebro humano en algunos aspectos. Pero lo lograrán porque aprendieron del cerebro humano.

“Como dijo Newton: la IA ve más allá al apoyarse en los gigantescos conjuntos de datos humanos”, afirmó.

c.2024 The New York Times Company