Anuncios
U.S. markets open in 1 hour 52 minutes
  • F S&P 500

    5,513.25
    +22.25 (+0.41%)
     
  • F Dow Jones

    38,893.00
    +34.00 (+0.09%)
     
  • F Nasdaq

    20,042.00
    +122.75 (+0.62%)
     
  • E-mini Russell 2000 Index Futur

    2,054.90
    +5.60 (+0.27%)
     
  • Petróleo

    81.70
    +0.13 (+0.16%)
     
  • Oro

    2,353.50
    +6.60 (+0.28%)
     
  • Plata

    30.33
    +0.77 (+2.59%)
     
  • dólar/euro

    1.0728
    -0.0020 (-0.18%)
     
  • Bono a 10 años

    4.2170
    0.0000 (0.00%)
     
  • Volatilidad

    12.56
    +0.08 (+0.64%)
     
  • dólar/libra

    1.2690
    -0.0032 (-0.25%)
     
  • yen/dólar

    158.4150
    +0.4330 (+0.27%)
     
  • Bitcoin USD

    66,295.28
    +1,106.11 (+1.70%)
     
  • CMC Crypto 200

    1,378.18
    -4.48 (-0.32%)
     
  • FTSE 100

    8,234.42
    +29.31 (+0.36%)
     
  • Nikkei 225

    38,633.02
    +62.26 (+0.16%)
     

Cuatro claves sobre la carrera para amasar datos para la inteligencia artificial

La sede de Google en Mountain View, California, el 12 de septiembre de 2023. (Jim Wilson/The New York Times)
La sede de Google en Mountain View, California, el 12 de septiembre de 2023. (Jim Wilson/The New York Times)

Desde hace tiempo, los datos en línea han sido un producto valioso. Durante años, Meta y Google los han utilizado para dirigir su publicidad en la red. Netflix y Spotify los han empleado para recomendar más películas y música, respectivamente. Los candidatos políticos han recurrido a los datos para aprender sobre cuáles grupos de votantes poner la mira.

Durante los últimos dieciocho meses, se ha vuelto cada vez más claro que los datos digitales también son cruciales en el desarrollo de la inteligencia artificial. A continuación, lo que debes saber.

Entre más datos, mejor.

El éxito de la inteligencia artificial depende de los datos. Eso se debe a que los modelos de inteligencia artificial se vuelven más precisos y responden de manera más similar a los humanos con más datos.

PUBLICIDAD

De la misma manera en que un estudiante aprende al leer más libros, ensayos y otras fuentes de información, los grandes modelos lingüísticos (los sistemas que son la base de los chatbots) también se vuelven más precisos y potentes si se les brindan más datos.

Algunos grandes modelos lingüisticos, tales como GPT-3 de OpenAI, lanzado en 2020, se entrenaron con cientos de miles de millones de “tókenes”, que en esencia son palabras o pedazos de palabras. Los grandes modelos de lenguaje más recientes se entrenaron con más de tres billones de tókenes.

Los datos en línea son un recurso valioso y finito.

Las compañías tecnológicas están usando datos en línea disponibles públicamente para desarrollar sus modelos de inteligencia artificial más rápido de lo que los nuevos datos son producidos. Según una predicción, los datos digitales de alta calidad se agotarán para 2026.

Las compañías tecnológicas están haciendo grandes esfuerzos para obtener más datos.

En la carrera para tener más datos, OpenAI, Google y Meta están recurriendo a nuevas herramientas, cambiando sus términos de servicio y realizando debates internos.

En OpenAI, algunos investigadores crearon un programa en 2021 que convertía el audio de los videos de YouTube en texto y, después, ingresaba las transcripciones en uno de sus modelos de inteligencia artificial, lo que iba en contra de los términos de servicio de YouTube, afirmaron personas con conocimiento del asunto.

Google, que es propietaria de YouTube, también empleó datos de YouTube para desarrollar sus modelos de inteligencia artificial, con lo que se adentró en una laguna legal de los derechos de autor, indican personas con conocimiento del proceso. Además, Google modificó su política de privacidad el año pasado con el fin de poder utilizar material públicamente disponible para desarrollar más productos de inteligencia artificial.

El año pasado, en Meta, los ejecutivos y abogados debatieron cómo obtener más datos para el desarrollo de la inteligencia artificial y discutieron sobre comprar una editorial importante como Simon & Schuster. En reuniones privadas, sopesaron la posibilidad de poner obras con derechos reservados en su modelo de inteligencia artificial, incluso si eso significaba que la compañía podría ser demandada posteriormente, según grabaciones de las reuniones obtenidas por el Times.

Una solución podrían ser los datos ‘sintéticos’.

OpenAI, Google y otras compañías están explorando la posibilidad de usar su propia inteligencia artificial para crear más datos. El resultado sería lo que se conoce como datos “sintéticos”. La idea es que los modelos de inteligencia artificial generen texto nuevo que pueda ser usado para construir una mejor inteligencia artificial.

Los datos sintéticos son peligrosos porque los modelos de inteligencia artificial pueden cometer errores. Depender de tales datos puede multiplicar esas equivocaciones.

c.2024 The New York Times Company