Anuncios
U.S. markets closed
  • S&P 500

    5,099.96
    +51.54 (+1.02%)
     
  • Dow Jones

    38,239.66
    +153.86 (+0.40%)
     
  • Nasdaq

    15,927.90
    +316.14 (+2.03%)
     
  • Russell 2000

    2,002.00
    +20.88 (+1.05%)
     
  • Petróleo

    83.66
    +0.09 (+0.11%)
     
  • Oro

    2,349.60
    +7.10 (+0.30%)
     
  • Plata

    27.51
    -0.12 (-0.43%)
     
  • dólar/euro

    1.0699
    -0.0034 (-0.32%)
     
  • Bono a 10 años

    4.6690
    -0.0370 (-0.79%)
     
  • dólar/libra

    1.2494
    -0.0017 (-0.13%)
     
  • yen/dólar

    158.2960
    +2.7160 (+1.75%)
     
  • Bitcoin USD

    63,808.30
    +946.93 (+1.51%)
     
  • CMC Crypto 200

    1,343.96
    -52.57 (-3.74%)
     
  • FTSE 100

    8,139.83
    +60.97 (+0.75%)
     
  • Nikkei 225

    37,934.76
    +306.28 (+0.81%)
     

Reddit quiere cobrar por ayudar a entrenar a los grandes sistemas de inteligencia artificial

Steve Huffman, fundador y director ejecutivo de Reddit, en San Francisco, el 16 de julio de 2015. (Jason Henry/The New York Times).
Steve Huffman, fundador y director ejecutivo de Reddit, en San Francisco, el 16 de julio de 2015. (Jason Henry/The New York Times).

SAN FRANCISCO — Desde hace tiempo, Reddit ha sido un centro neurálgico de conversaciones en internet. Unos 57 millones de personas al día visitan el sitio para hablar sobre temas tan variados como el maquillaje, los videojuegos y los consejos para lavar a presión las entradas para autos.

En años recientes, la variedad de chats de Reddit también ha sido una ayuda didáctica gratuita para empresas como Google, OpenAI y Microsoft. Estas empresas utilizan las conversaciones de Reddit para desarrollar gigantescos sistemas de inteligencia artificial que, según mucha gente en Silicon Valley, van camino a convertirse en el próximo gran éxito de la industria tecnológica.

Ahora Reddit quiere cobrar por ello. El martes, la empresa señaló que planeaba empezar a cobrarles a las empresas por el acceso a su interfaz de programación de aplicaciones (API, por su sigla en inglés), el método mediante el cual entidades externas pueden descargar y procesar la enorme selección de conversaciones de persona a persona de la red social.

PUBLICIDAD

“El corpus de datos de Reddit es muy valioso”, opinó en una entrevista Steve Huffman, fundador y director ejecutivo de Reddit. “Pero no tenemos por qué darles gratis todo ese valor a algunas de las mayores empresas del mundo”.

La maniobra es uno de los primeros ejemplos significativos de una red social que cobra por dar acceso a las conversaciones que alberga para el desarrollo de sistemas de inteligencia artificial como ChatGPT, el popular programa de OpenAI. Esos nuevos sistemas de inteligencia artificial algún día podrían conducir a grandes negocios, pero es poco probable que ayuden mucho a empresas como Reddit. De hecho, podrían utilizarse para crear competidores: duplicados automatizados de las conversaciones de Reddit.

Reddit también está actuando mientras se prepara para una posible oferta pública inicial en Wall Street a finales de este año. La empresa, fundada en 2005, obtiene la mayor parte de sus ingresos por medio de la publicidad y las transacciones de comercio electrónico en su plataforma. Reddit dijo que todavía estaba puliendo los detalles de cuánto cobraría por el acceso a su API y que iba a anunciar los precios en las próximas semanas.

Los foros de conversación de Reddit se han vuelto productos valiosos, pues los grandes modelos lingüísticos (LLM, por su sigla en inglés) se han convertido en una parte esencial de la creación de nuevas tecnologías de inteligencia artificial.

Los LLM en esencia son algoritmos sofisticados desarrollados por empresas como Google y OpenAI, un colaborador cercano de Microsoft. Para los algoritmos, las conversaciones de Reddit son datos y son uno de los inmensos conjuntos de material que se introduce en los LLM para su desarrollo.

El algoritmo subyacente que ayudó a crear Bard, el servicio de inteligencia artificial conversacional de Google, se ha entrenado en parte con datos de Reddit. ChatGPT de OpenAI cita los datos de Reddit como una de las fuentes de información con las que se ha entrenado.

Otras empresas también empiezan a ver valor en las conversaciones e imágenes que alojan. Shutterstock, el servicio de alojamiento de imágenes, también vendió datos de imágenes a OpenAI para ayudar a construir DALL-E, el programa de inteligencia artificial generativa que crea nuevas y vívidas imágenes gráficas con solo una indicación escrita.

El mes pasado, Elon Musk, el dueño de Twitter, comentó que iba a tomar medidas enérgicas contra el uso de la API de Twitter, la cual miles de empresas y desarrolladores independientes utilizan para rastrear los millones de conversaciones que se producen en la red. Aunque no citó los LLM como motivo del cambio, las nuevas tarifas podrían ascender a decenas o incluso cientos de miles de dólares.

Para seguir mejorando sus modelos, los creadores de inteligencia artificial necesitan dos cosas importantes: una enorme potencia de procesamiento y una enorme cantidad de datos. Algunos de los principales desarrolladores de inteligencia artificial tienen bastante potencia de procesamiento, pero siguen buscando fuera de sus propias redes los datos necesarios para mejorar sus algoritmos. Esto incluye fuentes como Wikipedia, millones de libros digitalizados, artículos académicos y Reddit.

Los representantes de Google, Open AI y Microsoft no respondieron de inmediato a una solicitud para ofrecer comentarios.

Desde hace tiempo, Reddit ha tenido una relación simbiótica con los motores de búsqueda de empresas como Google y Microsoft. Los motores de búsqueda “rastrean” los sitios web de Reddit para indexar la información y ponerla a disposición en los resultados de búsqueda. No todos los sitios de internet reciben siempre con brazos abiertos ese rastreo o “raspado”. Sin embargo, Reddit se ha beneficiado de aparecer en los primeros resultados de las búsquedas.

La dinámica es distinta con los LLM, que engullen todos los datos que pueden para crear nuevos sistemas de inteligencia artificial como los chatbots.

Reddit cree que sus datos tienen un valor particular porque se actualizan todo el tiempo. Según Huffman, esa novedad y relevancia es lo que necesitan los grandes algoritmos de modelado lingüístico para producir los mejores resultados.

“Reddit, más que ningún otro lugar en internet, es un hogar para conversaciones auténticas”, comentó Huffman. “Hay muchas cosas en el sitio que solo dirías en terapia, o en Alcohólicos Anónimos, o nunca”.

Huffman mencionó que la API de Reddit seguirá siendo gratuita para los desarrolladores que quieran crear aplicaciones que ayuden a la gente a utilizar Reddit. Por ejemplo, podrían utilizar las herramientas para construir un bot que rastree de forma automática si los comentarios de los usuarios cumplen las normas de publicación. Los investigadores que quieran estudiar los datos de Reddit con fines académicos o no comerciales seguirán teniendo acceso gratuito a ellos.

Reddit también espera incorporar más del llamado aprendizaje automático en el funcionamiento del sitio. Por ejemplo, podría utilizarse para identificar el uso de texto generado por inteligencia artificial en Reddit y añadir una etiqueta que notifique a los usuarios que el comentario proviene de un bot.

La empresa también prometió mejorar las herramientas de software que pueden utilizar los moderadores, los usuarios que dedican su tiempo de forma voluntaria a mantener el buen funcionamiento de los foros del sitio y mejorar las conversaciones entre los usuarios. Además, los bots de terceros que ayudan a los moderadores a supervisar los foros seguirán siendo compatibles.

No obstante, para los fabricantes de inteligencia artificial, es hora de pagar.

“Nosotros tenemos un problema con que se trepen a Reddit, generen valor y no les devuelvan nada de ese valor a nuestros usuarios”, opinó Huffman. “Es un buen momento para endurecer las cosas”.

“Nos parece justo”, agregó.

c.2023 The New York Times Company