Reddit comenzará a cargar modelos de IA aprendiendo de sus archivos extremadamente humanos

Mascota de Reddit frente a un teléfono recortado
Agrandar / Reddit, un sitio que está repleto de humanos que son todos los tipos de humanos posibles, comenzará a cobrar a las empresas más grandes que quieran entrenar sus IA de modelo de lenguaje grande en sus datos.

imágenes falsas

Si eres una empresa que entrena una IA de modelo de lenguaje grande (LLM) y quieres que aprenda del subreddit u/420NarutoConspiracy, pronto tendrás que pagar por eso.

Steve Huffman, fundador y director ejecutivo del agregador de debates y noticias sociales Reddit, le dijo a The New York Times recientemente

que planeaba cobrar a las empresas que acceden a su API con el fin de extraer el valor de sus 18 años de contenido generado principalmente por humanos. Los detalles sobre los nuevos términos están disponibles en una publicación de anuncio posterior en Reddit.

La API seguiría siendo gratuita para los desarrolladores que trabajan en bots y otras herramientas de Reddit, y para los investigadores que trabajan en proyectos académicos o no comerciales. Pero simplemente mantener las conversaciones de Reddit con fines de capacitación en IA tendrá un precio, cuyas cantidades exactas deberían llegar en las próximas semanas.

“El corpus de datos de Reddit es realmente valioso”, dijo Huffman al Times. “Pero no necesitamos dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita.

“Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema. Es un buen momento para que ajustemos las cosas”.

Los comentarios y conversaciones de Reddit han sido un recurso valioso para capacitar a las IA de LLM. ChatGPT y Bardo de Google citar datos de Reddit como una de sus fuentes. En su análisis de un solo subconjunto (12 millones) del conjunto de datos de generación de imágenes de Stable Diffusion (2300 millones), Andy Baio y Simon Willison señalaron que “las plataformas de contenido generado por los usuarios eran una gran fuente de datos de imágenes”. Un investigación de fuentes de datos comunes para muchas IA publicado hoy por The Washington Post señaló que “una compilación de texto de enlaces altamente calificados por los usuarios de Reddit” está incluida en GPT-3.

Si bien tiene la intención de limitar el acceso a las IA, Reddit dijo que tiene la intención de brindarles a los desarrolladores y moderadores mejores herramientas para trabajar dentro de sus comunidades. Las aplicaciones iOS y Android de Reddit ofrecerán formas de ver rápidamente el historial de un usuario, actualizar las reglas de la comunidad y manejar mejor las múltiples colas de modificación.

El cambio de Reddit en el acceso a la API se produce cuando la empresa busca cotizar en bolsa en la segunda mitad de 2023. de acuerdo a la información. La empresa presentado confidencialmente para una oferta pública inicial en diciembre de 2021. Esperaba una valoración de $ 15 mil millones, según Reuterspero ha retrasado su presentación hasta que mejoren las condiciones del mercado, especialmente en torno a las empresas tecnológicas.

Reddit es propiedad parcial de Advance Publications, que también es propietaria de Condé Nast, matriz de Ars Technica.

Leave a Reply

Your email address will not be published. Required fields are marked *