Sarah Silverman demanda a OpenAI, Meta por ser “plagiadores de fuerza industrial”

Sarah Silverman demanda a OpenAI, Meta por ser “plagiadores de fuerza industrial”
La comediante y autora Sarah Silverman.
Agrandar / La comediante y autora Sarah Silverman.

El viernes, el bufete de abogados Joseph Saveri presentó una demanda federal demandas colectivas en nombre de Sarah Silverman y otros autores contra OpenAI y Meta, acusando a las empresas de usar ilegalmente material protegido por derechos de autor para entrenar modelos de lenguaje de IA como ChatGPT y Llama.

Otros autores representados incluyen a Christopher Golden y Richard Kadrey, y una demanda colectiva anterior demanda judicial presentada por la misma firma el 28 de junio incluía a los autores Paul Tremblay y Mona Awad. Cada demanda alega violaciones de la Ley de Derechos de Autor del Milenio Digital, leyes de competencia desleal y negligencia.

El bufete de abogados Joseph Saveri no es ajeno a las acciones legales favorables a la prensa contra la IA generativa. En noviembre de 2022, la misma firma demanda presentada sobre GitHub Copilot por supuestas violaciones de derechos de autor. En enero de 2023, el mismo grupo legal

repetí esa formula con una demanda colectiva contra Stability AI, Midjourney y DeviantArt por los generadores de imágenes de IA. La demanda de GitHub está actualmente en camino a juicio, según el abogado Matthew Butterick. La maniobra procesal en la demanda de Stable Diffusion aún está en curso con sin resultado claro todavía.

en un presione soltar el mes pasado, el bufete de abogados describió ChatGPT y LLaMA como “plagiadores de fuerza industrial que violan los derechos de los autores de libros”. Los autores y editores se han comunicado con el bufete de abogados desde marzo de 2023, escribieron los abogados Joseph Saveri y Butterick, porque los autores “están preocupados” por la “extraña capacidad de estas herramientas de inteligencia artificial para generar texto similar al que se encuentra en materiales textuales con derechos de autor, incluidos miles de libros.”

Las demandas más recientes de Silverman, Golden y Kadrey se presentaron en un tribunal de distrito de EE. UU. en San Francisco. Los autores han exigido juicios con jurado en cada caso y buscan medidas cautelares permanentes que podrían obligar a Meta y OpenAI a realizar cambios en sus herramientas de IA.

Meta rechazó la solicitud de comentarios de Ars. OpenAI no respondió de inmediato a la solicitud de comentarios de Ars.

Un portavoz del bufete de abogados Saveri envió a Ars un comunicado en el que decía: “Si se permite que continúe este presunto comportamiento, estos modelos eventualmente reemplazarán a los autores cuyas obras robadas alimentan estos productos de IA con los que compiten. Esta demanda novedosa representa una demanda más grande”. luchar por preservar los derechos de propiedad de todos los artistas y otros creadores”.

Acusado de usar conjuntos de datos “flagrantemente ilegales”

Ni Meta ni OpenAI han revelado completamente qué hay en los conjuntos de datos utilizados para entrenar LLaMA y ChatGPT. Pero los abogados de los autores que demandan dicen que han deducido las posibles fuentes de datos a partir de pistas en declaraciones y documentos publicados por las empresas o investigadores relacionados. Los autores han acusado tanto a OpenAI como a Meta de usar conjuntos de datos de capacitación que contenían materiales protegidos por derechos de autor distribuidos sin el consentimiento de los autores o editores, incluso mediante la descarga de obras de algunos de los sitios piratas de libros electrónicos más grandes.

En el Demanda de OpenAI, los autores alegaron que, según las revelaciones de OpenAI, ChatGPT parecía haber sido entrenado en 294,000 libros supuestamente descargados de “notorios sitios web de ‘biblioteca en la sombra’ como Library Genesis (también conocido como LibGen), Z-Library (también conocido como Bok), Sci-Hub y Bibliotik .” Meta ha revelado que LLaMA fue entrenado en parte de un conjunto de datos llamado ThePile, que el otro juicio alegado incluye “toda la Bibliotik”, y asciende a 196.640 libros.

Además de supuestamente acceder a obras con derechos de autor a través de bibliotecas en la sombra, OpenAI también está acusada de usar un “conjunto de datos controvertido” llamado BookCorpus.

BookCorpus, según la demanda de OpenAI, “fue ensamblado en 2015 por un equipo de investigadores de IA con el propósito de entrenar modelos de lenguaje”. Este equipo de investigación supuestamente “copió los libros de un sitio web llamado Smashwords que alberga novelas autoeditadas, que están disponibles para los lectores sin costo alguno”. Estas novelas, sin embargo, todavía están protegidas por derechos de autor y supuestamente “fueron copiadas en el conjunto de datos de BookCorpus sin consentimiento, crédito o compensación para los autores”.

Ars no pudo comunicarse de inmediato con los investigadores de BookCorpus o Smashwords para hacer comentarios. [Update: Dan Wood, COO of Draft2Digital—which acquired Smashwords in March 2022—told Ars that the Smashwords  “store site lists close to 800,000 titles for sale,” with “about 100,000” currently priced at free.

“Typically, the free book will be the first of a series,” Wood said. “Some authors will keep these titles free indefinitely, and some will run limited promotions where they offer the book for free. From what we understand of the BookCorpus data set, approximately 7,185 unique titles that were priced free at the time were scraped without the knowledge or permission of Smashwords or its authors.” It wasn’t until March 2023 when Draft2Digital “first became aware of the scraped books being used for commercial purposes and redistributed, which is a clear violation of Smashwords’ terms of service,” Wood said.

“Every author, whether they have an internationally recognizable name or have just published their first book, deserve to have their copyright protected,” Wood told Ars. “They also should have the confidence that the publishing service they entrust their work with will protect it. To that end, we are working diligently with our lawyers to fully understand the issues—including who took the data and where it was distributed—and to devise a strategy to ensure our authors’ rights are enforced. We are watching the current cases being brought against OpenAI and Meta very closely.”]

Leave a Reply

Your email address will not be published. Required fields are marked *