El NYT se ha opuesto tanto a la «memorización» de su contenido por parte de los LLM como a sus «alucinaciones».
El New York Times ha afirmado que su contenido protegido por derechos de autor se utiliza «desproporcionadamente» en OpenAI y en los productos de IA generativa de Microsoft , mientras daba el pistoletazo de salida a las acciones legales contra los gigantes tecnológicos en los días posteriores a Navidad.
La demanda es la culminación de nueve meses de negociaciones finalmente fallidas entre uno de los mayores editores de noticias del mundo y los principales desarrolladores de IA generativa.
Además de exigir indemnización por daños y perjuicios, restitución y costas, The New York Times pide la destrucción de todos los grandes modelos lingüísticos (LLM) formados en su trabajo protegido por derechos de autor.
El editor acusó al creador de ChatGPT, Open AI, y a Microsoft, que tienen una asociación para el desarrollo de productos de IA generativa, de «tratar de aprovecharse» de su propia «inversión masiva» en periodismo original.
La demanda se presentó en Nueva York el 27 de diciembre, apenas dos semanas después de que Axel Springer, el propietario alemán de marcas como Politico, Business Insider, Bild y Welt, anunciara que había firmado un acuerdo «primero de su tipo» con OpenAI que le otorgaba la tecnología. permiso de la empresa para utilizar su contenido para formar a sus LLM. También permitirá la creación de resúmenes de contenido de Axel Springer, incluido el trabajo normalmente pagado.
Las agencias Associated Press y Shutterstock también han firmado acuerdos de formación con OpenAI , por dos y seis años respectivamente, mientras que otras editoriales como News Corp todavía están sopesando sus opciones.
Mientras tanto, The New York Times informó por separado justo antes de Navidad que Apple había iniciado negociaciones con varios editores, incluidos Condé Nast y NBC News, sobre el uso potencial de su contenido mientras desarrolla sus propias herramientas de inteligencia artificial generativa.
El New York Times inició sus propias negociaciones con OpenAI y Microsoft en abril, tratando de “plantear preocupaciones sobre propiedad intelectual y explorar la posibilidad de una resolución amistosa, con términos comerciales y barreras tecnológicas que permitirían un intercambio de valor mutuamente beneficioso entre los demandados y The New York Times”. Veces.
«Estos esfuerzos no han producido una resolución», dijo.
Tanto Microsoft como OpenAI están incluidos por la forma en que han colaborado en el desarrollo de modelos de IA generativa. Juntos diseñaron los sistemas de supercomputación, impulsados por la plataforma informática en la nube de Microsoft, Azure, que se utilizaron para entrenar todos los modelos GPT de OpenAI después del GPT-1, como se explica en la demanda.
La demanda cita los modelos ChatGPT de OpenAI, la función Bing Chat de Microsoft en su motor de búsqueda lanzada en febrero del año pasado y el complemento ChatGPT Browse with Bing que se agregó al motor de búsqueda en mayo.
Las empresas de tecnología creen que el uso que hacen de los datos de las empresas de noticias está cubierto por el «uso justo» según la ley de derechos de autor de EE. UU., que establece que los usos «transformadores» que agregan algo nuevo y no sustituyen el propósito del trabajo original tienen más probabilidades de caer bajo esta categoría. esta defensa.
Por qué el New York Times ha presentado una demanda contra OpenAI y Microsoft
Pero The New York Times cree que las dos empresas de tecnología han “obtenido ahorros sustanciales al tomar y utilizar, sin costo alguno”, su contenido para crear sus modelos sin pagar una licencia.
Dijo que se han «beneficiado injustamente» de su inversión en periodismo, con costos de empleo para sus periodistas de cientos de millones de dólares al año, y que han «evitado efectivamente gastar los miles de millones de dólares que The Times invirtió en la creación de ese trabajo» tomándolo sin permiso ni compensación”.
La organización de noticias expresó su preocupación particular por la “memorización”, es decir, el hecho de que cuando se les da la indicación adecuada, los LLM pueden repetir grandes porciones de los materiales en los que fueron capacitados. La demanda proporciona numerosos ejemplos de chatbots que citan varios párrafos de artículos casi palabra por palabra.
El New York Times dijo que publica más de 250 artículos originales por día en promedio, “muchos” de los cuales tardan meses o más en publicarse. Esos artículos son producidos, dijo citando cifras de diciembre de 2022, por 2.600 empleados involucrados en sus operaciones periodísticas de un total de 5.800.
Afirmó que, como resultado de su enorme inversión en periodismo, su trabajo se ha utilizado «desproporcionadamente» en la formación de LLM. Dijo que se habían copiado “millones” de sus artículos de noticias, investigaciones, artículos de opinión y comentarios, reseñas y guías prácticas.
El editor afirmó que Microsoft “diseñó específicamente” los sistemas informáticos “con el propósito de utilizar esencialmente todo Internet (seleccionado para incluir de manera desproporcionada a Times Works) para capacitar al LLM más capaz de la historia”.
La demanda afirmaba además que para uno de los conjuntos de datos en los que se entrenó el GPT-3 de 2020, el creado para «priorizar el contenido de alto valor» y que constituía el 22% de la combinación de entrenamiento, el contenido del New York Times representaba el 1,23% de todo. fuentes enumeradas en una recreación de código abierto, que dan una indicación de su ponderación en el modelo real.
El conjunto de datos Common Crawl, que según la demanda ponderaba el 60% de la combinación de entrenamiento, era una «copia de Internet». El dominio www.nytimes.com fue la “fuente propietaria más representada” y la tercera en general, solo detrás de Wikipedia y una base de datos de documentos de patentes estadounidenses, según un subconjunto filtrado en inglés de una instantánea del conjunto de datos de 2019.
Según un gráfico que se muestra en la presentación de la demanda, las organizaciones de noticias más representadas después de The New York Times fueron The Los Angeles Times y The Guardian, seguidas por Forbes, Huffpost, Washington Post, Business Insider, Chicago Tribune, The Atlantic, Al Jazeera. y NPR.
La demanda alegaba que, aunque OpenAI y Microsoft “se dedicaron a copiar a gran escala de muchas fuentes, dieron especial énfasis al contenido del Times al crear sus LLM, revelando una preferencia que reconoce el valor de esos trabajos”.
El resultado, según la demanda, es un impacto perjudicial para varias fuentes de ingresos. El New York Times tiene más de 10 millones de suscriptores en total y apunta a tener 15 millones para fines de 2027, pero dijo que la “conducta ilegal de las compañías de tecnología amenaza con desviar a los lectores, incluidos los suscriptores actuales y potenciales, del Times, reduciendo así las suscripciones, publicidad, licencias e ingresos de afiliados que financian la capacidad del Times para continuar produciendo su nivel actual de periodismo innovador”.
Por ejemplo, citó el impacto de los resultados de búsqueda «sintéticos», como los proporcionados por Browse with Bing y Bing Chat, que proporcionan más información que la página de resultados de un motor de búsqueda tradicional, lo que a menudo hace que el usuario no tenga necesidad de visitar la página original. propio sitio web del proveedor de información, lo que representa un riesgo tanto para los ingresos por publicidad como para los ingresos por suscripción.
«Estos resultados de búsqueda ‘sintéticos’ pretenden responder directamente a las consultas de los usuarios y pueden incluir extensas paráfrasis y citas directas de informes del Times», dice la demanda.
Señaló que estos resultados, que utilizan el modelo GPT-4, también tienen la «capacidad de imitar la expresión humana, incluida la expresión del Times». Por otro lado: «En algunos casos, los modelos de los demandados simplemente escupen varios párrafos de los artículos del Times». También proporcionó ejemplos que no incluían un hipervínculo «destacado» al sitio web del New York Times a pesar de contener extractos textuales.
La marca Wirecutter del New York Times prueba y revisa productos y la gran mayoría de sus ingresos provienen de enlaces de afiliados, pero la demanda señaló que «no recibe ingresos por referencias de afiliados si un usuario compra el producto recomendado por Wirecutter a través de un enlace en la página web de los demandados». plataformas”. A pesar de esto, los modelos reproducen “a menudo completamente” las recomendaciones de Wirecutter, afirmó.
“Browse with Bing pudo reproducir las selecciones de Wirecutter para la mejor báscula de cocina, resumiendo con precisión las cuatro recomendaciones de Wirecutter y explicando sus selecciones a través de copias textuales sustanciales del artículo de Wirecutter. Cuando se le pidió que reprodujera la primera oración del artículo, Browse with Bing lo hizo con precisión…”
«Las alucinaciones engañan a los usuarios»
Pero el editor de noticias dijo que no sólo estaba preocupado por el impacto directo en los ingresos, sino que también expresó temores sobre el efecto que las «alucinaciones» podrían tener en su reputación ante el público.
Decía: “Al mismo tiempo que los modelos de los demandados están copiando, reproduciendo y parafraseando el contenido del Times sin consentimiento ni compensación, también están causando al Times un daño comercial y competitivo al atribuir erróneamente contenido al Times que, de hecho, no le hizo. publicar. En el lenguaje de la IA, esto se llama «alucinación». En términos sencillos, es desinformación”.
Un ejemplo que dio mostró una indicación a un modelo de GPT pidiéndole que escribiera un “ensayo informativo” sobre los artículos de los principales periódicos sobre un posible vínculo entre el jugo de naranja y el linfoma no Hodgkin. La respuesta, según la demanda, era «completamente inventada» que el NYT había publicado un artículo titulado «Un estudio encuentra un posible vínculo entre el jugo de naranja y el linfoma no Hodgkin».
Otro ejemplo fue una respuesta de IA que citaba recomendaciones de Wirecutter para productos que en realidad no había recomendado. «Los usuarios confían en Wirecutter para obtener recomendaciones de alta calidad y bien investigadas, y la marca Wirecutter se ve dañada por incidentes que erosionan la confianza de los consumidores y alimentan la percepción de que las recomendaciones de Wirecutter no son confiables».
La demanda continúa: “Estas ‘alucinaciones’ engañan a los usuarios en cuanto a la fuente de la información que están obteniendo, llevándolos a creer incorrectamente que la información proporcionada ha sido examinada y publicada por The Times.
«Los usuarios que preguntan a un motor de búsqueda qué ha escrito The Times sobre un tema no deben recibir una copia no autorizada ni una falsificación inexacta de un artículo del Times, sino un enlace al artículo en sí».
OpenAI ‘sorprendida y decepcionada’ por la demanda del New York Times
Un portavoz de OpenAI dijo al New York Times que las conversaciones entre las empresas habían “avanzado de manera constructiva” y que por eso estaba “sorprendido y decepcionado” por la demanda.
“Respetamos los derechos de los creadores y propietarios de contenidos y nos comprometemos a trabajar con ellos para garantizar que se beneficien de la tecnología de inteligencia artificial y de los nuevos modelos de ingresos. Tenemos la esperanza de encontrar una manera mutuamente beneficiosa de trabajar juntos, como lo estamos haciendo con muchos otros editores”.