En aras de proteger el contenido protegido por derechos de autor, los editores han optado por demandar a las empresas de inteligencia artificial, asociarse con ellas o adoptar una postura de esperar y ver.
En la comunidad de medios de comunicación existe una creciente inquietud por el modo en que sus productos (el periodismo que crean, con un gasto nada desdeñable) se están utilizando para entrenar los modelos de lenguaje grandes (LLM) de la IA generativa. Se preguntan si la ley de derechos de autor los protegerá, si deberían demandar por violaciones de derechos de autor o aceptar las condiciones de licencia y compensación que ofrecen los desarrolladores de IA. E&P buscó comprender mejor estos dilemas, por lo que preguntamos a los editores y defensores de los medios de comunicación cómo creen que se concretarán estas relaciones.
En este nuevo ámbito de la inteligencia artificial, Danielle Coffey, presidenta y directora ejecutiva de News/Media Alliance, destacó la necesidad crítica de registrar los derechos de autor: “Significa propiedad. Te da la capacidad de hacer cumplir la protección de los derechos de autor. Para hacerla cumplir, en la práctica, en el mercado, en los tribunales, tiene que estar registrada”.
Después de una década de defensa, a fines de julio la Oficina de Derechos de Autor emitió una nueva resolución para el registro de grupos que refleja actualizaciones en los sitios web de noticias.
Pero ¿qué garantías ofrece el copyright a un editor con respecto a la IA generativa?
“En este momento, tenemos protección de derechos de autor, punto. Pero si se trata o no de un uso legítimo y libre de nuestro contenido es algo que los tribunales determinarán en los próximos meses y años”, dijo Coffey.
La protección de los derechos de autor es reactiva, pero también hay formas de proteger la propiedad intelectual de forma proactiva. Coffey dijo que algunos desarrolladores de IA ahora permiten a los editores optar por no permitir que se rastree su contenido, lo que tiene un gran impacto.
En un artículo para The New York Times publicado en julio, el columnista de tecnología Kevin Roose explicó: “Durante el último año, muchas de las fuentes web más importantes utilizadas para entrenar modelos de IA han restringido el uso de sus datos, según un estudio publicado esta semana por la Data Provenance Initiative, un grupo de investigación dirigido por el MIT. El estudio, al analizar 14.000 dominios web incluidos en tres conjuntos de datos de entrenamiento de IA de uso común, descubrió ‘una crisis emergente en el consentimiento’, ya que los editores y las plataformas en línea han tomado medidas para evitar que se recopilen sus datos”.
En mayo de 2024, OpenAI reveló que estaba desarrollando Media Manager, “una herramienta que permitirá a los creadores y propietarios de contenido decirnos qué poseen y especificar cómo quieren que sus obras se incluyan o excluyan del aprendizaje y el entrenamiento automático”.
Sin embargo, esto no afecta retroactivamente al contenido ya recopilado y no lo protege necesariamente de RAG (Retrieval Augmented Generation), que permite a los desarrolladores extraer contenido en tiempo real a través de motores de búsqueda.
“Esto significa la publicación de hoy, la noticia de último momento”, explicó Coffey. “El motivo por el cual esto es un problema es que los LLM pueden entonces producir copias textuales de contenido en tiempo real. Estarían compitiendo con nosotros por nuestras noticias de último momento y lo que cubrimos en tiempo real. Se convierten en un competidor de pleno derecho, y eso es muy problemático, por eso escribimos al [Departamento de Justicia]”.
Coffey dijo que apoya plenamente a los medios de comunicación que han presentado demandas, incluido The New York Times, que, según ella, tiene «un caso muy sólido». Sin embargo, no cree que todos los desarrolladores sean «malos actores». Espera que haya una relación más beneficiosa para ambas partes entre los miembros de la Alianza y los desarrolladores de IA. Para ayudar a construir ese puente, la Alianza está trabajando en el marco de los acuerdos de licencia y cumplimiento.
“Creo que la concesión de licencias de contenido, las asociaciones y la colaboración con estas empresas de inteligencia artificial son el mejor camino a seguir porque se pueden evitar litigios prolongados para ambas industrias. Al fin y al cabo, tenemos que seguir existiendo”, afirmó.
Aunque no se han revelado los términos de los acuerdos (cómo están estructurados y sus valores), varios editores han llegado a acuerdos con desarrolladores. News Corp firmó un acuerdo plurianual con OpenAI, que permite al desarrollador aprovechar el contenido de The Wall Street Journal, New York Post y otros títulos del imperio Murdoch. OpenAI también firmó contratos con Axel Springer, Financial Times, The Atlantic, The Associated Press, DotDash Meredith y Vox Media.
Construyendo un caso
Ian Crosby es socio de Susman Godfrey (un bufete de abogados que representa tanto a plataformas como a editoriales en cuestiones de derechos de autor) y es el abogado principal de la demanda de The New York Times contra Microsoft y OpenAI, presentada en diciembre de 2023. Crosby habló con E&P sobre las protecciones de derechos de autor para editoriales y señaló: “Para obtener daños legales, tienes que haber registrado tus obras en la oficina de derechos de autor antes o poco después de que se infringieran”, explicó Crosby. “Hasta hace poco (literalmente esta semana) era muy difícil registrar obras que solo se publican en línea. The New York Times puede registrar sus obras porque tiene una edición impresa diaria, por lo que los mecanismos que han estado en funcionamiento durante mucho tiempo hacen que sea fácil (o relativamente fácil) para una editorial periódica regular registrar sus ediciones impresas diarias. Y esos registros cubren las versiones digitales de esas obras”.
Crosby también explicó cómo se calculan los daños en los casos de derechos de autor: “La ley de derechos de autor reconoce que puede ser difícil calcular los daños reales por infracción de derechos de autor”, dijo Crosby. “Ésta, junto con la disuasión, es una de las razones por las que la ley de derechos de autor establece daños legales. [Son] significativos por obra. Hay un mínimo de $750 por obra infringida y pueden llegar hasta $30,000. O, en el caso de una infracción considerada intencional, puede llegar hasta $150,000 por obra”.
En julio, los editores vieron cómo OpenAI, en particular, planea defender sus acciones. En su caso con The New York Times, OpenAI presentó un alegato en el Tribunal de Distrito de Nueva York, solicitando que The Times demuestre que el contenido en disputa es, de hecho, “original” y creado íntegramente por el editor. E&P recibió con agrado los comentarios de OpenAI, pero no recibió respuesta.
El ‘saqueo’ de contenidos de los editores
Ocho periódicos publicados por MediaNews Group, propiedad de Alden Global Capital, y Tribune Publishing presentaron una demanda contra OpenAI en abril de 2024.
“Empresas como OpenAI se han apropiado descaradamente de contenido protegido por derechos de autor, incluidos millones de nuestras historias, para crear sus productos”, dijo Frank Pine a E&P por correo electrónico. Pine es el editor ejecutivo de MediaNews Group y Tribune Publishing. “Es como si hubieran entrado en una librería y se hubieran llevado todos los libros sin pagarlos, alegando que debían ser gratuitos porque estaban ahí tirados en el estante para que cualquiera los hojeara. A continuación, utilizan la IA de tal manera que socavan y, en última instancia, reemplazan nuestro negocio, saqueando los sitios de las editoriales en tiempo real para proporcionar resúmenes plagiados a sus suscriptores. Peor aún, los resúmenes a veces contienen ‘alucinaciones’, atribuyendo falsamente información errónea a publicaciones que de otro modo serían creíbles”.
Pine afirmó que MediaNews Group/Tribune Publishing tiene evidencia sustancial para respaldar su caso.
“En nuestra demanda, aportamos pruebas de que ChatGPT fue entrenado para utilizar nuestro contenido de noticias y que proporciona información basada en ese material, a veces reproduciendo nuestras historias palabra por palabra”, explicó Pine. “También aportamos ejemplos de cómo ChatGPT ha atribuido a nuestras publicaciones historias que en realidad nunca publicamos”.
“Creemos que nuestro caso legal es sólido y que hay un error claro que debe corregirse”, añadió. Por lo tanto, confiamos en que prevaleceremos. Teniendo en cuenta que el director ejecutivo de OpenAI ha declarado públicamente que OpenAI no podría haber creado ChatGPT sin contenido protegido por derechos de autor y que admitió en una audiencia del Congreso que los propietarios de contenido merecen controlar su contenido y deberían beneficiarse de su uso, parece que están de acuerdo.
Pine ve los esfuerzos de OpenAI por licenciar contenido de una lista creciente de editores como un reconocimiento de propiedad y valor.
“El hecho de que OpenAI esté haciendo estos acuerdos es una clara indicación de que reconocen que el contenido que utilizan para crear y potenciar sus productos tiene un valor material real y que deberían pagar por él. Estamos de acuerdo”, concluyó Pine.
Para los editores independientes y sin fines de lucro, los recursos legales pueden ser el único camino
El 27 de junio de 2024, el Centro de Periodismo de Investigación (CIR, por sus siglas en inglés), la organización sin fines de lucro matriz de Mother Jones y RevealNews.org, también presentó una demanda contra OpenAI y Microsoft, alegando que los acusados “copiaron, usaron, resumieron y mostraron el valioso contenido de CIR sin el permiso o autorización de CIR y sin ninguna compensación para CIR”.
La directora ejecutiva de CIR, Monika Bauerlein, sabía que la IA generativa sería problemática.
“Cuando ChatGPT 3 llegó en 2022, era absolutamente obvio que esto sería un desafío en dos sentidos. En primer lugar, se podía asumir desde el principio que estas empresas habían utilizado todo el texto que podían conseguir en Internet para entrenar estos modelos. Y, dado que a ninguno de nosotros se nos pidió permiso para hacerlo, era una apuesta segura que simplemente lo hicieron. … ¿Qué hacemos al respecto cuando nuestro trabajo, en cuya creación hemos invertido mucha sangre, sudor y dinero, se está utilizando como un recurso gratuito para estas empresas increíblemente lucrativas?
“Y el segundo aspecto era: ¿qué significa esto para la relación entre el creador y el público? De repente, se convierte en una herramienta que ofrece un resumen o extractos completos del trabajo que has hecho y no lleva al usuario de vuelta al trabajo del que se extrajo o se extrajo; no lleva al usuario de vuelta al autor o al creador, y rompe esa conexión”, explicó. “CIR es una sala de prensa sin fines de lucro y dependemos completamente del apoyo de nuestro público. El apoyo de las personas representa dos tercios de nuestro presupuesto, y la gente da ese apoyo porque encuentra nuestro trabajo útil y valioso. Se conectan con él, y si esa conexión se rompe, eso es todo”.
Bauerlein dijo que CIR habría acogido con agrado la oportunidad de considerar un acuerdo de licencia de contenido, pero no han recibido una propuesta para su “archivo de contenido profundo” que data de hace casi 50 años.
“Me preocupa un poco que, en cierta medida, los editores estén cometiendo errores similares a los que cometieron en sus relaciones con estas otras plataformas. Desde los albores de Internet, los editores han proporcionado esencialmente contenido que interesa a la gente, cuya producción requiere mucho tiempo y trabajo, a las plataformas tecnológicas de forma gratuita sin hacer valer nuestro poder y nuestros derechos como creadores de ese contenido. Y luego, cuando, después del hecho, las plataformas tecnológicas se acercan y ofrecen algunas dádivas modestas, suele ser demasiado tarde. Queríamos hacer esta declaración, en parte, porque no podemos permitir que eso vuelva a suceder”, dijo Bauerlein. “No podemos permitir que ese ciclo vuelva a ocurrir, en el que las plataformas tecnológicas utilicen nuestro contenido y cinco o diez años después nos demos cuenta de lo que ha sucedido”.
Una solución sin problema
No todos los editores de noticias sienten que los desarrolladores de IA generativa representan una amenaza existencial.
Joey Young es el propietario y editor de Kansas Publishing Ventures (KPV). “Son la nueva forma que tienen las empresas tecnológicas de aprovecharse del trabajo de otros e intentar sacar provecho de él”, dijo a E&P.
Young cree que las demandas interpuestas por las editoriales más importantes tienen mérito y les desea suerte, pero es pragmático respecto del resultado. Si esas editoriales ganan, dijo, “la probabilidad de que algo de eso llegue a las editoriales comunitarias y a la gente que intenta ganarse la vida es escasa”.
“Es difícil preocuparse por la IA cuando sabes que no hay nada que puedas hacer al respecto y cualquier energía desperdiciada en ella solo disminuirá el trabajo vital que estamos haciendo en nuestras comunidades”, dijo.
Young también moderó el frenesí sobre la IA generativa, sugiriendo que puede no ser una innovación tan profunda como muchos proclaman.
“No tienen que resolver ningún problema de un billón de dólares, así que no estoy seguro de la cantidad de dinero que se está invirtiendo en estas cosas. Es mucho más probable que estas empresas se derrumben por sí solas una vez que se acabe la expectación que cuando se vuelvan aplicables a una escala lo suficientemente grande como para ser rentables”, predijo Young. “Para cuando estas empresas pudieran ser rentables, de todos modos no habrían llegado a nuestra pequeña zona del centro-sur de Kansas para hacer una oferta”.