Por Jessica Davies

El testimonio de Google ante los legisladores británicos esta semana no se limitó a reiterar argumentos habituales sobre el uso legítimo y la capacitación. Aclaró los límites de lo que la compañía considera que debe y no debe pagar a los editores en el ecosistema de búsqueda basado en IA.

Para los editores que intentan navegar por las licencias de IA, el mensaje fue contundente: Google está dispuesto a pagar por el acceso, pero no por la capacitación, y sigue sin estar dispuesto a definir las Reseñas de IA como un uso compensable del periodismo.

Esa distinción es importante porque refuerza de manera efectiva dónde aún puede existir potencial para que los editores reciban pagos, dónde aún son posibles los acuerdos de licencia de IA y dónde la lucha efectivamente terminó.

Naturalmente, a los editores no les gusta.

“La postura de Google sobre la disposición es prácticamente irrelevante”, afirmó Danielle Coffey, presidenta y directora ejecutiva de News/Media Alliance. “Google y la mayoría de las grandes tecnológicas llevan años ignorando la legislación sobre derechos de autor como si no les afectara. Pero se trata de una cuestión de legalidad, no de preferencia. Si Google está legalmente obligado a pagar por los materiales de formación, como debería ser, debe cumplir con la ley”, añadió.

Digiday habló con varios ejecutivos de medios y expertos en leyes políticas (algunos de los cuales aceptaron hablar a cambio de anonimato) para este artículo.

Pagar por la capacitación está descartado

No se trata de una declaración general de «nunca pagaremos» a los editores por el contenido utilizado con fines de inteligencia artificial, pero en su aparición ante el Parlamento del Reino Unido, Roxanne Carter, jefa de políticas públicas de derechos de autor de Google, dejó en claro que la empresa no cree que necesite licenciar contenido sin muro de pago para el entrenamiento de inteligencia artificial.  

Afirmó que su razonamiento es que capacitar a los LLM en contenido web abierto es un proceso de análisis estadístico, no de copia o recuperación de información, y por lo tanto no será rentable. Esta es una postura firme hacia las editoriales: no hay futuro para la negociación en este caso.

Sin embargo, esto parece indicar que Google está aceptando lo que los editores perciben como una “falsa distinción” entre el uso de datos en la etapa de entrenamiento versus el uso de material protegido por derechos de autor en los resultados, como lo expresó un ejecutivo que aceptó hablar con franqueza a cambio de anonimato.

La preocupación es que si a las empresas de IA se les da una exención especial que les permita usar material con derechos de autor para capacitación sin permiso, esto las alentaría a confiar en el trabajo de otras personas sin crédito, enlaces o pago.

El acceso, no el aprendizaje, es lo que Google pagará

Sin embargo, Carter dejó en claro que Google está dispuesto a abrir su billetera para el acceso controlado, que podría ser contenido de archivo, conjuntos de datos fuera de la plataforma, API u otro trabajo que se haya excluido del entrenamiento de IA. 

Google intenta separar las respuestas de IA en dos categorías y argumenta que solo una de ellas debería implicar el pago a los editores cuando un modelo se basa en tiempo real mediante generación aumentada por recuperación (RAG). La diferencia radica en si la respuesta de IA apunta claramente a un editor.

Estos se denominan resultados no expresivos (sin pago) y expresivos (con pago potencial). Los resultados no expresivos son respuestas de IA que no contienen marca, enlace ni atribución a una fuente, por lo que, según Google, no están sujetos a derechos de autor. Los resultados expresivos sí contienen marca, enlace o atribución, y pueden estar sujetos a derechos de autor. 

En este contexto teórico, Google puede obtener beneficios comerciales del uso del periodismo original para construir un modelo capaz de generar resultados no expresivos a partir de su modelo, según un ejecutivo que habló con Digiday bajo condición de anonimato. 

El hecho de que decidan no atribuir esos resultados a las fuentes de los datos de entrenamiento en el resultado es irrelevante para el valor extraído, enfatizaron. Además, otorgarle a Google una excepción que le permita sugerir que el uso de material para entrenamiento debería estar exento de derechos de autor fomentaría el uso de trabajo de terceros para entrenar y perfeccionar modelos sin atribución, enlaces a las fuentes ni ninguna forma de pago al creador de dicho contenido. 

Las visiones generales de la IA y la falla pendiente siguen vigentes

Cuando se le presionó específicamente sobre AI Overviews, Carter no dio una respuesta clara sobre si los editores pueden realmente optar por no participar en AI Overviews y al mismo tiempo beneficiarse de la búsqueda. 

Esa distinción es crucial porque AI Overviews ha reducido drásticamente el tráfico de clics hacia los editores, y los controles de exclusión existentes (Google Extended) que cubren los bots de entrenamiento no necesariamente impiden que el contenido se use en AI Overviews.

“Las herramientas que Google ofrece a los editores para optar por no participar son deliberadamente débiles”, afirmó Coffey.

El quid de la cuestión radica en que la única forma de no participar en las vistas generales de IA es o bien excluirse por completo de la búsqueda de Google o bien permanecer en ella, pero luego aplicar NOSNIPPET (básicamente, una señal de «no resumir» para los motores de búsqueda) a cada artículo individual. Sin embargo, implementar NOSNIPPET tiene un inconveniente grave, enfatizó un editor.

En 2019, el presidente de Asuntos Globales de Google, Kent Walker, advirtió  que al mostrar solo el título, la URL y las miniaturas, NOSNIPPET conduciría a una reducción del 45 por ciento en el tráfico de clics, lo que la convierte en una opción inaceptable para los editores.

La realidad es que los rastreadores independientes podrían ser lo único que dé confianza a los editores. Carter mencionó las conversaciones en curso con la Autoridad de Competencia y Mercados del Reino Unido, que investiga el uso de contenido por parte de Google para la búsqueda con IA, en lugar de abordar la cuestión directamente.

Esto se interpreta ampliamente fuera de la audiencia como que no les da a los editores una forma clara de evitar que su contenido se use para resúmenes de IA, y al mismo tiempo se pueda encontrar en los resultados de búsqueda de Google.

Paul Bannister, director de estrategia de Raptive, enfatiza que el mensaje de Google siempre ha sido deliberadamente opaco en cuanto a esta opción de exclusión voluntaria. «Siempre han mantenido intencionadamente en secreto la procedencia de los datos y la opción de exclusión voluntaria de AI Overviews para aprovechar su posición de monopolio en las búsquedas y así obligar a los editores a no bloquearlos», afirmó. 

Bannister cree que si los editores bloquearan ampliamente el acceso de otras empresas de IA a su contenido, se expondría la concentración real del poder de Google, lo que podría generar suficiente presión para obligarlo a hacer concesiones. «Pero es un proceso a largo plazo y no es probable que ocurra pronto. Por lo tanto, en el futuro previsible, Google seguirá robando el contenido de los editores y difundiendo mensajes turbios para crear confusión», afirmó. 

Fuente: Digiday