Para algunos editores, esto supone una afrenta aún mayor que el impuesto a la tecnología publicitaria con el que llevan años lidiando: no se trata de una parte del pastel, sino del pastel en sí.
Un ejecutivo del sector editorial, que accedió a hablar bajo condición de anonimato para poder expresarse con libertad, comparó a la nueva generación de intermediarios de datos de IA con los intermediarios de tecnología publicitaria que gestionan plataformas de demanda (DSP) para contenido. «Tenemos entre 30, 40 y 50 DSP emergentes para contenido, pero se llevan una comisión del 100 %», afirmó. «Ese es el mercado que está surgiendo ahora».
Los editores llevan mucho tiempo dispuestos a tolerar el coste de la tecnología publicitaria siempre que aporte un valor añadido evidente; la frustración persistente no se centra tanto en el coste en sí, sino en la falta de claridad sobre dónde, exactamente, se está creando ese valor.
Chris Dicker, director ejecutivo de Candr Media, cree que esto hace que el impuesto a la tecnología publicitaria parezca insignificante. «Al menos con los intermediarios de la tecnología publicitaria, los editores obtenían algo a cambio», afirmó. «Con los extractores de contenido, la extracción de valor es total. Se apropian del 100 % del contenido, pagando el 0 % y, en algunos casos, utilizan ese contenido para crear productos de la competencia que eliminan por completo al editor. No es un impuesto, es una adquisición hostil financiada con nuestra propia propiedad intelectual».
Lo que agrava el problema es la mala fe que se suma a todo esto, señaló. Ya sea que se trate de empresas que utilizan rastreadores ocultos y no declarados para eludir las directivas de no rastreo de los sitios web y pasar desapercibidas, o simplemente anunciando públicamente que no se adherirán a las directivas de no rastreo de los editores, recalcó. «Así que no se trata solo de aprovecharse de los demás, sino de un engaño activo y un abuso de escala diseñado para vencer las pocas herramientas de defensa que les quedan a los editores. Si el mensaje es «no rastrear», entonces deben recordar que no significa no», dijo Dicker, quien también forma parte de la junta directiva de la Independent Media Alliance.
El reciente informe del analista de medios Matthew Scott Goldstein sobre la «economía de los raspadores» subraya que se trata de una industria de mil millones de dólares, citando datos de Mordor Intelligence. Sin embargo, es una industria de la que las editoriales no obtienen prácticamente ningún beneficio.
Lo que es peor, cree que los programas de extracción de datos web de terceros ahora se están rebautizando como «infraestructura de agentes» para poder seguir robando a plena vista. En LinkedIn, denunció a Parallel Web Systems como una empresa que hace precisamente eso, en una publicación de blog que escribió el 29 de abril.
«La economía de los raspadores web se está rebautizando como infraestructura de agentes, y si bien la tecnología se está perfeccionando y la propuesta empresarial se está volviendo más clara, la economía subyacente no ha cambiado porque los agentes consumirán la web a una escala que empequeñece el comportamiento humano», escribió, «y hasta que exista una capa de mercado real que ponga precio y regule ese consumo, esta categoría compite fundamentalmente por ver quién puede extraer más valor de la web más rápido, mientras que la cuestión de quién cobra sigue sin resolverse».
El informe de Goldstein identificó a 21 proveedores que realizan esta práctica, entre ellos Firecrawl, Exa, Tavily, Brave, You.com, Perplexity Sonar y Bright Data. (TollBit también mantiene un índice actualizado de programas de extracción de datos de terceros , identificando a casi 40 proveedores).
Las editoriales se han aferrado repetidamente a la idea de que son las «anfitrionas» que están siendo devoradas vivas, argumentando que sin su contenido, los futuros másteres en derecho no existirían. Sin embargo, cada vez más, da la sensación de que sus palabras caen en saco roto, ya que los acuerdos de licencia se rigen menos por el reconocimiento del valor y más por la necesidad de las plataformas de limitar su exposición legal.
Napster se ha convertido en el ejemplo paradigmático de lo que no se debe hacer: un momento en el que la industria musical vio cómo su valor se desvanecía a gran escala, muy parecido a lo que temen los editores que esté ocurriendo ahora.
“Vivimos en un mundo con cada vez más sitios como Napster, pero aún no tenemos iTunes ni Spotify… solo competimos con los piratas, y los piratas son más rápidos, como siempre”, dijo el mismo ejecutivo editorial.
Para aquellos editores que distribuyen contenido en otros sitios web, bloquear los rastreadores de IA se está convirtiendo cada vez más en una tarea interminable. Incluso si bloquean sus propios dominios, sus artículos suelen reaparecer en grandes portales y sitios web de clientes que distribuyen sus feeds, según declaró anteriormente un ejecutivo editorial a Digiday bajo condición de anonimato.
Cuando estos editores cuestionan a las empresas de IA sobre la extracción de ese contenido a través de terceros, con frecuencia se les dice que el problema reside en la configuración de los portales en lugar de en las prácticas de rastreo de las propias empresas de IA, lo que en la práctica traslada la responsabilidad a un nivel inferior de la cadena.
Fuente: Digiday



