The Washington Post pone a prueba la IA generativa de código abierto para no depender de un modelo ajeno y no tener que ceder datos propios.

Los medios de comunicación digitales se encuentran en una encrucijada constante en términos de sus relaciones con la tecnología. En el pasado, para aumentar su presencia y alcance, los medios se lanzaron al uso masivo de las redes sociales y permitieron (o no evitaron) que los motores de búsqueda indexaran y utilizaran sus contenidos a cambio de tráfico. Sin embargo, con el tiempo, esta simbiosis demostró ser más difícil de abandonar y de revertir de lo que se pensaba inicialmente. Aunque el uso de las redes sociales y de los buscadores es necesario en el ecosistema digital informativo actual, los límites de esas dependencias están en revisión desde hace tiempo. 

En la actualidad, los medios digitales están afrontando un nuevo desafío, esta vez con la Inteligencia Artificial (IA) generativa. Además del problema de que no compensan a los medios por el contenido que usan para entrenarse, asunto sobre el que las asociaciones de editores ya están pronunciándose y tomando medidas, las herramientas comerciales de IA generan también una dependencia tecnológica importante y comprometen la relación entre los medios y su audiencia, ya que se basan en tecnología propia y modelos comerciales. La IA generativa puede ser muy beneficiosa para los medios, pero no está exenta de riesgos en cuanto a esa dependencia.

The Washington Post, en un intento por proteger su independencia tecnológica y controlar este nuevo desafío, ha optado por experimentar con modelos de IA de código abierto en lugar de depender exclusivamente de herramientas comerciales, según informa Adexchanger. Sam Han, director de IA y aprendizaje automático del Post, explica que están probando varios modelos de LLM, incluyendo el ChatGPT de OpenAI, Google Bard y la implementación de GPT a través de AWS. Pero también están ahora teniendo muy presentes las variedades de LLaMA de código abierto de Meta, con el objetivo de “refinarlas según nuestras necesidades”.

En la estrategia del periódico para mantener la confidencialidad de sus procesos también se incluye esta diversificación de modelos de IA. Han advierte que, aunque OpenAI puede rastrear las conversaciones a través de la interfaz web de ChatGPT para propósitos de entrenamiento, y conserva los datos recopilados a través de su API durante 10 días para fines de depuración, The Washington Post prefiere garantizar una mayor seguridad de su contenido.

Y, además, quiere asegurarse de que no se generen narrativas ficticias, como las que arroja de vez en cuando chatGPT.

Para mitigar estos riesgos, Han explica que, en lugar de permitir que el modelo de IA genere respuestas basándose en una amplia variedad de información en línea, The Washington Post alimenta al modelo de código abierto con fragmentos seleccionados de sus propios artículos para garantizar la generación de una respuesta fiable. 

Según Han, existen muchos obstáculos prácticos y técnicos por delante para los medios de comunicación en cuanto a las tecnologías de IA y que, al igual que las redes sociales cambiaron la forma en que las personas consumen información, los modelos como ChatGPT transformarán los hábitos y gustos de lectura de maneras que aún son difíciles de anticipar. La forma en que se defina ahora esa relación no puede convertirse en una hipoteca futura.

Fuente: Laboratorio de Periodismo