El incremento del consumo de audio lleva a los medios a desarrollar herramientas de texto a voz

Axel Springer acaba de lanzar Aravoices, y ofrecerá el servicio a otros medios, tras empezar a usarlo en Die Welt

El aumento del consumo de audio en los medios de comunicación, especialmente el podcast, que está registrando unos niveles de aceptación muy elevados, está llevando a muchos medios apostar por nuevas herramientas que permitan a sus usuarios “escuchar” también el periódico o la web, mediante herramientas de texto a voz.

Los primeros pasos son casi siempre recurrir a productos ya existentes de text to speech, sobre todo Amazon y Google, pero en muchos casos, sobre todo en idiomas distintos al inglés, la experiencia no es del todo satisfactoria; no, al menos, con el nivel de calidad que se exige a un diario digital. Además, sigue aumentando la dependencia de los medios con respecto a las grandes tecnológicas.

Otra opción ha sido que locutores profesionales o incluso los propios redactores lean sus artículos, pero esto arrastra consigo la imposibilidad de que estén disponibles en voz todos los artículos, por el volumen de trabajo que supondría no ya sólo tener que locutar las primeras versiones de los artículos, sino las actualizaciones o corrección de errores, que son muy frecuentes en la información en formato digital. En todo caso, está demostrado que incrementa el engagement.

La tercera vía es crear una herramienta propia que permita automatizar el proceso de conversión de texto a voz con garantía de calidad y que quede bajo el control del propio medio.

Es lo que acaba de anunciar el grupo de comunicación alemán Axel Springer, que ha desarrollado su propia aplicación de conversión de texto a voz, pero de código abierto (el repositorio está en Github), denominada aravoices, y que se puede utilizar para producir voces sintéticas y convertir textos en formatos de audio en tiempo real.

“Las voces que se ofrecen actualmente son genéricas y son utilizadas por muchos clientes en paralelo”, comenta Anne Küpper, Product Owner de Aravoices en Axel Springer. “Queremos producir voces sintéticas que sean tan únicas como las marcas que las utilizan”.

Las voces sintéticas de Aravoices, explican desde Axel Springer, se pueden optimizar para contextos específicos, como contenidos periodísticos, y proporcionan una base para diferentes formatos de audio como una función de lectura en voz alta, listas de reproducción o aplicaciones de voz.

La tecnología de conversión de texto a voz consiste en un modelo de aprendizaje automático que se puede utilizar para desarrollar y entrenar voces sintéticas de marca, así como una canalización de síntesis que importa textos individuales, los convierte y los entrega como archivos de audio.

Primera voz de marca para Die Welt

Die Welt será el primer medio de comunicación en tener su propia voz de marca con una función de lectura en voz alta integrada para, de momento, artículos seleccionados en WELT.de.

La voz se expandirá gradualmente a otros formatos y canales, como por ejemplo los altavoces inteligentes, y actuará como la voz reconocible de la marca Welt en el futuro.

Fuente: Laboratorio de Periodismo.