Datos y donaciones de voz para que el software libre entienda el catalán

30 enero 2020
Assistent de veu

Las grandes empresas de Internet marginan las lenguas minorizadas, pero el software libre brinda la oportunidad de extender el uso del catalán en las tecnologías del habla.

Cada vez es más habitual que hablemos a las máquinas. Les decimos «OK Google» a nuestros móviles y preguntamos a Alexa o Siri cualquier duda que se nos pase por la cabeza. Todos ellos son dispositivos que han llegado para quedarse, cambiar nuestras vidas y, para qué engañarnos, generar ingresos a las grandes tecnológicas que nos los ofrecen. Cuanto más las utilizamos más datos de voz les damos para mejorarlos y mejorar, así, el producto que las compañías del GAFA (Google, Amazon, Facebook, Apple y Microsoft) después nos venderán. La motivación es puramente lucrativa, y esto va en perjuicio de lenguas como el catalán. Es por este motivo que Siri, por poner un ejemplo, sólo ofrece la posibilidad de dirigirse a ella en unas veinte lenguas y algunas variantes dialectales más. Por todo ello surge una iniciativa dedicada a la donación y validación de voz como Common Voice, promovida por la Fundación Mozilla, dedicada al software libre. Alexander Klepel, parte del proyecto de Mozilla, explica los motivos por los que la impulsaron.

Klepel es tajante: «Las máquinas no entienden a todo el mundo, sólo entienden a una fracción de la gente. Por lo que sólo una fracción de sus usuarios potenciales pueden beneficiarse de este cambio tecnológico». No es una cuestión menor, argumenta el portavoz de Common Voice: estas máquinas pueden ser muy útiles para personas analfabetas o con diversidad funcional, personas que no pueden tocar una pantalla, por ejemplo. Y el mercado deja fuera a todos esos públicos si no hablan algunas de las lenguas que los aplicativos ofrecen. Es por todo ello que en junio de 2017 nace el proyecto Common Voice, una herramienta con la que democratizar las tecnologías de la voz. La propuesta de Mozilla es la de levantar una base de datos de audio etiquetado (transcrito en frases cortas) de acceso público que cualquiera puede utilizar para entrenar aplicaciones de voz. Esto es especialmente útil para las lenguas con pocos hablantes que las empresas de GAFA no ofrecen.

Actualmente Common Voice incluye 4.200 horas de grabaciones de 40 lenguas diferentes, el doble de las que ofrece Siri, de entre las cuales hay once incorporadas desde junio de 2019: el abjasio, el árabe, el chino de Hong Kong, el indonesio, el japonés, el letón, el portugués, el romanche, el tamil, el vótico y hasta la lengua auxiliar interlingua. El resultado de aportaciones de cerca de 259.000 contribuidores de todo el mundo. En palabras del propio Klepel, el catalán se encuentra entre las cinco lenguas con más aportaciones. Con este proyecto, afirma el portavoz de la iniciativa, Mozilla quiere contribuir a un ecosistema de innovaciones en el campo de las tecnologías de la voz más diverso. Y entre los resultados más tangibles que han promovido está DeepSpeech, un aplicativo que convierte voz en texto y texto en voz mediante el entrenamiento automatizado.

La solución .cat

La traductora Pelin Doğan, la investigadora Özgür Güneş Öztürk Okumuş, la científica de datos Federica Capranico, el ingeniero de datos Baybars Külebi y el doctor en lingüística computacional Alp Öktem son miembros de la cooperativa de servicios lingüísticos Col·lectivat. Una cooperativa dedicada a la traducción, a la formación de otros traductores turcos para traducir obras en catalán y a las clases de turco que, además, trabaja en el desarrollo de corpus de datos de voz en catalán para mejorar las tecnologías de la voz en código abierto. Col·lectivat y Softcatalà coincidieron en 2017 bajo el paraguas de la Feria de Economía Social y Solidaria de Barcelona. De aquel encuentro surgiría la propuesta de crear un sistema de reconocimiento de voz en nuestra lengua. Los primeros se encargaron de la parte tecnológica y de introducir las normas del catalán. Hecho esto, entrenaron el aplicativo con datos de voz de la televisión pública TV3. Después lo harían con datos generados durante las sesiones plenarias del parlamento catalán gracias a una ayuda de la consejería de cultura de la Generalitat de Cataluña.

Col·lectivat trabaja ahora en un aplicativo de síntesis del habla o reproducción artificial de la voz humana en catalán. Esta apuesta permite integrar el producto en aplicativos de código abierto como Open Street Map. Por ahora, aplicaciones homólogas como el Google Maps del gigante de Silicon Valley no ofrecen este servicio, algo que afecta otros productos de la empresa. El producto en cuestión parte de una propuesta existente, un sistema de síntesis del habla en catalán entrenado con datos abiertos. Un proyecto subvencionado por la Generalitat entre los años 2008 y 2009 y ejecutado por la Universitat Politècnica de Catalunya (UPC). El hecho de que este aplicativo tenga más de una década hace que suene muy robótico. Col·lectivat ha aplicado nuevos métodos basados en el uso de redes neuronales que hacen que suene mucho más natural.

La cooperativa considera las tecnologías libres un elemento indispensable de la soberanía tecnológica. Así lo explica Baybars Külebi: «El modelo de negocio que tienen GAFA es recoger los datos de la ciudadanía y utilizarlos para lucrarse. Col·lectivat y, en general, la economía social y solidaria quiere apostar por la soberanía tecnológica contra los gigantes de Internet». Una batalla en la cual no están solos, tal y como el ya mencionado proyecto Common Voice demuestra.