Notícies > Dades i donacions de veu perquè el software lliure entengui i parli català

Dades i donacions de veu perquè el software lliure entengui i parli català

30 gener 2020
Assistent de veu

Les grans empreses d’Internet marginen les llengües minoritzades, però el software lliure brinda l’oportunitat d’estendre l’ús del català en tecnologies de la parla.

Cada cop és més habitual que parlem a les màquines. Diem “OK Google” als nostres mòbils i preguntem a Alexa o Siri qualsevol dubte que ens passa pel cap. Tots aquests són dispositius que han arribat per quedar-se, canviar les nostres vides i, perquè enganyar-nos, generar ingressos a les grans empreses tecnològiques que ens els ofereixen. Com més les utilitzem més dades de veu els donem per millorar-los i millorar, així, el producte que les companyies de l’anomenat GAFA (Google, Amazon, Facebook, Apple i Microsoft) després ens vendrà. La motivació és purament lucrativa, i això va en perjudici de llengües com el català. És per aquest motiu que Siri, per posar un exemple, només ofereix la possibilitat de dirigir-s’hi en una vintena de llengües i algunes variants dialectals més. Per tot això sorgeix una iniciativa dedicada a la donació i validació de veu com Common Voice, promoguda per la Fundació Mozilla, dedicada al software lliure. Alexander Klepel, part del projecte de Mozilla, explica a puntCAT els motius pels quals van impulsar-la.

Klepel és taxatiu: “Les màquines no entenen tothom, només entenen a una fracció de la gent. Pel que només una fracció dels seus usuaris potencials poden beneficiar-se d’aquest canvi tecnològic”. No és una qüestió menor, argumenta el portaveu de Common Voice: aquestes màquines poden ser molt útils per persones analfabetes o amb diversitat funcional, persones que no poden tocar una pantalla, per exemple. I el mercat deixa fora tots aquests públics si no parlen alguna de les llengües que els aplicatius ofereixen. És per tot això que el juny de 2017 neix el projecte Common Voice, una eina amb què democratitzar les tecnologies de la veu. La proposta de Mozilla és la de bastir una base de dades d’àudio etiquetat (transcrit en frases curtes) d’accés públic que qualsevol pot utilitzar per entrenar aplicacions de veu. Això és especialment útil per les llengües amb pocs parlants que les empreses de GAFA no ofereixen.

Actualment Common Voice inclou 4.200 hores de gravacions de 40 llengües diferents, el doble que les que ofereix Siri, d’entre les quals hi ha onze incorporades des del juny de 2019: l’abkhazià, l’àrab, el xinès d’Hong Kong, l’indonesi, el japonès, el letó, el portuguès, el romanx, el tamil, el vòtic i fins i tot la llengua auxiliar interlingua. El producte d’aportacions de prop de 259.000 contribuïdors d’arreu del món. En paraules del propi Klepel, el català es troba entre les cinc llengües amb més aportacions. Amb aquest projecte, diu el portaveu de la iniciativa, Mozilla vol contribuir a un ecosistema d’innovacions en el camp de les tecnologies de la veu més divers. I entre els resultats més tangibles que han promogut hi ha DeepSpeech, un aplicatiu que converteix veu en text i text en veu mitjançant l’entrenament automatitzat.

La traductora Pelin Doğan, la investigadora Özgür Güneş Öztürk Okumuş, la científica de dades Federica Capranico, l’enginyer de dades Baybars Külebi i el doctor en lingüística computacional Alp Öktem són membres de la cooperativa de serveis lingüístics Col·lectivat. Una cooperativa dedicada a la traducció, a la formació a d’altres traductors turcs per traduir obres en català i a les classes de turc que, a més, treballa en el desenvolupament de corpus de dades de veu en català per millorar les tecnologies de la veu de codi obert. Col·lectivat i Softcatalà van coincidir l’any 2017 al caliu de la Fira d’Economia Social i Solidària, i d’aquella trobada sorgiria la proposta de crear un sistema de reconeixement de veu en la nostra llengua. Els primers es van encarregar de la part tecnològica i d’introduir les normes del català. Fet això, van entrenar l’aplicatiu amb dades de veu de la televisió pública TV3. Després ho farien amb dades generades durant les sessions plenàries del Parlament gràcies a una ajuda de la conselleria de cultura de la Generalitat de Catalunya.

Col·lectivat treballa ara en un aplicatiu de síntesi de la parla o reproducció artificial de la veu humana en català. Aquesta aposta permet integrar el producte a aplicatius de codi obert com Open Street Map. Ara per ara, aplicacions homòlogues com el Google Maps del gegant de Silicon Valley no ofereixen aquest servei, quelcom que afecta altres productes de l’empresa. El producte en qüestió parteix d’una proposta existent, un sistema de síntesi de la parla en català entrenat amb dades obertes. Un projecte subvencionat per la Generalitat els anys 2008 i 2009 i executat per la Universitat Politècnica de Catalunya (UPC). El fet que aquest aplicatiu tingui més d’una dècada fa que soni molt robòtic. Col·lectivat ha aplicat nous mètodes basats en l’ús de xarxes neuronals que fan que soni molt més natural.

La cooperativa considera les tecnologies lliures un element indispensable de la sobirania tecnològica. Així ho explica Baybars Külebi: “El model de negoci que tenen GAFA és recollir les dades de la ciutadania i emprar-les per lucrar-se. Col·lectivat i, en general, l’economia social i solidària vol apostar per la sobirania tecnològica contra els gegants d’Internet”. Una batalla en la qual no estan sols, tal i com constata l’esmentat projecte Common Voice.