El projecte AINA crearà el primer diccionari de veu en català perquè les màquines entenguin i parlin la llengua "La nostra idea és que tinguem parlants de tots els indrets de Catalunya, però també de les Balears i el País Valencià", ha dit el vicepresident del Govern i conseller de Polítiques Digitals de la Generalitat, Jordi Puigneró

 

ACN Barcelona – El Govern destinarà 3 milions d’euros a una nova fase del projecte ‘AINA’, que busca fer possible que les màquines entenguin i parlin en català constituint un conjunt massiu de dades, en col·laboració amb el Barcelona Super Computing Center (BSC). Després d’aconseguir desenvolupar un corpus de text de més de 1.770 milions de paraules reunides en 95 milions de frases, ara el projecte vol crear un diccionari de veu del català. El Departament de Polítiques Digitals llançarà una campanya aquest dimecres per assolir que “milions de veus” parlants de la llengua s’hi sumin, buscant la diversitat de variants, edats, gèneres o orígens per tal d’aconseguir duplicar la base de dades actual de veu en català, que és de 1.000 hores.

El corpus de veu en català es nodrirà dels continguts obtinguts a través de la plataforma de ‘Common Voice’ de Mozilla, on tothom que ho vulgui podrà llegir i enregistrar un nombre il·limitat de frases per ajudar les màquines a aprendre com parlen les persones.

De moment, el perfil de veu majoritari és la d’homes d’entre 30 i 50 anys parlants de català central. Per això, la campanya ‘La nostra llengua és la teva veu’ convida la ciutadania de totes les edats, gèneres i procedències a “donar” la seva veu. “La nostra idea és que tinguem parlants de tots els indrets de Catalunya, però també de les Balears i el País Valencià”, ha dit el vicepresident del Govern i conseller de Polítiques Digitals de la Generalitat, Jordi Puigneró, en una roda de premsa per presentar el projecte, celebrada a la seu del BSC.

Per a engreixar aquest volum de dades, també es faran servir els arxius documentals de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o el Consell de l’Audiovisual de Catalunya (CAC).

Jordi Puigneró

L’objectiu d’aquesta campanya és “garantir el dret” dels catalans de relacionar-se amb les màquines en la seva llengua, segons el conseller. Per fer-ho, es busca aconseguir una quantitat massiva de dades per tal de bastir la infraestructura que permetrà a empreses o administracions fer aplicacions pràctiques perquè ordinadors i altres sistemes informàtics parlin i entenguin català. Per exemple, Puigneró ha mostrat voluntat d’impulsar un assistent de veu per complementar els serveis d’atenció de la Generalitat.

La cap de la unitat ‘Text Mining’, explotació de dades textuals, del Barcelona Super Computing Center, Marta Villegas, ha destacat que ens trobem en un context en què “la tecnologia juga a favor” de llengües minoritàries com el català. Segons Villegas, les grans empreses tecnològiques ara només necessiten moltes dades per adaptar a les diferents llengües els seus sistemes. “A Google o a Alexa no li costa res incloure el català. No ha de fer regles específiques o tenir un diccionari ‘ad hoc’ pel català. El que els cal són dades. Si les tenen, posaran el català a tot arreu”, ha insistit Villegas.

Per això, ha afegit, el projecte ‘AINA’ es fonamenta amb el valor “segur i de futur” de les dades. Un cop recollides, es passen a xarxes neuronals que aprenen com es combinen les paraules fins a generar un model de llengua capaç de distingir els diferents significats de la paraula ‘banc’ pel context, per exemple. “Únicament des de la iniciativa pública el català pot garantir la quantitat suficient i necessària de dades”, ha indicat l’experta.

El corpus textual del català fet el 2020 tenia 10 gigabites de dades, una xifra molt inferior a la de llengües globalitzades com l’anglès amb corpus que ocupa 825 gigues de dades.

Per això, el projecte es marca també com a objectiu d’aquest any la creació de la segona versió del corpus de text del català, que compta amb 1.770 milions de paraules recollides en 95 milions de frases. A partir d’ara, es treballarà per recollir tots els matisos de la llengua escrita, siguin variants dialectals o registres lingüístics, com ara el col·loquial, el literari o l’administratiu.

Amb la feina feta fins ara, s’ha aconseguit que la intel·ligència artificial ara conegui “l’estructura de la llengua” i en la nova fase es vol que aprengui les paraules, el significat i el llenguatge oral.
“Ja tenim l’esquelet. Ara el que hem de construir és la seva musculatura amb la campanya de recollida de veus, de parelles lingüístiques, amb una web que permetrà que qualsevol persona pugui ajudar ‘AINA’ a aprendre el català”, ha dit el vicepresident del Govern.

Deixa un comentari

L'adreça electrònica no es publicarà.