El projecte AINA ha superat aquest cap de setmana el milió de talls de veu (frasesentregistrades) després de menys de cinc mesos des de l’inici de la campanya ‘La nostra llengua és la teva veu’’ que el Govern de Catalunya va llançar a mitjans de febrer amb l’objectiu de recollir el màxim de veus possible per nodrir de continguts la primera versió del corpus de veu del català, imprescindible per ensenyar les màquines a entendre i parlar la nostra llengua.

Des que va començar la campanya i fins avui, doncs, ja s’ha aconseguit arribar a 1.006.000 talls de veu nous enregistrats i a gairebé 1.400 hores noves gravades. Aquestes són fites que s’afegeixen a les aconseguides per la campanya gràcies a l’excel·lent resposta de ciutadania, que va fer que en poc més d’un mes el català passés a ser la segona llengua del món amb més locutors a Common Voice, només per darrere de l’anglès, i que en menys de dos mesos s’assolís un dels objectius que els impulsors del projecte s’havien marcat per a tot el 2022: superar les 2.000 hores de gravació a la plataforma (actualment, més de 2.400).

Registre de donants i validació de veus, noves fites

Publicitat
Publicitat

Per construir el corpus de veu de la llengua (conjunts de dades) que necessita una màquina per aprendre-la i poder-la entendre i parlar, es requereix disposar de milions de dades de veu que incloguin la riquesa i els matisos de la llengua oral, amb tots els seus registres i variants dialectals.

Per aquest motiu, la campanya ‘La nostra llengua és la teva veu’ convida la ciutadania de parla catalana de totes les edats, gèneres, condicions i procedències a “donar” la seva veu a través del web projecteaina.cat, des d’on tothom pot llegir, enregistrar i validar un nombre il·limitat de frases agrupades de 5 en 5 a la plataforma Common Voice de Mozilla.

En aquest sentit, la validació per part de la ciutadania de frases llegides i enregistrades per altres “donants” (per fer-ho s’hi ha d’accedir a través de la pestanya ‘Escolta’ de la plataforma) és tant important com l’enregistrament de veus, ja que les dades de veu enregistrades han de passar necessàriament per un procés de validació abans de ser considerades ‘aptes’ per al projecte.

Així mateix, tot i que aquesta col·laboració es pot fer de manera totalment anònima i sense cap registre previ, conèixer els paràmetres de gènere, edat i variant dialectal de la persona “donant” de veu facilita molt la feina de classificar les dades obtingudes i, alhora, permet saber si s’està contemplant tota la diversitat lingüística del català. Per això, la campanya anima la ciutadania a registrar-se i crear un perfil a la plataforma per avançar més ràpidament en els objectius del projecte AINA.

Actualment, el perfil de veu majoritari a la plataforma Common Voice de Mozilla continua sent la d’homes d’entre 40 i 59 anys parlants de català central, tot i que la falta de registre previ d’una part important de “donants” fa que hi hagi un percentatge elevat de participants dels quals no se’n pot identificar el gènere, l’edat i/o la variant dialectal emprada (38%).

Sobre el projecte AINA

Impulsat pel Departament de la Vicepresidència i de Polítiques Digitals i Territori en col·laboració amb el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), AINA és un projecte basat en tecnologies de dades i Intel·ligència Artificial per fer possible que les màquines entenguin i parlin el català amb l’objectiu últim que la ciutadania pugui relacionar-se amb elles i participar en el món digital en català al mateix nivell que els parlants d’una llengua global, com ara l’anglès, i evitar, així, l’extinció digital de la llengua catalana.

En aquest sentit, el projecte AINA està construint els corpus i els models de llengua del català per facilitar que les empreses tecnològiques puguin desenvolupar les seves solucions o serveis específics (traductors, assistents personals, sintetitzadors de veu, classificadors de textos, etc.) en la nostra llengua.