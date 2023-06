El català ja és la llengua amb més hores de talls de veu gravades i validades al repositori digital de veus de Common Voice després de superar aquest dijous l'anglès, que encara era la llengua amb més minuts validats. Així ho ha remarcat la Plataforma per la Llengua, qui va impulsar una campanya per aconseguir que el català arribés a la primera posició en el rànquing de llengües d'aquest projecte impulsat per Mozilla Foundation.

Un pic superat aquest primer objectiu, l'entitat treballa ara perarribar a llarg termini a les 10.000 hores enregistrades i validades en català, i per aconseguir més diversitat dialectal, de gènere i d'edat. Aquest repositori de veus ha de permetre que les empreses puguin incorporar el català com a llengua de reconeixement i reproducció de veus en aparells d'ús quotidià amb intel·ligència artificial.

En concret, des de dijous al vespre, els talls de veu en català ja han superat les 3.298 hores enregistrades i les 2.438 hores validades. Aquestes xifres, però, continuen lluny del nombre d'hores que es considera necessari per tenir un corpus oral complet i fiable d'una llengua, aproximadament unes 10.000. Per això, a partir d'ara l'entitat continuarà treballant per a fer créixer els enregistraments en català, així com les validacions de talls de veu, i també per fer augmentar, especialment, el nombre de gravacions de certs col·lectius i evitar, d'aquesta manera, que hi hagi biaixos i les màquines entenguin tots els parlants. En concret, es necessiten més enregistraments de veu dels grups de població més infrarepresentats: els infants i menors de 25 anys, les noies i les dones, i els parlants dels dialectes balears, septentrionals, occidentals, valencians i algueresos.

Fins ara, la Plataforma per la Llengua ha combinat actes presencials amb la comunicació a les xarxes socials per a fer conèixer el projecte i animar la població a donar la seva veu pel català. Després de presentar públicament la campanya en dos partits de bàsquet alPalau Blaugrana, davant de més de 14.000 persones, l'entitat ha difós vídeos en què diferents personalitats rellevants fan una crida a enregistrar-se llegint les frases proposades per Common Voice i a penjar-les al repositori a través del web latevaveu.cat. Els protagonistes d'aquests vídeos són els jugadors de bàsquet del Futbol Club Barcelona Oriol Paulí, Sergi Martínez i Ainhoa López.

A més, per a arribar als parlants dels dialectes més infrarepresentats, l'entitat també ha comptat amb els influenciadors Albert Pagà (@berti_iau), Jordi Calafell (@cala.mitat) i el duet d'Anam Fent (@anamfent.podcast), parlants d'alguns d'aquests dialectes, que han fet vídeos de sensibilització específics. En aquests vídeos, els creadors animen el públic a donar la veu al repositori a través del web del projecte Aina, que és la iniciativa de la Generalitat de Catalunya i el Barcelona Supercomputing Center per impulsar la llengua a Common Voice, amb el suport del Govern de les Illes Balears.

En la línia de fer créixer la presència de veus de les Balears, l'entitat també va fer un acte el 31 de maig a l'Espai Mallorca de Barcelona per a aconseguir donants de veu entre la població mallorquina de la capital catalana. En aquella ocasió, a més d'aconseguir noves veus, l'entitat va fer conèixer el projecte a persones molt involucrades en les activitats d'aquesta comunitat, fet que permetrà, per la capacitat prescriptiva d'aquestes persones, que el projecte creixi entre els seus cercles. Per a explicar bé la importància d'enregistrar-se perquè les màquines puguin entendre i expressar-se en català, l'acte va comptar amb la intervenció de Joan Montané, membre de Softcatalà, entitat impulsora de Common Voice als territoris de parla catalana. Per a aconseguir més diversitat dialectal i arribar a llarg termini a les 10.000 hores, l'entitat continuarà combinant accions comunicatives a les xarxes socials amb actes presencials amb diferents col·lectius de parlants de grups infrarepresentats.

Common Voice, una base de veus en llicència de domini públic

Common Voice és un projecte que vol forjar un repositori de talls de veu de totes les llengües del món a partir de la col·laboració voluntària de persones que facin la seva aportació de veu o validin l'enregistrament d'altres persones. Aquesta base de dades lliure està segmentada per gènere, edat i variant dialectal, i permet descarregar les veus a qui vulgui desenvolupar i millorar programaris de reconeixement de parla, com ara robots domèstics o assistents de veu. La descàrrega d'aquestes veus es pot fer de manera gratuïta i en llicència d'oferiment al domini públic sense drets d'explotació. Creat el 2017 per Mozilla Foundation i impulsat als territoris de parla catalana per Softcatalà, el repositori ja compta amb talls de veu de 136 llengües. El 2020, amb l'impuls del projecte Aina, la presència del català creix de manera significativa a la plataforma.