Tweet

Softcatalà

Aug 29 • 17 tweets • 7 min read

➡️És possible disposar dels assistents de veu en català?

Aquesta pregunta ens la fa molta gent últimament, així que intentarem explicar què comporta disposar de Cortana, Alexa, Siri o Google Home en #català.
Obrim fil 👇🏼🧵

Què fa falta?

1⃣ Voluntat. No falla.

Cal recordar que parlem de productes comercials, per això, perquè els assistents de veu entenguen el #català, necessitem que les empreses vulguen.
Això requereix esforços específics per a les empreses.
Parlem d’Alexa, per exemple 👇🏼

L’assistent de veu d’Amazon existeix en versió domèstica, empresarial, per a cotxes, etc.

👉🏼 Perquè estiga en català cal fer moltes adaptacions per a ajustar les funcionalitats addicionals.

Tot i això, també entenem que es pot començar només amb el domèstic i anar fent…

⚙️ Per a donar suport al català, cal adaptar molts sistemes (vegeu amazon.science/blog/alexas-he…, en anglés): reconeixement de veu, síntesi de veu, sistemes de diàleg, sistemes d’extracció de coneixement, continguts (ràdios, diaris, etc.), selecció de continguts, etc.

Totes les peces són necessàries per a tenir un assistent digital de veu d’una qualitat mínima.

No s’hi valen pedaços fent pont a través d’una altra llengua.

L’esforç no és pas petit.

Ara bé, poden les empreses comercials aprofitar recursos ja existents?

Pensem un poc 👇🏼

Hi ha dos tipus de recursos, produïts per empreses, universitats, comunitats lliures, Mozilla Common Voice o el projecte Aina, que poden oferir-se a les empreses interessades:
✳️ Models d’IA entrenats
✳️ Dades (conjunt de textos, de veus, etc.)

Ara bé, els voldran utilitzar?

❌ Els models d’IA no, ho podem descartar.
Les grans empreses usen arquitectures de models pròpies i personalitzades. A més, per motius de control, incloent-hi privadesa i seguretat, no usen models de tercers.
✅ Llavors, hi ha les dades, que és on hi ha un marge d’oportunitat.

Les grans tecnològiques tenen requisits concrets de llicències, etiquetatge i criteris dels conjunts de dades, etc.

Una part de les dades que necessiten encara no existeix.

Una altra part potser sí i es pot facilitar, però usaran només el que complisca els seus criteris.

Cal inversió en enginyeria de dades, creació i etiquetatge de dades, qualitat del sistema, etc.
Però quan passa a ser un producte i l’empresa té una responsabilitat, han de disposar també d’altres recursos:
- Suport en #català
- Documentació
- Pàgines web
- Suport comercial

➡️ Més coses: la funcionalitat addicional feta per tercers.
Ex. que Alexa estiga en #català assegura la part que controla Amazon, però caldrà treballar amb la comunitat de desenvolupadors per adaptar les habilitats principals.
És important que siga un producte útil.

Ah! I fer una bona gestió del multilingüisme perquè l’assistent puga entendre dues llengües sense haver-ne de canviar la configuració.
👇🏼
Molta gent catalanoparlant descartaria configurar l’assistent en #català per no perdre l’ecosistema d’habilitats disponible en altra llengua.

⚠️ També cal destacar que un cop un producte s’ha adaptat a una llengua, cal un esforç sostingut en el temps per mantenir-ho:
👉🏼 Noves funcionalitats
👉🏼 Avanços constants d’AI que cal aplicar
👉🏼 Millores i actualització continuada de les dades

Llavors, si disposar a curt termini d’assistents de veu en català depén bàsicament dels fabricants, que cal?

👇🏼👇🏼👇🏼

Que els governs lideren les converses amb aquestes empreses, que facen servir el poder de compra, i, si cal, el de les subvencions directes.

L’administració pública ha de garantir assistents de veu en #català, sobretot si aquesta tecnologia s'usarà en un futur immediat en àmbits del tercer sector social.

Aina i altres projectes de creacions de recursos ho facilitaran, però representen només una xicoteta part.

A #Softcatalà hem treballat en l’adaptació de Mycroft, assistent de veu de codi obert, al #català. És una prova de concepte, però està disponible per a qualsevol fabricant que vulga dur a terme un producte comercial d’assistent de veu.

Pots provar-lo ací: assistent.cat

Què fer individualment?
- Col·laborar amb #CommonVoiceCat per a elaborar un corpus de veu amb llicència lliure: commonvoice.mozilla.org/ca
- Reclamar a les empreses el #català i fer ús del criteri lingüístic quan consumim.
⬇️⬇️

I també vetllar perquè les administracions públiques respecten i garantisquen els drets lingüístics de la ciutadania, també en l’àmbit tecnològic!

També pots llegir aquesta informació al nostre blog:
softcatala.org/noticies/es-po…

• • •

Missing some Tweet in this thread? You can try to force a refresh

Share this page!

Softcatalà

People who liked this thread also liked...

Try unrolling a thread yourself!

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?