Softcatalà Profile picture
Aug 29 17 tweets 7 min read
➡️És possible disposar dels assistents de veu en català?

Aquesta pregunta ens la fa molta gent últimament, així que intentarem explicar què comporta disposar de Cortana, Alexa, Siri o Google Home en #català.
Obrim fil 👇🏼🧵
Què fa falta?

1⃣ Voluntat. No falla.

Cal recordar que parlem de productes comercials, per això, perquè els assistents de veu entenguen el #català, necessitem que les empreses vulguen.
Això requereix esforços específics per a les empreses.
Parlem d’Alexa, per exemple 👇🏼
L’assistent de veu d’Amazon existeix en versió domèstica, empresarial, per a cotxes, etc.

👉🏼 Perquè estiga en català cal fer moltes adaptacions per a ajustar les funcionalitats addicionals.

Tot i això, també entenem que es pot començar només amb el domèstic i anar fent…
⚙️ Per a donar suport al català, cal adaptar molts sistemes (vegeu amazon.science/blog/alexas-he…, en anglés): reconeixement de veu, síntesi de veu, sistemes de diàleg, sistemes d’extracció de coneixement, continguts (ràdios, diaris, etc.), selecció de continguts, etc.
Totes les peces són necessàries per a tenir un assistent digital de veu d’una qualitat mínima.

No s’hi valen pedaços fent pont a través d’una altra llengua.

L’esforç no és pas petit.

Ara bé, poden les empreses comercials aprofitar recursos ja existents?

Pensem un poc 👇🏼
Hi ha dos tipus de recursos, produïts per empreses, universitats, comunitats lliures, Mozilla Common Voice o el projecte Aina, que poden oferir-se a les empreses interessades:
✳️ Models d’IA entrenats
✳️ Dades (conjunt de textos, de veus, etc.)

Ara bé, els voldran utilitzar?
❌ Els models d’IA no, ho podem descartar.
Les grans empreses usen arquitectures de models pròpies i personalitzades. A més, per motius de control, incloent-hi privadesa i seguretat, no usen models de tercers.
✅ Llavors, hi ha les dades, que és on hi ha un marge d’oportunitat.
Les grans tecnològiques tenen requisits concrets de llicències, etiquetatge i criteris dels conjunts de dades, etc.

Una part de les dades que necessiten encara no existeix.

Una altra part potser sí i es pot facilitar, però usaran només el que complisca els seus criteris.
Cal inversió en enginyeria de dades, creació i etiquetatge de dades, qualitat del sistema, etc.
Però quan passa a ser un producte i l’empresa té una responsabilitat, han de disposar també d’altres recursos:
- Suport en #català
- Documentació
- Pàgines web
- Suport comercial
➡️ Més coses: la funcionalitat addicional feta per tercers.
Ex. que Alexa estiga en #català assegura la part que controla Amazon, però caldrà treballar amb la comunitat de desenvolupadors per adaptar les habilitats principals.
És important que siga un producte útil.
Ah! I fer una bona gestió del multilingüisme perquè l’assistent puga entendre dues llengües sense haver-ne de canviar la configuració.
👇🏼
Molta gent catalanoparlant descartaria configurar l’assistent en #català per no perdre l’ecosistema d’habilitats disponible en altra llengua.
⚠️ També cal destacar que un cop un producte s’ha adaptat a una llengua, cal un esforç sostingut en el temps per mantenir-ho:
👉🏼 Noves funcionalitats
👉🏼 Avanços constants d’AI que cal aplicar
👉🏼 Millores i actualització continuada de les dades
Llavors, si disposar a curt termini d’assistents de veu en català depén bàsicament dels fabricants, que cal?

👇🏼👇🏼👇🏼

Que els governs lideren les converses amb aquestes empreses, que facen servir el poder de compra, i, si cal, el de les subvencions directes.
L’administració pública ha de garantir assistents de veu en #català, sobretot si aquesta tecnologia s'usarà en un futur immediat en àmbits del tercer sector social.

Aina i altres projectes de creacions de recursos ho facilitaran, però representen només una xicoteta part.
A #Softcatalà hem treballat en l’adaptació de Mycroft, assistent de veu de codi obert, al #català. És una prova de concepte, però està disponible per a qualsevol fabricant que vulga dur a terme un producte comercial d’assistent de veu.

Pots provar-lo ací: assistent.cat
Què fer individualment?
- Col·laborar amb #CommonVoiceCat per a elaborar un corpus de veu amb llicència lliure: commonvoice.mozilla.org/ca
- Reclamar a les empreses el #català i fer ús del criteri lingüístic quan consumim.
⬇️⬇️
I també vetllar perquè les administracions públiques respecten i garantisquen els drets lingüístics de la ciutadania, també en l’àmbit tecnològic!

També pots llegir aquesta informació al nostre blog:
softcatala.org/noticies/es-po…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Softcatalà

Softcatalà Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(