My Authors
Read all threads
¿Sabíais que hay lingüistas que programan ordenadores? ¿Que hay equipos 50 % lingüistas 50 % ingenieros?

En este hilo os voy a contar las aventuras de un lingüista en un equipo de ingeniería.
#twittercultural #linguistica
Una de las profesiones más pujantes actualmente en la lingüística es la rama de la lingüística computacional, la que se dedica al procesamiento del lenguaje natural a través de los ordenadores.
En la práctica, esto se materializa en hacer que un ordenador pueda entenderte cuando le hablas. Esto, en principio, suena justo.

Veamos un ejemplo.
Mi madre descubrió hace poco el asistente de voz de su móvil y se animó a probarlo. Le dijo: "Comprar henna, añadir lista de la compra". Evidentemente, no le entendió y mi madre se decepcionó y dijo que no lo volvería a usar.
Pues la labor del lingüista es hacer que el mismo ordenador entienda a mi madre, a la tuya, a un adolescente, a un youtuber y a una anciana.
Lo primero, que ya se os había olvidado, es la voz. Un lingüista y un teleco deben enseñarle qué es eso que hacemos los humanos con las ondas sonoras, que para el ordenador solo son matrices de números. ¿Una vocal? ¿Qué es eso?
El ingeniero pone la técnica y le da al lingüista un programa al que le metes audio y te saca texto, pero es trabajo del lingüista contarle al ordenador que muchas veces tiene que escribir cosas que no están y otras no escribir cosas que están ahí.
Imaginaos sentados en una silla intentando explicarle a un ordenador que el "e h k e" de un madrileño en realidad es igual que el "e s k e" de un palentino y también que el "e k e" de un gaditano.
Eso no sería nada si después no vinieran las ambigüedades prosódicas: que si es "Búscame los de 120 caballos" y no "Búscamelos de 120 caballos" y todas esas cosas. Que pensabais que el problema iba a ser la semántica, eh? Pues no, empezamos fuerte con la fonología.
Y cuando por fin lo has conseguido, la guinda es que la semántica es muy exquisita y no te entiende si le mandas dar significado a "audi a dos". Ella quiere "Audi A2".
Lo que hemos visto hasta ahora se llama ASR (Automatic Speech Recognition) y solo es un tercio de un asistente de voz. Es el componente de entrada de voz y salida de texto. Aún no nos hemos asomado a la gramática.
Una vez que hemos pasado la voz a texto (con mayor o menor éxito), viene otro problema: ¿ahora cómo le enseño lo que quiere decir "Busca vídeos de cocina"? ¿Cómo hago que cuando le diga "Búscame videos" abra YouTube y busque, pero "ábreme vídeos", abra YouTube y los reproduzca?
Como veis, por un lado, el lingüista computacional ya encuentra una dificultad en la semántica básica, así que imaginad cuando llega la ambigüedad. Un ejemplo:
En los asistentes, normalmente hay un servicio que se ocupa del "tiempo" (fecha y hora). Pues os planteo un problema:
- "X por la mañana" suele ser ca. de 7 AM a 12 PM
- "{1-11} de la mañana" es AM
-"a las X mañana" es n+24
Entonces, ¿a las 12 de la mañana son las 12AM o PM?
Pues, además, de llegar a una conclusión, el lingüista tiene que formalizarlo matemáticamente para que el ordenador lo procese y cuando le digan "Ponme una a la alarma a las 12 de la mañana" no despierte al usuario mientras duerme.
En la parte de la gramática, otro problema importante para el lingüista es la intencionalidad. Hay que preparar a la máquina para que entienda la forma que todo el mundo tiene de pedir todo lo que te ofrezca.
En español, además, hay que encontrar una forma de formalizar que aunque "busca, buscar, búscame, quiero que busques, quiero que me busques" y otra infinidad de variaciones son cadenas de texto totalmente diferentes, se han de interpretar como idénticas.
Esta parte, la de la gramática, suele denominarse NLU (Natural Language Understanding) y es la que se ocupa de dotar de significado e intención a la entrada de texto que nos dio el motor de ASR. Con esto, hemos visto aprox. el 50 % de las tareas de un lingüista en un asistente.
A todo esto ha de enfrentarse el lingüista computacional a través de las herramientas de la programación: operaciones aritméticas, lógicas; utilizando listas, diccionarios, etc. Todo un reto. Os animo a pensar cómo resolveríais algunos de los problemas que he planteado.
Lo voy a dejar aquí y si os ha gustado, mucho RT y ♥️ y otro día os cuento más cosas.
Missing some Tweet in this thread? You can try to force a refresh.

Keep Current with Mario Casado Mancebo

Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!