En mi tesis doctoral investigo sobre sistemas de recomendación basados en argumentos, específicamente, sobre la generación y explicación de recomendaciones personalizadas e interactivas a partir de argumentos extraídos de contenido textual en español.
2/20
La hipótesis principal es:
"La explotación de la información argumentativa puede suponer importantes novedades y mejoras en la experiencia del usuario con los sistemas de recomendación".
¿Suena raro? A continuación te doy algo de contexto y detallo mi trabajo en curso.
3/20
Hoy en día, todo el mundo está expuesto a ingentes cantidades de información online. En este contexto, nos enfrentamos a multitud de situaciones cotidianas en las que tomar decisiones:
En estas situaciones, las tareas de búsqueda y filtrado de contenidos se hacen tediosas y complicadas.
Ahí es cuando entran al rescate los sistemas de recomendación.
Pero, ¿Qué es un sistema de recomendación?
5/20
Los sistemas de recomendación (SR) son agentes informáticos basados en Inteligencia Artificial que nos pueden ayudar en tales tareas, filtrando y sugiriendo aquellos ítems/productos que pueden ser de nuestro interés, a partir de grandes colecciones de datos.
6/20
En nuestro día a día estamos expuestos a SR en infinidad de aplicaciones, tales como Amazon, Spotify o Netflix.
Dependiendo el caso, algunas recomendaciones que recibimos están basadas en la popularidad de los ítems, pero otras tienen que ver con nuestras preferencias.
7/20
En general, expresamos nuestras preferencias (gustos e intereses) sobre los ítems de manera “explícita”:
▪️ Ratings / número de estrellas ⭐️
▪️ Pulgar arriba / abajo 👍👎
▪️ Botón de compra 🛒
8/20
Y otras veces lo hacemos de forma "implícita":
▪️ Búsquedas que realizamos en un portal web
▪️ Tiempo que empleamos en leer la descripción de un producto
▪️ Número de veces que escuchamos una canción
▪️ Tipos de series que vemos
9/20
Las anteriores fuentes de información son las que típicamente usan los SR tradicionales:
▪️ Atendiendo a nuestras preferencias (SR basados en contenido)
▪️ Atendiendo a las preferencias de personas afines a nosotros (SR basados en filtrado de colaborativo)
10/20
Sin embargo, existen otras fuentes de preferencias potencialmente útiles para los sistemas de recomendación, que están formadas por contenido textual generado por los usuarios:
▪️ Reseñas de productos
▪️ Blogs de opinión
▪️ Posts en redes sociales
▪️ Propuestas ciudadanas
11/20
De hecho, la comunidad científica ha invertido tiempo y esfuerzo en investigar métodos de extracción automática de preferencias de usuario en textos, en su gran mayoría, intentando identificar valoraciones positivas/negativas sobre aspectos o características de los ítems.
12/20
Sin embargo, pocos son los estudios que van más allá, intentando encontrar no solo qué opinamos de algo, sino también la causa o motivo de nuestras opiniones, con el objetivo de que las recomendaciones se basen no solo en lo que se dice, sino también en por qué se dice.
13/20
Esto último es un gran RETO, que consiste en la extracción automática de información argumentativa a partir de contenido textual.
Tarea ya explorada y conceptualizada en el campo de la Minería de Argumentos, subcampo a su vez del Procesamiento del Lenguaje Natural (NLP).
14/20
Por lo tanto, en esta tesis, proponemos una novedosa aproximación llamada "sistemas de recomendación basados en argumentos", los cuales abordan diversas tareas relacionadas con extracción automática y la explotación de argumentos con fines de recomendación y explicación.
15/20
De este modo:
1⃣ Investigamos nuevos métodos de recomendación que hacen uso de información argumentativa antes, durante y después del filtrado de ítems.
Lo que nos lleva a una de nuestras primeras contribuciones: clasificación de los SR según el uso de los argumentos.
16/20
2⃣ Investigamos nuevos métodos y enfoques de minería de argumentos para la identificación de conclusiones y premisas, y relaciones entre ellas, con el objetivo de extraer automáticamente argumentos computables, que puedan ser usados por un sistema de recomendación.
17/20
3⃣ Investigamos la explicación de las recomendaciones dadas a partir de los argumentos usados por el SR, con el fin de aumentar la satisfacción, la confianza, la persuasión y la fidelidad de los usuarios con respecto al sistema.
18/20
Por último,
4⃣ Investigamos la interacción (por medio de un chatbot) de los usuario con los sistema de recomendación basados en argumentos para ajustar y dar feedback sobre las recomendaciones dadas.
La interacción en el chatbot se realiza por medio de lenguaje natural.
19/20
Espero que les haya gustado el #HiloTesis y que haya podido transmitir de qué va mi investigación 😀
Si les interesa conocer más al respecto, puedes visitar nuestro website: github.com/argrecsys
Finalmente, cualquier pregunta o comentario son bienvenidos.
Gracias 👋
20/20
• • •
Missing some Tweet in this thread? You can try to
force a refresh
In my doctoral dissertation I research on argument-based recommender systems, specifically, on the generation and explanation of personalized and interactive recommendations from arguments extracted from textual content in Spanish.
2/20
The main hypothesis is:
"The exploitation of argumentative information can lead to significant novelties and improvements in the user’s experience with recommender systems."
Sounds weird? Below I give you some context and detail my work in progress. Let's get to it!
Earlier today I asked the Machine Learning community a question about what methodology they use to solve regression problems and I got a lot of great answers.
Now, I'm going to share what is the approach or methodology I use when faced with these types of problems.
1⃣ If there are only one or a few variables as input data and after decomposing the series I get that it does not have a seasonal behavior, then I use a (multivariate) linear regression, and establish a base case for my problem. Easy and concise!
2/9
2⃣ If the size of my data is moderate, and the series do have a seasonal behavior, then I use time series methods, such as SARIMA or SARIMAX (when my regression is multivariate).
3/9
I want to share with you 5⃣ tips and insights I learned working on a project where I had to create and deploy more than 750 Machine Learning models (regressors, specifically).
🧵Let's get started!
1/9
1⃣ At the beginning of the project, spend time comparing different algorithms to solve your task. Then, select one of them and focus on model creation and validation.
We rarely have to change the selected algorithm, it is more common to have to clean or improve the data.
2/9
2⃣ When we have to create a model, we can always validate it in detail manually, but when we have to create 100, 750 or more models, we have to automate as much as possible.
3/9
When you have to solve a classification problem, what is usually your criterion for selecting the algorithm to use?
Below I share with you what I do, however, I would love to read what your methodology is.
1/6
Like everything in life: it depends, above all, depends on the data.
If the data has probability associated with it (like data coming from natural language), I like to try Naive Bayes or Maximum Entropy first, to get a base-line. Many times, it ends up being the solution.
2/6
If the data is tabular and if selection time is not a constraint (I don't have a tight deadline), I put several algorithms in competition with each other (e.g., NB, SVM, DT and LR) and go with the best one.
3/6
It allows you to:
▪️ Load your own data (word embeddings and metadata).
▪️ Select the dimensionality reduction algorithm
▪️ Visualize the data in 3D
▪️ and Filter vectors by similarity
A common practice when we create NLP models is to use one-hot encoded vectors to feed classical ML models (Bayes, SVM, RandomForest), but to use embeddings (dense vectors) to feed Neural Networks.
But do you know what is the reason behind this?
Let me talk about it🧵
1/13
First of all, one-hot encoded vectors are discrete and sparse, which makes them suitable for representing words.
However, they do not retain similarity (or dissimilarity) information between words/context and their size depends on the length of the vocabulary.
2/13
In contrast, embeddings more closely resemble the expected inputs of a Neural Network, as they have a fixed size (e.g., d=400), are continuous, and do retain information about word similarity and context (king and queen are good examples).