Belén Pulido Profile picture
PhD candidate at @BigData_uc3m. MSc BD Analytics from @uc3m and BSc Mathematics from @InfoUMA

May 7, 2023, 20 tweets

¿Podrías hacer una paella sin aceite?🥘 Pues tampoco puedes hacer ciencia sin avance estadístico⚖️
Soy Belén Pulido, doctoranda en Ingeniería Matemática en @uc3m @BigData_uc3m y acepto el reto de @CrueUniversidad para contártelo en menos de 20 tweets 🧐 Abro #HiloTesis 👇🏻

Está muy chulo oír hablar de investigación sobre algo concreto: un tipo de cáncer💊 o investigación sobre el cambio climático🌳 Pero para llevar a cabo esas investigaciones se necesitan métodos estadísticos potentes

Es como si queremos hacer una paella sin la base, sin aceite 🫒  Necesitamos avanzar en la base de esas investigaciones👩🏼‍🏫 En mi tesis desarrollamos algunas técnicas de análisis de datos con un enfoque innovador, haciéndolas más rápidas y eficientes.

Cada vez que accedes a internet🛜, que desbloqueas el teléfono 📲, cuando te metes en Twitter para leer este hilo🧵… Estás generando datos que se recopilan para utilizar con diferentes propósitos. 📣 Necesitamos nuevas técnicas para procesarlos.

No sé si te estás dando cuenta🤨, pero esos datos no son todos numeritos que almacenas en una hoja de Excel🔢 Un dato puede ser un número, pero también puede ser una imagen, una huella… o incluso una función… 🤯

FUNCIONES. Eso es. Cuando nuestros datos son funciones hablamos de datos funcionales. Pero… ¿qué es eso? ¿Cómo voy a tener un dato que sea una función? Pues yo te lo explico😎

Podemos hablar de temperaturas🌡️, de precipitaciones 🌧️, de actividad física 🏃🏼‍♀️… Cuando tenemos unos datos que se mueven a lo largo del tiempo, al final lo que tenemos es una función📈

Si consideramos la temperatura 🌡️ en distintas ciudades del mundo, por ejemplo en un año, podríamos decir que lo que tenemos en realidad es la función 📉de las temperaturas a lo largo de ese año en cada ciudad.

Este tipo de datos que puede verse como funciones aparecen constantemente en salud, economía,… y un número de sectores cada vez mayor. Saber cómo tratarlos es esencial para poder utilizarlos en nuestro beneficio.

Cuando tratamos con este tipo de datos, uno de los primeros problemas que se plantean es cómo ordenarlos 🥇Es fácil ordenar la temperatura en una ciudad cada día, pero ¿cómo ordenas las curvas de las temperaturas en distintas ciudades?

Existen diferentes formas de ordenar funciones. Vamos a considerar un conjunto de ellas. Nosotras utilizamos unos índices (epigraph e hypograph) que nos ayudan a establecer una ordenación de ⬆️ a ⬇️ y a reducir la dimensión de nuestros datos.

Esa ordenación nos da una serie de valores para cada curva que utilizaremos luego. Además, como tenemos funciones también podemos utilizar sus derivadas, que pueden darnos aún más información sobre los datos.

Voy a parar esto del orden de funciones para recordar que estábamos generando muchos datos. MUCHOS MUCHOS. Y cuando esto pasa necesitamos utilizar técnicas de análisis exploratorio para conocer mejor qué les pasa a esos datos.

Una de esas técnicas es el análisis cluster, que si no estás familiarizado con él te resumo rápido. Queremos coger todos los datos que tenemos, y sin información adicional dividirlos en grupitos.

Pero, y esto para qué?🤔 Pues como tenemos cantidades ingentes de datos, será mucho más fácil trabajar con ellos si los tenemos agrupados. Es decir, cada observación se parece a las de su grupo y no tanto a las de los demás.

Tenemos DATOS FUNCIONALES + INDICES + CLUSTERING. ¿El resultado? Mi tesis🕵🏼‍♀️ Una contribución a cómo se desarrolla el análisis de datos y el big data, que se puede aplicar a cualquier caso real en el que los datos sean funciones.

Imagina ahora que tenemos un tipo de cáncer que para detectarlo se necesitan hacer pruebas muy invasivas, pero tenemos datos a lo largo del tiempo. Si tenemos pacientes sanos y enfermos, y llega uno nuevo, podríamos tener una idea muy rápida de si es un potencial enfermo o no.

📌Resumen: crear una metodología capaz de tratar grandes conjuntos de datos que son en esencia funciones📈, y agruparlos para poder hacer un primer análisis de forma sencilla. Todo esto de forma eficiente y abordándolo de manera diferente.

Ahora espero que si me preguntas “¿De qué va tu tesis?” Y te digo “Hago clustering en datos funcionales.” Te quedes con que, aunque de primeras no es trivial, mi tesis es a la investigación científica como el aceite a la paella 🥘

Y hasta aquí mi #HiloTesis 🧵Si has llegado hasta aquí, GRACIAS 🥰 Espero que te acuerdes de este hilo cuando escuches hablar de investigación en Matemáticas y Estadística 🔢 Va especialmente dedicado a los que me dicen que no van a entender lo que hago por ser matemática 🥂

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling