Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD. Bioestadística | Data Science + Machine Learning | 🎓 Directora académica y Docente 💙 #RStats 😉 Stats is the grammar of science🇺🇾🇪🇸
May 6 5 tweets 2 min read
SMOTE y la falsa sensación de balanceo
💥𝗥𝗼𝗺𝗽𝗶𝗲𝗻𝗱𝗼 𝗺𝗶𝘁𝗼𝘀 𝗲𝗻 𝗠𝗟: 𝗲𝗹 𝗦𝗠𝗢𝗧𝗘 𝘆 𝗲𝗹 𝘀𝘂𝗯𝗺𝘂𝗲𝘀𝘁𝗿𝗲𝗼 podrían estar 𝗮𝗿𝗿𝘂𝗶𝗻𝗮𝗻𝗱𝗼 𝘁𝘂𝘀 𝗺𝗼𝗱𝗲𝗹𝗼𝘀

#stats #estadistica #cienciadedatos #ML #machinelearning #datascience #AI #imbalanceddata Image Advertencia: 𝗰𝗼𝗿𝗿𝗲𝗴𝗶𝗿 𝗲𝗹 𝗱𝗲𝘀𝗯𝗮𝗹𝗮𝗻𝗰𝗲 de clases 𝗱𝗲 𝗳𝗼𝗿𝗺𝗮 𝗮𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝘀𝘂𝗲𝗹𝗲 𝘀𝗲𝗿 𝘂𝗻 𝗲𝗿𝗿𝗼𝗿

Crear datos sintéticos para balancear una clase minoritaria no añade información real, induce al sobreajuste y falta de precisión. Image
Apr 30 4 tweets 2 min read
🧠 𝗣𝗶𝗲𝗻𝘀𝗮 𝗰𝗼𝗺𝗼 𝘂𝗻 𝗲𝘀𝘁𝗮𝗱í𝘀𝘁𝗶𝗰𝗼: 𝗹𝗮 𝗮𝗱𝘃𝗲𝗿𝘁𝗲𝗻𝗰𝗶𝗮 𝗱𝗲 𝗹𝗮 𝗥𝗦𝗦 𝘀𝗼𝗯𝗿𝗲 𝗹𝗮 𝗶𝗻𝘁𝗲𝗹𝗶𝗴𝗲𝗻𝗰𝗶𝗮 𝗮𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹
¿Por qué entender los datos, el sesgo y la incertidumbre será tan importante como saber usar ChatGPT/Gemini/Claude?

#AI Image La IA es, fundamentalmente, estadística.
No entender estadística podría convertirse en una nueva forma de analfabetismo digital.
El desafío ya no es solo desarrollar herramientas más potentes, sino enseñar a pensar estadísticamente para usar la IA de manera segura y responsable. Image
Apr 28 10 tweets 3 min read
🚨 ¿Interpretar o ignorar el efecto principal cuando hay interacciones? una guía 👇
La regla “Si hay interacción significativa, no interpretes el efecto principal” no siempre es correcta, sino que depende del contexto, modelo y pregunta.
Archivo:


#stats linkedin.com/posts/rosanafe…Image La clave es entender:
👉 ¿Qué significa ese efecto principal cuando hay interacción?

Para eso necesitas distinguir entre dos tipos:

👉 Interacción ordinal
👉 Interacción disordinal

#datascience #cienciadedatos #estadistica #analytics #analisisdedatos #model #research #phd
Apr 26 4 tweets 1 min read
💣 Recordatorio periódico: Cuidado con malinterpretar el R²
La interpretación “porcentaje de variación explicada" solo es cierta bajo condiciones concretas:
- Modelo lineal estimado por OLS
- Inclusión de intercepto
- Evaluación en la misma muestra usada para ajustar el modelo Image Fuera de ese contexto, empieza a fallar.
- No mide capacidad predictiva fuera de muestra. Un modelo puede explicar bastante variación y, aun así, predecir mal fuera de muestra.
- No es comparable entre muestras distintas ni entre modelos con diferente variable respuesta.

#stats
Apr 22 10 tweets 2 min read
💡La validación externa es una fotografía, no un certificado universal."Validado" no equivale a "apto para usarse sin más en cualquier situación", especialmente en modelos predictivos donde población, medición y contexto cambian.
Consejos para evaluar la validez de un modelo👇🧵 Image 1️⃣ Lee la validación como evidencia parcial, no como garantía global. Antes de asumir que "funciona", pregúntate si tu contexto (pacientes, procesos, datos) se parece al de esa validación. Si no, estarías extrapolando, no aplicando.
Apr 15 4 tweets 2 min read
Seguro que has escuchado hablar de la "potencia estadística" (por ejemplo, para estimar el tamaño de muestra que necesitas en tu estudio).
Sin embargo, hay 2 problemas recurrentes en cómo se utiliza este concepto en la práctica, y de los que poco se habla👇🧵
#stats #datascience Image 1️⃣ Sobre la elección de la potencia (¿80%, 90%, 70%?)
La potencia es una decisión de diseño que se fija en función de supuestos y criterios previos.

👉Puedes leer algunos ejemplos en este post:

#analytics #estadistica #cienciadedatos #research #clinical lnkd.in/eyKnsffDImage
Apr 11 6 tweets 2 min read
Evaluar un modelo de regresión es una parte clave del análisis. Un modelo puede parecer “bueno” a simple vista, pero sin una evaluación rigurosa es fácil caer en conclusiones engañosas.
Ahora, para evaluar un modelo necesitas múltiples perspectivas y preguntas distintas👇🧵 Image ¿Cómo evaluar un modelo?

1. Error de predicción (¿qué tan bien predigo?)
Métricas como RMSE o MAE evalúan la magnitud del error. Aquí es clave distinguir entre error en muestra y fuera de muestra: solo este último informa sobre generalización y permite detectar sobreajuste.
Mar 21 5 tweets 2 min read
📚 4 libros de referencia sobre Divulgación Estadística.
Para disfrutarlos e inspirarte.

Y si conoces otro libro para recomendar, déjalo en comentarios.

#stats #DataScience #books #LibrosRecomendados #DataLiteracy #StatisticalThinking #ProfessionalDevelopment #Analytics Image 1️⃣ "The Art of Statistics: Learning from Data" David Spiegelhalter
Rigor académico accesible. Explica conceptos fundamentales a través de casos reales y actuales, desde ensayos clínicos hasta análisis de políticas públicas.
Regalo de @Capitan_Swing, estoy esperando el segundo 😜 Image
Mar 17 8 tweets 2 min read
𝗣𝗹𝗮𝗻𝘁𝗶𝗹𝗹𝗮𝘀 𝗲𝗻 𝗥 𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝘆 𝗤𝘂𝗮𝗿𝘁𝗼: 𝗲𝗹 𝗮𝘁𝗮𝗷𝗼 𝗽𝗮𝗿𝗮 𝗻𝗼 𝗲𝗺𝗽𝗲𝘇𝗮𝗿 𝘀𝗶𝗲𝗺𝗽𝗿𝗲 𝗱𝗲𝘀𝗱𝗲 𝗰𝗲𝗿𝗼
Una de las herramientas más infravaloradas en los flujos de trabajo reproducibles con R Markdown y Quarto son las plantillas.👇🧵
#rstats No son solo estética, sirven para estandarizar el análisis, ahorrar tiempo y reducir errores.
Define de antemano:
• estructura del documento
• configuración
• estilo visual
• secciones típicas del análisis
• formato de tablas y gráficos
Crea el esqueleto y un estándar.
Mar 3 9 tweets 2 min read
🙈 ʟᴀ ᴄᴇɢᴜᴇʀᴀ ᴅᴇʟ ᴛᴀᴍᴀɴ̃ᴏ ᴅᴇ ᴇꜰᴇᴄᴛᴏ
No confundas magnitud (ni significación estadística) con relevancia práctica.
El tamaño de efecto, por sí solo, es una medida abstracta de fuerza de relación o magnitud de diferencia. Necesita un criterio de referencia.🧵 Image El tamaño de efecto (ES, effect size) es "ciego" a 3 factores que determinan si un resultado es un hito científico o simple ruido.

ʟᴏ ǫᴜᴇ ᴇs ᴇsᴛᴀᴅɪ́sᴛɪᴄᴀᴍᴇɴᴛᴇ ɢʀᴀɴᴅᴇ ᴘᴜᴇᴅᴇ sᴇʀ ᴘʀᴀ́ᴄᴛɪᴄᴀᴍᴇɴᴛᴇ ɪʀʀᴇʟᴇᴠᴀɴᴛᴇ.

#stats #datascience #estadistica Image
Feb 27 4 tweets 2 min read
📅 𝗘𝗹 𝗰𝗮𝗼𝘀 𝗱𝗲 𝗹𝗮𝘀 𝗳𝗲𝗰𝗵𝗮𝘀 𝗲𝗻 𝗮𝗻á𝗹𝗶𝘀𝗶𝘀 𝗱𝗲 𝗱𝗮𝘁𝗼𝘀 (𝘆 𝗰ó𝗺𝗼 𝗱𝗼𝗺𝗶𝗻𝗮𝗿𝗹𝗼)
Trabajar con fechas en análisis de datos es una fuente constante de errores. Especialmente cuando el flujo depende de hojas de cálculo.

#rstats #datascience #analytics Image • Conversión automática sin aviso.
• Formatos ambiguos → DD/MM/AAAA vs MM/DD/AAAA.
• Fechas como texto → Cadenas.
• Zonas horarias inconsistentes → UTC, GMT, hora local. Inconsistencias invisibles.
• Operaciones erróneas → Restas que dan números inesperados. Image
Feb 26 7 tweets 3 min read
💡 𝗖𝗼𝗻𝘀𝗲𝗷𝗼𝘀 𝗽𝗮𝗿𝗮 𝗾𝘂𝗲 𝗰𝗼𝗺𝗲𝗻𝘇𝗮𝗿 𝗰𝗼𝗻 𝗥 𝘁𝗲 𝘀𝗲𝗮 𝗮ú𝗻 𝗺á𝘀 𝘀𝗲𝗻𝗰𝗶𝗹𝗹𝗼
Empezar con R no es difícil. Lo que lo vuelve complejo es no conocer bien el entorno. Estos consejos reducen fricción desde el primer día.
maximaformacion.es/blog-dat/truco…Image 𝟭. 𝗨𝘀𝗮 𝗜𝗺𝗽𝗼𝗿𝘁 𝗗𝗮𝘁𝗮𝘀𝗲𝘁 𝗽𝗮𝗿𝗮 𝗮𝗽𝗿𝗲𝗻𝗱𝗲𝗿 𝗮 𝗶𝗺𝗽𝗼𝗿𝘁𝗮𝗿 𝗯𝗶𝗲𝗻
La interfaz de RStudio te permite importar .csv, Excel o SPSS viendo en tiempo real cómo se genera el código.
Consejo: copia ese código a tu script. La reproducibilidad empieza ahí.
Feb 25 10 tweets 2 min read
🤣 Cuando un modelo de regresión lineal supera a un modelo de aprendizaje profundo...
Muchos piensan que los modelos de deep learning son los más avanzados y precisos. Sin embargo, en ciertas situaciones, ¡Un simple modelo de regresión lineal puede superarlos! ¿Cómo es posible?👇 1️⃣ Datos limitados: Los modelos de aprendizaje profundo requieren grandes cantidades de datos para entrenarse. Si solo dispones de un conjunto de datos pequeño, la regresión lineal puede ofrecer mejores resultados debido a su menor complejidad y menor riesgo de sobreajuste.
Feb 19 7 tweets 2 min read
Ningún modelo es perfecto. La cuestión relevante no es si los supuestos fallan, sino cómo, cuánto y con qué consecuencias.
No todos los incumplimientos de los supuestos son iguales. Algunos afectan la esencia del estimador, otros solo la precisión con la que lo interpretamos.👇 Image - La mala especificación funcional del modelo (no-linealidad) es un problema estructural: genera sesgo e inconsistencia de los estimadores. Incluso con gran N, el estimador converge hacia un valor incorrecto. Necesitas replantear la función del modelo (no lineales, splines, etc).
Feb 10 7 tweets 2 min read
𝑽𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒅𝒆 𝑪𝒐𝒏𝒇𝒖𝒔𝒊ó𝒏: riesgos, límites y consideraciones críticas👇🧵
¿Qué es un confusor? ¿Cuáles son sus consecuencias?
¿Cómo evitar problemas de confusores? ¿Qué limitaciones debemos tener en cuenta?

#stats #datascience #master #analytics #cienciadedatos Image ¿Qué es? Una variable de confusión (o confusor) es un tercer factor que cambia la asociación entre otras 2 variables: la exposición (e.g. el factor de riesgo que se estudia) y el resultado (e.g. el efecto en la salud).

3 condiciones👇 Image
Feb 4 6 tweets 3 min read
🚨𝐏𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚: 𝐧𝐨 𝐥𝐨 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐪𝐮𝐞𝐬 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐞𝐬𝐩𝐞𝐫𝐚𝐬, 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐜𝐚́𝐥𝐚 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐧𝐨 𝐪𝐮𝐢𝐞𝐫𝐞𝐬 𝐩𝐚𝐬𝐚𝐫 𝐩𝐨𝐫 𝐚𝐥𝐭𝐨
Te cuento por qué👇🧵

#stats #datascience #analytics #dataanalysis Image 𝐋𝐚 𝐩𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚 es 1−β: la probabilidad de evitar un 𝐞𝐫𝐫𝐨𝐫 𝐝𝐞 𝐭𝐢𝐩𝐨 II, es decir, de no pasar por alto un efecto real del tamaño especificado. Una potencia baja implica un alto riesgo de concluir que no hay efecto cuando sí existe.
#master Image
Jan 30 9 tweets 2 min read
😱 ¿Tienes varias mediciones de un mismo sujeto, sensor o ciudad? ¡Cuidado! Tratarlas como si fueran observaciones independientes (e.g. tratar 25 mediciones de 5 sujetos como si fueran 25 sujetos distintos) es cometer pseudoreplicación. Y este error invalida tus conclusiones:👇🧵 Image 1️⃣Inferencia
Al ignorar la dependencia, el modelo asume que cada dato aporta información nueva y única. Esto subestima el error estándar e infla los estadísticos de prueba.
Consecuencia: Aumentan los falsos positivos y se distorsionan artificialmente los intervalos de confianza.
Jan 25 4 tweets 3 min read
⚽ En este post tienes una introducción divulgativa y práctica al papel del data scientist en el fútbol, explicando qué datos se generan, cómo se analizan y para qué se usan en la toma de decisiones deportivas.


#stats #datascience #ML #LaLiga #dataviz maximaformacion.es/blog-ciencia-d…Image Hoy cada partido y entrenamiento producen una avalancha de información que ya no se puede gestionar solo con intuición.
El data scientist entra en escena para responder preguntas que antes no tenían respuesta clara:

#MachineLearning #EstadísticaDeportivo #InnovaciónDeportiva Image
Jan 22 5 tweets 2 min read
🚨𝗖𝗼́𝗺𝗼 𝗲𝘃𝗮𝗹𝘂𝗮𝗿 𝘂𝗻 𝗺𝗼𝗱𝗲𝗹𝗼 𝗽𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝘃𝗼: decenas de métricas... y mucha confusión
La evaluación de modelos predictivos está plagada de métricas (¡existen más de 30!), pero ¿Qué preguntas responden realmente?

𝟱 𝗱𝗶𝗺𝗲𝗻𝘀𝗶𝗼𝗻𝗲𝘀 conceptuales👇🧵 Image 👉 Si no distingues estos dominios, estás evaluando mal el modelo, aunque los números “salgan bien”.

Artículo:

#stats #analytics #Estadística #DataScience #ModelosPredictivos #IA #ML hal.science/hal-04841858v1…Image
Jan 21 10 tweets 2 min read
𝗨𝗡𝗔 𝗠𝗔𝗧𝗥𝗜𝗭 𝗗𝗘 𝗖𝗢𝗡𝗙𝗨𝗦𝗜𝗢́𝗡 𝗡𝗢 𝗦𝗜𝗥𝗩𝗘 𝗣𝗔𝗥𝗔 “𝗩𝗘𝗥 𝗦𝗜 𝗘𝗟 𝗠𝗢𝗗𝗘𝗟𝗢 𝗔𝗖𝗜𝗘𝗥𝗧𝗔 𝗠𝗨𝗖𝗛𝗢”,
𝗦𝗜𝗡𝗢 𝗣𝗔𝗥𝗔 𝗘𝗡𝗧𝗘𝗡𝗗𝗘𝗥 𝗖𝗢́𝗠𝗢 𝗦𝗘 𝗘𝗤𝗨𝗜𝗩𝗢𝗖𝗔.

¿Cómo evaluar qué errores comete, con qué frecuencia y a qué coste?

#stats Image ▶︎ 𝗘𝗫𝗔𝗖𝗧𝗜𝗧𝗨𝗗 (𝗔𝗖𝗖𝗨𝗥𝗔𝗖𝗬)
Porcentaje total de aciertos.
⚠️ Si una clase es mayoritaria, un modelo trivial que siempre predice esa clase puede tener una exactitud alta sin capacidad predictiva real.

Debes superar la tasa de no información (% clase mayoritaria)
Jan 19 5 tweets 2 min read
¿Qué revelan los residuos que no dicen los coeficientes ni los p-values ni las métricas de ajuste?
R² elevado, AIC bajo o accuracy aceptable no asegura que los errores estándar estén bien estimados, que los p-values tengan sentido o las predicciones fuera de muestra sean estables Image La inferencia depende del comportamiento del residuo.
Coeficientes resumen una relación promedio bajo el modelo impuesto. P-values evalúan compatibilidad con una H0 bajo supuestos. Métricas de ajuste cuantifican cuánto explica el modelo.
👉Ninguno muestra cómo falla el modelo