Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD. Bioestadística | Data Science + Machine Learning | 🎓 Directora académica y Docente 💙 #RStats 😉 Stats is the grammar of science🇺🇾🇪🇸
Feb 4 6 tweets 3 min read
🚨𝐏𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚: 𝐧𝐨 𝐥𝐨 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐪𝐮𝐞𝐬 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐞𝐬𝐩𝐞𝐫𝐚𝐬, 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐜𝐚́𝐥𝐚 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐧𝐨 𝐪𝐮𝐢𝐞𝐫𝐞𝐬 𝐩𝐚𝐬𝐚𝐫 𝐩𝐨𝐫 𝐚𝐥𝐭𝐨
Te cuento por qué👇🧵

#stats #datascience #analytics #dataanalysis Image 𝐋𝐚 𝐩𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚 es 1−β: la probabilidad de evitar un 𝐞𝐫𝐫𝐨𝐫 𝐝𝐞 𝐭𝐢𝐩𝐨 II, es decir, de no pasar por alto un efecto real del tamaño especificado. Una potencia baja implica un alto riesgo de concluir que no hay efecto cuando sí existe.
#master Image
Jan 30 9 tweets 2 min read
😱 ¿Tienes varias mediciones de un mismo sujeto, sensor o ciudad? ¡Cuidado! Tratarlas como si fueran observaciones independientes (e.g. tratar 25 mediciones de 5 sujetos como si fueran 25 sujetos distintos) es cometer pseudoreplicación. Y este error invalida tus conclusiones:👇🧵 Image 1️⃣Inferencia
Al ignorar la dependencia, el modelo asume que cada dato aporta información nueva y única. Esto subestima el error estándar e infla los estadísticos de prueba.
Consecuencia: Aumentan los falsos positivos y se distorsionan artificialmente los intervalos de confianza.
Jan 25 4 tweets 3 min read
⚽ En este post tienes una introducción divulgativa y práctica al papel del data scientist en el fútbol, explicando qué datos se generan, cómo se analizan y para qué se usan en la toma de decisiones deportivas.


#stats #datascience #ML #LaLiga #dataviz maximaformacion.es/blog-ciencia-d…Image Hoy cada partido y entrenamiento producen una avalancha de información que ya no se puede gestionar solo con intuición.
El data scientist entra en escena para responder preguntas que antes no tenían respuesta clara:

#MachineLearning #EstadísticaDeportivo #InnovaciónDeportiva Image
Jan 22 5 tweets 2 min read
🚨𝗖𝗼́𝗺𝗼 𝗲𝘃𝗮𝗹𝘂𝗮𝗿 𝘂𝗻 𝗺𝗼𝗱𝗲𝗹𝗼 𝗽𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝘃𝗼: decenas de métricas... y mucha confusión
La evaluación de modelos predictivos está plagada de métricas (¡existen más de 30!), pero ¿Qué preguntas responden realmente?

𝟱 𝗱𝗶𝗺𝗲𝗻𝘀𝗶𝗼𝗻𝗲𝘀 conceptuales👇🧵 Image 👉 Si no distingues estos dominios, estás evaluando mal el modelo, aunque los números “salgan bien”.

Artículo:

#stats #analytics #Estadística #DataScience #ModelosPredictivos #IA #ML hal.science/hal-04841858v1…Image
Jan 21 10 tweets 2 min read
𝗨𝗡𝗔 𝗠𝗔𝗧𝗥𝗜𝗭 𝗗𝗘 𝗖𝗢𝗡𝗙𝗨𝗦𝗜𝗢́𝗡 𝗡𝗢 𝗦𝗜𝗥𝗩𝗘 𝗣𝗔𝗥𝗔 “𝗩𝗘𝗥 𝗦𝗜 𝗘𝗟 𝗠𝗢𝗗𝗘𝗟𝗢 𝗔𝗖𝗜𝗘𝗥𝗧𝗔 𝗠𝗨𝗖𝗛𝗢”,
𝗦𝗜𝗡𝗢 𝗣𝗔𝗥𝗔 𝗘𝗡𝗧𝗘𝗡𝗗𝗘𝗥 𝗖𝗢́𝗠𝗢 𝗦𝗘 𝗘𝗤𝗨𝗜𝗩𝗢𝗖𝗔.

¿Cómo evaluar qué errores comete, con qué frecuencia y a qué coste?

#stats Image ▶︎ 𝗘𝗫𝗔𝗖𝗧𝗜𝗧𝗨𝗗 (𝗔𝗖𝗖𝗨𝗥𝗔𝗖𝗬)
Porcentaje total de aciertos.
⚠️ Si una clase es mayoritaria, un modelo trivial que siempre predice esa clase puede tener una exactitud alta sin capacidad predictiva real.

Debes superar la tasa de no información (% clase mayoritaria)
Jan 19 5 tweets 2 min read
¿Qué revelan los residuos que no dicen los coeficientes ni los p-values ni las métricas de ajuste?
R² elevado, AIC bajo o accuracy aceptable no asegura que los errores estándar estén bien estimados, que los p-values tengan sentido o las predicciones fuera de muestra sean estables Image La inferencia depende del comportamiento del residuo.
Coeficientes resumen una relación promedio bajo el modelo impuesto. P-values evalúan compatibilidad con una H0 bajo supuestos. Métricas de ajuste cuantifican cuánto explica el modelo.
👉Ninguno muestra cómo falla el modelo
Jan 17 10 tweets 3 min read
🚨 Mitos acerca de los intervalos de confianza 🚨
Los IC, tan populares en investigación, a menudo se malinterpretan y se utilizan para obtener conclusiones equivocadas.

Lo que crees vs. lo que realmente son los IC:👇🧵

#stats #datascience #estadistica #cienciadedatos #rstats Image Mito 1️⃣
❌ Un IC del 95% contiene el valor verdadero del parámetro con una probabilidad del 95%.
✅ Realidad: No. El 95% es la tasa de éxito del procedimiento a largo plazo. Para un IC específico, el parámetro está dentro o no (1 o 0) una vez calculados los datos.
Jan 16 7 tweets 2 min read
📏 La mayoría de las medidas de tamaño de efecto no se interpretan solas.
Cohen’s d, f, r, r², η², ω², V de Cramér…
Todas comparten el mismo problema: son números sin significado práctico si no existe un criterio previo de relevancia.👇🧵

#stats #datascience #analytics Image Los umbrales clásicos (“pequeño”, “medio”, “grande”) son convenciones históricas, dependientes del contexto, de la variabilidad y del diseño.
Aplicarlos de forma automática es un error.

Aquí es donde entra el SESOI (Smallest Effect Size Of Interest).
Jan 15 7 tweets 2 min read
🦖📊 El dinosaurio que vive dentro de tus promedios (y de todos los estadísticos de resumen).
Media, desviación típica, correlación. Todo correcto. Todo idéntico. Y, sin embargo, los datos cuentan historias radicalmente distintas cuando se miran.👇🧵

#stats #datascience #rstats Image Anscombe lo mostró hace décadas. El Datasaurus lo hizo viral.
Chatterjee, Matejka y otros lo formalizaron con algoritmos: puedes construir infinitos conjuntos de datos con las mismas estadísticas pero gráficas distintas. Todos con el mismo “resumen”.

Y este es el mensaje clave:
Jan 11 7 tweets 2 min read
📌 Si trabajas con R y te interesa cómo los LLM pueden integrarse en tu flujo de trabajo, merece la pena dedicarle un tiempo al análisis de Luis D. Verde Arregoitia.

Su revisión es exhaustiva y actualizada, y va mucho más allá de simplemente “conectar R con ChatGPT”. Cubre:👇🧵 Image 🔹 Paquetes generales para interactuar con múltiples proveedores de LLM: wizrd, chatLLM, axolotr, llmR, tidyllm, gptstudio. APIs, integración con RStudio y el manejo de contexto.

🔹 Modelos locales (ollamar, rollama) para garantizar privacidad y reproducibilidad.

#AITools #code
Jan 10 7 tweets 2 min read
🧠 Un error crítico que casi nadie cuestiona: no definir 𝐪𝐮𝐞́ 𝐞𝐟𝐞𝐜𝐭𝐨 𝐞𝐬 𝐫𝐞𝐥𝐞𝐯𝐚𝐧𝐭𝐞 antes de evaluarlo. Llamemos a esto el 𝐒𝐄𝐒𝐎𝐈: el Smallest Effect Size of Interest, o el tamaño del efecto más pequeño que tiene relevancia práctica o teórica.👇🧵

#stats Image ¿Qué diferencias serían lo suficientemente grandes como para cambiar una decisión, un diseño de producto, un tratamiento clínico o una inversión?

Muchos diseñan estudios, interpretan resultados y comunican métricas sin criterio de relevancia práctica.

Alternativa: SESOI Image
Jan 4 4 tweets 2 min read
🚨 No todos los outliers se detectan igual ni se manejan igual.🚨
La decisión depende de su tipo y del objetivo del análisis.

¿Cómo diferenciar, detectar y manejar los distintos tipos de outliers?👇🧵

#stats #datascience #analytics #estadistica #cienciadedatos Image Los valores atípicos u outliers son observaciones que se desvían de manera significativa del patrón general de los datos. Su aparición puede tener varias causas: errores de registro o medición, procesos naturales con alta variabilidad, cambios estructurales o fenómenos raros. Image
Jan 3 7 tweets 3 min read
📌 ¿Cómo interpretar una interacción en un modelo de regresión? Una guía práctica con R.
👉 Las interacciones son fundamentales para representar relaciones no aditivas entre variables. Sin embargo, su interpretación puede ser compleja y a menudo lleva a errores conceptuales.👇🧵 Image 🧠 Cuando incluimos un término de interacción, estamos admitiendo que el efecto de una variable sobre la respuesta depende del nivel de otra. Esto exige un enfoque diferente: más cuidadoso, más visual, y sobre todo, más contextualizado.
💡3 claves para comprender una interacción: Image
Jan 2 8 tweets 2 min read
🚨 𝗘𝗹 𝘁𝗮𝗺𝗮𝗻̃𝗼 𝗱𝗲 𝗺𝘂𝗲𝘀𝘁𝗿𝗮 𝗻𝗼 𝘀𝗲 𝗰𝗮𝗹𝗰𝘂𝗹𝗮. 𝗦𝗲 𝗱𝗲𝗰𝗶𝗱𝗲.
En teoría, estimar el tamaño de muestra es aplicar una fórmula. En la práctica, es una toma de decisiones bajo incertidumbre.

Y aquí empieza lo que casi nunca se enseña:👇

#stats #datascience Image 𝗘𝗿𝗿𝗼𝗿 #1: pensar que el tamaño de muestra es solo un cálculo.
Cuando en realidad es un problema de riesgo, coste y consecuencias.

La estadística solo formaliza lo que ya has decidido tolerar:
— qué efecto te importa
— qué error aceptas
— qué fallo es más caro
Dec 31, 2025 12 tweets 6 min read
🗓️ Aprender sobre datos es un camino que se recorre mejor en compañía.
🤝 Mirando hacia atrás, este 2025 ha sido un año de grandes debates y descubrimientos compartidos en esta red.
Para despedir el año, he recopilado 20 temas clave:👇🧵

#stats #datascience #analytics #rstats Image 🧠I. Estrategia y Mentalidad Estadística

- 𝐄𝐫𝐫𝐨𝐫𝐞𝐬 𝐓𝐢𝐩𝐨 𝐈 𝐲 𝐈𝐈: Decide si prefieres "condenar a un inocente o absolver a un culpable". El contexto lo es todo. linkedin.com/feed/update/ur…
Dec 28, 2025 7 tweets 2 min read
💡 𝗟𝗮𝘀 𝗽𝗿𝘂𝗲𝗯𝗮𝘀 𝗲𝘀𝘁𝗮𝗱𝗶́𝘀𝘁𝗶𝗰𝗮𝘀 “𝗰𝗹𝗮́𝘀𝗶𝗰𝗮𝘀” (t-test, ANOVA, ANCOVA, regresión simple, etc..) 𝗻𝗼 𝘀𝗼𝗻 𝗺𝗲́𝘁𝗼𝗱𝗼𝘀 𝗱𝗶𝘀𝘁𝗶𝗻𝘁𝗼𝘀. 𝗦𝗼𝗻 𝗰𝗮𝘀𝗼𝘀 𝗽𝗮𝗿𝘁𝗶𝗰𝘂𝗹𝗮𝗿𝗲𝘀 𝗱𝗲𝗹 𝗠𝗼𝗱𝗲𝗹𝗼 𝗟𝗶𝗻𝗲𝗮𝗹.

#stats #analytics #datascience Image 𝗠𝗶𝘀𝗺𝗮 𝗲𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗮, 𝗗𝗶𝘀𝘁𝗶𝗻𝘁𝗼 𝗻𝗼𝗺𝗯𝗿𝗲.
Incluso muchas pruebas “no paramétricas” pueden reinterpretarse como modelos lineales con otras distribuciones, funciones de enlace o estimadores.

La fragmentación en cientos de tests es pedagógica, no técnica.
Dec 27, 2025 6 tweets 2 min read
🤔¿𝐓𝐮 𝐚𝐧á𝐥𝐢𝐬𝐢𝐬 𝐞𝐬 𝐞𝐬𝐭𝐚𝐝í𝐬𝐭𝐢𝐜𝐚𝐦𝐞𝐧𝐭𝐞 𝐜𝐨𝐫𝐫𝐞𝐜𝐭𝐨 𝐩𝐞𝐫𝐨 𝐮𝐧 "𝐟𝐫𝐚𝐜𝐚𝐬𝐨 𝐝𝐞 𝐩𝐫𝐨𝐝𝐮𝐜𝐭𝐨"?
El análisis de datos no es solo cálculo, es la construcción de un producto.
Requiere Design Thinking: empatía con el usuario y explorar soluciones🧵 Image 𝟔 𝐩𝐫𝐢𝐧𝐜𝐢𝐩𝐢𝐨𝐬 que debes ajustar:
1️⃣ 𝐃𝐚𝐭𝐚 𝐌𝐚𝐭𝐜𝐡𝐢𝐧𝐠: ¿Tus datos responden directamente a la pregunta o usas "sustitutos"? Ojo con los sesgos aquí
2️⃣ 𝐄𝐱𝐡𝐚𝐮𝐬𝐭𝐢𝐯𝐢𝐝𝐚𝐝: ¿Evaluaste múltiples modelos o te quedaste con el primero que "dio significativo"?
Dec 26, 2025 4 tweets 2 min read
💡No significativo ≠ irrelevante: Un p-valor > 0.05 solo indica insuficiencia de evidencia, no ausencia de efecto; la interpretación requiere considerar tamaño de efecto, SESOI e incertidumbre.
Guía de interpretación de resultados no estadísticamente significativos.👇🧵

#stats Image Un resultado no significativo se interpreta con contexto.
Diseño, muestra y confusores importan.
El tamaño de efecto y el SESOI marcan la relevancia práctica.
TOST permite separar efecto trivial, efecto real no detectado y ausencia de efecto relevante.

#datascience #estadistica Image
Image
Dec 23, 2025 9 tweets 2 min read
🤦🏻‍♀️ Incumplir la normalidad no es un pecado universal. Es grave o irrelevante según qué inferencia haces, con qué tamaño muestral, con qué diseño y para qué objetivo. Tratar la normalidad como un interruptor on/off es lo peligroso.

💡 Consecuencias en inferencia y predicción: 👇 Image Consecuencia en inferencia
1️⃣Estimación de efectos (medias, coeficientes)
Ninguna si el modelo está bien especificado y N no es ridículo
Los estimadores siguen siendo insesgados y consistentes
No afecta al valor esperado del estimador solo a su distribución finita
👉Gravedad:Baja
Dec 22, 2025 5 tweets 3 min read
🧠¿Por qué seguimos usando α = 0,05 sin pensarlo?
No todos los estudios ni todas las decisiones tienen el mismo coste asociado a un falso positivo (error tipo I) o un falso negativo (error tipo II).
Cada estudio debe justificar su α según contexto, objetivos y consecuencias.👇🧵 Image 👉Justificar α es parte del diseño del estudio, no del análisis
Diseñar estudios pensando explícitamente qué error se tolera más, permite tomar decisiones más racionales y eficientes, y mejorar la calidad y relevancia de la investigación.
Ejemplo👇

#stats #datascience #analytics Image
Dec 20, 2025 5 tweets 3 min read
😖Error tipo I vs error tipo II ¿cuál duele más?
La mayoría asume que un error tipo I (falso positivo) es siempre más grave que un error tipo II (falso negativo). Suelen elegir α=0.05 y β=0.20. Sin embargo, esta jerarquía no siempre se sostiene y depende del contexto. ¿Cómo?👇🧵 Image 1️⃣ Error tipo I (α)
Decir que hay un efecto cuando en realidad no lo hay (falso positivo).
Ejemplo:
- Aprobar un fármaco ineficaz o dañino.
- Implementar una intervención inútil.
Cuando elegir un menor α: Cuando los costes de actuar sobre un efecto falso son altos.