Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD. Bioestadística | Data Science + Machine Learning | 🎓 Directora académica y Docente 💙 #RStats 😉 Stats is the grammar of science
Jan 15 7 tweets 2 min read
🦖📊 El dinosaurio que vive dentro de tus promedios (y de todos los estadísticos de resumen).
Media, desviación típica, correlación. Todo correcto. Todo idéntico. Y, sin embargo, los datos cuentan historias radicalmente distintas cuando se miran.👇🧵

#stats #datascience #rstats Image Anscombe lo mostró hace décadas. El Datasaurus lo hizo viral.
Chatterjee, Matejka y otros lo formalizaron con algoritmos: puedes construir infinitos conjuntos de datos con las mismas estadísticas pero gráficas distintas. Todos con el mismo “resumen”.

Y este es el mensaje clave:
Jan 11 7 tweets 2 min read
📌 Si trabajas con R y te interesa cómo los LLM pueden integrarse en tu flujo de trabajo, merece la pena dedicarle un tiempo al análisis de Luis D. Verde Arregoitia.

Su revisión es exhaustiva y actualizada, y va mucho más allá de simplemente “conectar R con ChatGPT”. Cubre:👇🧵 Image 🔹 Paquetes generales para interactuar con múltiples proveedores de LLM: wizrd, chatLLM, axolotr, llmR, tidyllm, gptstudio. APIs, integración con RStudio y el manejo de contexto.

🔹 Modelos locales (ollamar, rollama) para garantizar privacidad y reproducibilidad.

#AITools #code
Jan 10 7 tweets 2 min read
🧠 Un error crítico que casi nadie cuestiona: no definir 𝐪𝐮𝐞́ 𝐞𝐟𝐞𝐜𝐭𝐨 𝐞𝐬 𝐫𝐞𝐥𝐞𝐯𝐚𝐧𝐭𝐞 antes de evaluarlo. Llamemos a esto el 𝐒𝐄𝐒𝐎𝐈: el Smallest Effect Size of Interest, o el tamaño del efecto más pequeño que tiene relevancia práctica o teórica.👇🧵

#stats Image ¿Qué diferencias serían lo suficientemente grandes como para cambiar una decisión, un diseño de producto, un tratamiento clínico o una inversión?

Muchos diseñan estudios, interpretan resultados y comunican métricas sin criterio de relevancia práctica.

Alternativa: SESOI Image
Jan 4 4 tweets 2 min read
🚨 No todos los outliers se detectan igual ni se manejan igual.🚨
La decisión depende de su tipo y del objetivo del análisis.

¿Cómo diferenciar, detectar y manejar los distintos tipos de outliers?👇🧵

#stats #datascience #analytics #estadistica #cienciadedatos Image Los valores atípicos u outliers son observaciones que se desvían de manera significativa del patrón general de los datos. Su aparición puede tener varias causas: errores de registro o medición, procesos naturales con alta variabilidad, cambios estructurales o fenómenos raros. Image
Jan 3 7 tweets 3 min read
📌 ¿Cómo interpretar una interacción en un modelo de regresión? Una guía práctica con R.
👉 Las interacciones son fundamentales para representar relaciones no aditivas entre variables. Sin embargo, su interpretación puede ser compleja y a menudo lleva a errores conceptuales.👇🧵 Image 🧠 Cuando incluimos un término de interacción, estamos admitiendo que el efecto de una variable sobre la respuesta depende del nivel de otra. Esto exige un enfoque diferente: más cuidadoso, más visual, y sobre todo, más contextualizado.
💡3 claves para comprender una interacción: Image
Jan 2 8 tweets 2 min read
🚨 𝗘𝗹 𝘁𝗮𝗺𝗮𝗻̃𝗼 𝗱𝗲 𝗺𝘂𝗲𝘀𝘁𝗿𝗮 𝗻𝗼 𝘀𝗲 𝗰𝗮𝗹𝗰𝘂𝗹𝗮. 𝗦𝗲 𝗱𝗲𝗰𝗶𝗱𝗲.
En teoría, estimar el tamaño de muestra es aplicar una fórmula. En la práctica, es una toma de decisiones bajo incertidumbre.

Y aquí empieza lo que casi nunca se enseña:👇

#stats #datascience Image 𝗘𝗿𝗿𝗼𝗿 #1: pensar que el tamaño de muestra es solo un cálculo.
Cuando en realidad es un problema de riesgo, coste y consecuencias.

La estadística solo formaliza lo que ya has decidido tolerar:
— qué efecto te importa
— qué error aceptas
— qué fallo es más caro
Dec 31, 2025 12 tweets 6 min read
🗓️ Aprender sobre datos es un camino que se recorre mejor en compañía.
🤝 Mirando hacia atrás, este 2025 ha sido un año de grandes debates y descubrimientos compartidos en esta red.
Para despedir el año, he recopilado 20 temas clave:👇🧵

#stats #datascience #analytics #rstats Image 🧠I. Estrategia y Mentalidad Estadística

- 𝐄𝐫𝐫𝐨𝐫𝐞𝐬 𝐓𝐢𝐩𝐨 𝐈 𝐲 𝐈𝐈: Decide si prefieres "condenar a un inocente o absolver a un culpable". El contexto lo es todo. linkedin.com/feed/update/ur…
Dec 28, 2025 7 tweets 2 min read
💡 𝗟𝗮𝘀 𝗽𝗿𝘂𝗲𝗯𝗮𝘀 𝗲𝘀𝘁𝗮𝗱𝗶́𝘀𝘁𝗶𝗰𝗮𝘀 “𝗰𝗹𝗮́𝘀𝗶𝗰𝗮𝘀” (t-test, ANOVA, ANCOVA, regresión simple, etc..) 𝗻𝗼 𝘀𝗼𝗻 𝗺𝗲́𝘁𝗼𝗱𝗼𝘀 𝗱𝗶𝘀𝘁𝗶𝗻𝘁𝗼𝘀. 𝗦𝗼𝗻 𝗰𝗮𝘀𝗼𝘀 𝗽𝗮𝗿𝘁𝗶𝗰𝘂𝗹𝗮𝗿𝗲𝘀 𝗱𝗲𝗹 𝗠𝗼𝗱𝗲𝗹𝗼 𝗟𝗶𝗻𝗲𝗮𝗹.

#stats #analytics #datascience Image 𝗠𝗶𝘀𝗺𝗮 𝗲𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗮, 𝗗𝗶𝘀𝘁𝗶𝗻𝘁𝗼 𝗻𝗼𝗺𝗯𝗿𝗲.
Incluso muchas pruebas “no paramétricas” pueden reinterpretarse como modelos lineales con otras distribuciones, funciones de enlace o estimadores.

La fragmentación en cientos de tests es pedagógica, no técnica.
Dec 27, 2025 6 tweets 2 min read
🤔¿𝐓𝐮 𝐚𝐧á𝐥𝐢𝐬𝐢𝐬 𝐞𝐬 𝐞𝐬𝐭𝐚𝐝í𝐬𝐭𝐢𝐜𝐚𝐦𝐞𝐧𝐭𝐞 𝐜𝐨𝐫𝐫𝐞𝐜𝐭𝐨 𝐩𝐞𝐫𝐨 𝐮𝐧 "𝐟𝐫𝐚𝐜𝐚𝐬𝐨 𝐝𝐞 𝐩𝐫𝐨𝐝𝐮𝐜𝐭𝐨"?
El análisis de datos no es solo cálculo, es la construcción de un producto.
Requiere Design Thinking: empatía con el usuario y explorar soluciones🧵 Image 𝟔 𝐩𝐫𝐢𝐧𝐜𝐢𝐩𝐢𝐨𝐬 que debes ajustar:
1️⃣ 𝐃𝐚𝐭𝐚 𝐌𝐚𝐭𝐜𝐡𝐢𝐧𝐠: ¿Tus datos responden directamente a la pregunta o usas "sustitutos"? Ojo con los sesgos aquí
2️⃣ 𝐄𝐱𝐡𝐚𝐮𝐬𝐭𝐢𝐯𝐢𝐝𝐚𝐝: ¿Evaluaste múltiples modelos o te quedaste con el primero que "dio significativo"?
Dec 26, 2025 4 tweets 2 min read
💡No significativo ≠ irrelevante: Un p-valor > 0.05 solo indica insuficiencia de evidencia, no ausencia de efecto; la interpretación requiere considerar tamaño de efecto, SESOI e incertidumbre.
Guía de interpretación de resultados no estadísticamente significativos.👇🧵

#stats Image Un resultado no significativo se interpreta con contexto.
Diseño, muestra y confusores importan.
El tamaño de efecto y el SESOI marcan la relevancia práctica.
TOST permite separar efecto trivial, efecto real no detectado y ausencia de efecto relevante.

#datascience #estadistica Image
Image
Dec 23, 2025 9 tweets 2 min read
🤦🏻‍♀️ Incumplir la normalidad no es un pecado universal. Es grave o irrelevante según qué inferencia haces, con qué tamaño muestral, con qué diseño y para qué objetivo. Tratar la normalidad como un interruptor on/off es lo peligroso.

💡 Consecuencias en inferencia y predicción: 👇 Image Consecuencia en inferencia
1️⃣Estimación de efectos (medias, coeficientes)
Ninguna si el modelo está bien especificado y N no es ridículo
Los estimadores siguen siendo insesgados y consistentes
No afecta al valor esperado del estimador solo a su distribución finita
👉Gravedad:Baja
Dec 22, 2025 5 tweets 3 min read
🧠¿Por qué seguimos usando α = 0,05 sin pensarlo?
No todos los estudios ni todas las decisiones tienen el mismo coste asociado a un falso positivo (error tipo I) o un falso negativo (error tipo II).
Cada estudio debe justificar su α según contexto, objetivos y consecuencias.👇🧵 Image 👉Justificar α es parte del diseño del estudio, no del análisis
Diseñar estudios pensando explícitamente qué error se tolera más, permite tomar decisiones más racionales y eficientes, y mejorar la calidad y relevancia de la investigación.
Ejemplo👇

#stats #datascience #analytics Image
Dec 20, 2025 5 tweets 3 min read
😖Error tipo I vs error tipo II ¿cuál duele más?
La mayoría asume que un error tipo I (falso positivo) es siempre más grave que un error tipo II (falso negativo). Suelen elegir α=0.05 y β=0.20. Sin embargo, esta jerarquía no siempre se sostiene y depende del contexto. ¿Cómo?👇🧵 Image 1️⃣ Error tipo I (α)
Decir que hay un efecto cuando en realidad no lo hay (falso positivo).
Ejemplo:
- Aprobar un fármaco ineficaz o dañino.
- Implementar una intervención inútil.
Cuando elegir un menor α: Cuando los costes de actuar sobre un efecto falso son altos.
Dec 18, 2025 8 tweets 3 min read
🚨 𝗠𝘂𝗰𝗵𝗼𝘀 𝗮𝗻𝗮𝗹𝗶𝘀𝘁𝗮𝘀 𝗰𝗼𝗻𝗳𝘂𝗻𝗱𝗲𝗻 𝘁𝗿𝗲𝘀 𝗰𝗼𝗻𝗰𝗲𝗽𝘁𝗼𝘀 𝗰𝗹𝗮𝘃𝗲 𝗲𝗻 𝗿𝗲𝗴𝗿𝗲𝘀𝗶𝗼́𝗻 𝗹𝗶𝗻𝗲𝗮𝗹.
𝗬 𝗲𝘀𝗮 𝗰𝗼𝗻𝗳𝘂𝘀𝗶𝗼́𝗻 𝗻𝗼 𝗲𝘀 𝘁𝗲𝗼́𝗿𝗶𝗰𝗮: 𝘁𝗶𝗲𝗻𝗲 𝗰𝗼𝗻𝘀𝗲𝗰𝘂𝗲𝗻𝗰𝗶𝗮𝘀 𝗽𝗿𝗮́𝗰𝘁𝗶𝗰𝗮𝘀 𝗴𝗿𝗮𝘃𝗲𝘀 ⚠️👇🧵

#stats Image 🔹𝗢𝘂𝘁𝗹𝗶𝗲𝗿: valor raro en la variable respuesta
🔹𝗟𝗲𝘃𝗲𝗿𝗮𝗴𝗲: posición extrema en el espacio de los predictores
🔹𝗜𝗻𝗳𝗹𝘂𝗲𝗻𝗰𝗶𝗮: capacidad real de una observación para cambiar el modelo si desaparece
𝗦𝗼𝗹𝗼 𝗲𝗹 𝘁𝗲𝗿𝗰𝗲𝗿𝗼 𝗶𝗺𝗽𝗼𝗿𝘁𝗮 𝗱𝗲 𝘃𝗲𝗿𝗱𝗮𝗱 Image
Dec 17, 2025 8 tweets 3 min read
📌𝗘𝗹 𝗽-𝘃𝗮𝗹𝗼𝗿: qué es y cómo usarlo con sentido
Si 𝗻𝗼 𝗰𝗼𝗺𝗽𝗿𝗲𝗻𝗱𝗲𝘀 𝗾𝘂𝗲 𝗺𝗶𝗱𝗲 𝗻𝗶 𝗾𝘂𝗲 𝗱𝗲𝗰𝗶𝘀𝗶𝗼𝗻𝗲𝘀 𝗷𝘂𝘀𝘁𝗶𝗳𝗶𝗰𝗮, caerás en 𝗰𝗼𝗻𝗰𝗹𝘂𝘀𝗶𝗼𝗻𝗲𝘀 𝗶𝗻𝗳𝗹𝗮𝗱𝗮𝘀, 𝗱𝗲𝗰𝗶𝘀𝗶𝗼𝗻𝗲𝘀 𝗽𝗼𝗯𝗿𝗲𝘀 𝘆 𝗺𝗼𝗱𝗲𝗹𝗼𝘀 erróneos.
#datascience Image El p-valor permite evaluar compatibilidad con un modelo, controlar error tipo I y detectar señales si los datos no encajan con H₀.No garantiza la verdad ni el tamaño del efecto, indica sorpresa bajo supuestos explícitos. Requiere juicio crítico, contexto, análisis de efecto, etc Image
Dec 16, 2025 10 tweets 3 min read
🤔Hace poco, Daniel Lakens publicó una sátira brillante sobre lo que él llama el "Trastorno de Bayesianismo Dogmático".Aunque el tono es humorístico, el mensaje de fondo es vital para cualquiera que trabaje con datos: el tribalismo metodológico está frenando el avance científico. Image Como profesionales, a menudo nos vemos atrapados en la guerra entre Frecuentistas y Bayesianos. Pero, ¿y si el camino hacia una ciencia más robusta no fuera elegir un bando, sino aprender a usar toda la caja de herramientas?

Aquí algunas reflexiones para superar esta división:
Dec 15, 2025 6 tweets 2 min read
💡La inferencia estadística es un sistema de gestión de riesgos, relevancia y recursos. Los 3 pilares que todo investigador debe dominar:
1. Controla el riesgo (Justifica tu alfa)
2. Asegura la relevancia (Define tu SESOI)
3. Optimiza la eficiencia (Usa Análisis Secuenciales) Image 1️⃣ Control: Justificar el Nivel de Alfa (Riesgo a Largo Plazo)
Limita la probabilidad de cometer un Error Tipo I (falso positivo) a un nivel deseado (aproximación frecuentista). Así no haces afirmaciones falsas con demasiada frecuencia. Image
Dec 13, 2025 5 tweets 2 min read
📊 ¿Tu modelo realmente funciona bien?
Muchos modelos se crean… pero pocos se diagnostican a fondo. Si trabajas con modelos de regresión en R, este recurso puede ahorrarte tiempo y sustos.👇🧵

#stats #rstats #datascience #dataviz #analytics Image 📦 performance permite evaluar los supuestos de tus modelos:
✅ check_collinearity() Detecta predictores muy correlacionados
✅ check_normality() Evalúa si los residuos siguen una distribución normal
✅ check_heteroscedasticity() Evalúa si la varianza de los residuos es constante Image
Dec 9, 2025 9 tweets 2 min read
🚨El R² engaña. Más de lo que muchos admiten.🙈
Se repite como un mantra: “R² alto = modelo bueno”. La simplificación es cómoda, pero intelectualmente pobre.
Esto es lo que le enseño a mis alumnos en clase: 👇🧵

#stats #datacience #analytics #master #formacion #cienciadedatos Image El R² no evalúa adecuación, no valida supuestos y no tiene capacidad para anticipar precisión predictiva. La obsesión con encontrar un “valor mínimo aceptable” revela un malentendido estadístico arraigado.

Cuatro enseñanzas clave sobre lo que NO indica el R2: 👇
Dec 8, 2025 8 tweets 2 min read
⚠️Una tentación peligrosa: forzar los datos para que se ajusten a los supuestos de un modelo estadístico.
La limpieza y la transformación de datos son prácticas esenciales, pero cruzar la línea con una manipulación excesiva puede llevarnos a conclusiones y decisiones erróneas.🧵 Image 🧐 ¿Qué son los Supuestos del Modelo?
Los modelos estadísticos, como la Regresión Lineal Simple o el ANOVA, se construyen sobre ciertas condiciones que, si se cumplen, garantizan que los estimadores (los coeficientes o efectos que calculamos) sean insesgados y eficientes.
Dec 6, 2025 5 tweets 2 min read
🚨𝐃𝐞𝐣𝐚 𝐝𝐞 𝐜𝐨𝐩𝐢𝐚𝐫 𝐲 𝐩𝐞𝐠𝐚𝐫 para generar informes.🚨
Si trabajas con datos, ya sabes lo que supone cambiar una fecha, ejecutar todo el script y cruzar los dedos.
La alternativa profesional es otra: parametrizar.👇🧵

#stats #datascience #analytics #dataviz #rstats Herramientas como R Markdown/Quarto permiten definir 𝐩𝐚𝐫á𝐦𝐞𝐭𝐫𝐨𝐬 𝐝𝐞 𝐞𝐧𝐭𝐫𝐚𝐝𝐚, convirtiendo tu informe en una 𝐩𝐥𝐚𝐧𝐭𝐢𝐥𝐥𝐚 𝐝𝐢𝐧á𝐦𝐢𝐜𝐚.
👉 Un único script; cientos de resultados distintos.
Cambio la sucursal o la especie, y genero el informe específico. Image