📊 PhD, Statistics + Data Science + Machine Learning + Biology/Ecol
😉 Stats is the grammar of science
🎓 Directora académica y Docente
🏢 Consultora
💙 #RStats
May 21 • 9 tweets • 3 min read
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵
#stats #analytics #RStats #ModelDiagnostics #Estadística #DataScience #easystats #performance
Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇
🧪 Diagnóstico gráfico: lo que todo analista debería revisar:
May 15 • 11 tweets • 5 min read
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔
🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵
#DataScience #stats
📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos.
May 14 • 7 tweets • 2 min read
👀 ¿Te has preguntado qué estadísticos y gráficos usar para cada tipo de variable y estudio?
✨ Tanto la variación como la covariación son esenciales en el análisis de datos.
Aquí te lo resumo de forma sencilla 👇🧵
#stats #dataviz #statistics #analytics #datascience
La VARIACIÓN se ocupa de la dispersión dentro de una variable
La COVARIACIÓN se centra en las relaciones entre múltiples variables
Utilizar correctamente estas herramientas estadísticas puede enriquecer cualquier análisis de datos y ayudar a obtener conclusiones más robustas.📈🔍
May 13 • 6 tweets • 2 min read
🔥 Las pruebas estadísticas más comunes son TODAS modelos lineales. 🔥
🧠 Por lo tanto, en lugar de utilizar cientos de pruebas diferentes, ¿por qué no usar un modelo que realiza todas tus pruebas en una sola estructura flexible y robusta?
Te lo resumo en este post:👇🧵
🤔 Cuando piensas en ANOVA, t-tests, test de Mann-Whitney o test Chi-cuadrado, crees que estás aplicando métodos diferentes, pero la realidad es que todos son casos especiales del Modelo Lineal.
🌟 3 razones por las que los modelos de regresión lineal deben ser tu primera opción:
May 11 • 9 tweets • 5 min read
🚨Los datos ausentes están por todas partes🚨
👉Los NA pueden invalidar los resultados de tu estudio
👉Muchas funciones automáticas pueden no ser las más óptimas para manejarlos
👉El tratamiento incorrecto de los NA puede llevar a conclusiones erróneas o sesgadas
¿Qué hacer?👇🧵
👀 ¿Qué hacer con los NA? 🤔
1️⃣ Identifica los datos ausentes y comprende por qué faltan:
👉 Errores humanos
👉 Interrupciones en el flujo de datos (como meses sin registro)
👉 Problemas de privacidad
👉 Sesgo: Como cuando ciertos participantes del estudio tienen más NA que otros
May 9 • 14 tweets • 3 min read
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo?
¡No entres en pánico! 🧘♀️🧠 Un p > 0.05 no es el fin del análisis, sino el inicio de una buena reflexión.
Hoja de ruta🧵👇🏻
#stats #datascience #analytics #inference #pvalue #rstats #research #thesis
🔥 1. Evita conclusiones simplistas
No estadísticamente significativo (discernible o detectable) ≠ No hay efecto
👉 El p-valor NO te dice si la hipótesis nula es verdadera. Solo indica la compatibilidad de los datos con esa hipótesis, asumiendo que sea cierta.
May 6 • 8 tweets • 2 min read
🔥 ¿QUÉ MODELO DE REGRESIÓN DEBERÍAS ELEGIR? (UNA GUÍA SENCILLA) 🔥
¿Te suena a conjuro estadístico esto de LM, GLM, GAMM, GLMM...?
🧙♂️ Tranquilidad. Vamos paso a paso. Te prometo solo necesitas realizar unos simples pasos para elegir el modelo más adecuado para tu problema:👇🧵
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM)
(Si se cumplen sus supuestos: linealidad, homocedasticidad, normalidad, independencia…)
🚫 No → ¡Sigue leyendo!
Apr 26 • 8 tweets • 5 min read
💡Una de las mejores herramientas que conozco (y de las que más recomiendo) es R Markdown… o su evolución, Quarto.
Siempre que puedo, la incluyo en los cursos/Másters que doy.👌
🧵👇 Hoy un hilo de experiencias y recursos en el que espero que participes con tus aportes.
#rstats
¿Por qué? Porque permite integrar código, resultados y explicaciones en un solo documento.
Eso ahorra tiempo, evita errores y, sobre todo, mejora la reproducibilidad y la comunicación de los análisis.
En mis clases suelo proponer a los estudiantes que reflexionen sobre:
Apr 21 • 9 tweets • 2 min read
👀 ¿Cómo evoluciona el análisis desde una comparación de medias simple (ANOVA / t-test), a un análisis de covarianza (ANCOVA) y finalmente a un modelo lineal general con interacción?
Vamos paso a paso, leyendo cada viñeta del gráfico de Adrian Olszewski 🙌:
#stats #datascience
1️⃣ ANOVA/t-test: Efecto principal no ajustado
Se comparan las medias de dos grupos (líneas horizontales morada y verde), ignorando cualquier otra covariable.
Comparación cruda, no se ajusta por covariables (e.g. eje X).
❗Puede haber confusión si esa covariable está relacionada.
Mar 30 • 7 tweets • 2 min read
🚨 Una crítica válida y urgente a prácticas comunes de análisis de datos en la Ciencia🚨
🏆 La causalidad es el Santo Grial del análisis de datos: saber qué realmente causa qué. Pero, ¡cuidado! No es tan fácil como parece.
🧠 La causalidad (especialmente en medicina y salud pública) NO es como un interruptor de luz. 🔦 Prendes, se enciende. Apagas, se apaga. Fácil. La causalidad aquí es clara debido a mecanismos conocidos, resultados inmediatos y repetibles.
Mar 2 • 7 tweets • 2 min read
🤯 Por piensas que con solo mirar coeficientes y R² tienes todo bajo control en tu modelo de regresión... 🤨
🔥 El Cuarteto de Anscombe: Cuatro datasets, un mismo modelo… pero con realidades completamente distintas. 🔥
🧵Soluciones...👇
#stats #analytics #datascience #DataViz
Estos cuatro conjuntos de datos tienen:
✅ Misma media en X e Y
✅ Misma varianza
✅ Misma correlación
✅ Mismos coeficientes de regresión
✅ Mismo R²
📉 Pero cuando los graficas… descubres el desastre 🤯
¿No sabes qué modelo de regresión usar? ¿Te confunden los términos LM, GLM, GAMM y demás siglas raras? 🌀 LO INTENTARÉ EXPLICAR RÁPIDAMENTE ⏳💥👇🧵
#stats #analytics #datascience
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM) (SI SE CUMPLEN SUS SUPUESTOS).
🚫 No → ¡Sigue leyendo! 👇
Feb 25 • 9 tweets • 4 min read
🚨📊 ¿Por qué deberías dejar de usar barplots? 🌧️🌈
Si sigues usando gráficos de barras con error para representar datos cuantitativos, estás perdiendo información valiosa. Aquí te explico por qué:👇🧵
#DataViz #RaincloudPlots #Analytics #RStats #DataScience #stats
1️⃣🔥 Ocultan la variabilidad → ¡Pueden hacer que datos diferentes se vean iguales!😵
👉📊 Los barplots NO te muestran la forma real de los datos, solo la media y el error o la incertidumbre.
🚨Datos con distribuciones totalmente diferentes pueden parecer idénticos en un barplot.
Feb 22 • 5 tweets • 3 min read
🔥 Crear gráficos con pruebas estadísticas suele requerir varios pasos, pero {ggstatsplot} lo hace todo en una sola línea de código. 👇🧵
✅ No necesitas copiar/pegar números en un informe: los gráficos ya contienen toda la información.
#rstats #stats #dataviz #datascience
🎯 #stats + #dataviz en 1 solo paso
✅ Gráficos con pruebas paramétricas, no paramétricas y robustas
✅ Formato APA listo para publicar 📑
✅ Muestra automáticamente N 📊
✅ Mezcla caja + violín para mejor visualización 🎻
✅ Incluye tamaños de efecto, IC y pruebas bayesianas
Feb 18 • 4 tweets • 2 min read
🧐 Si quieres gráficos rápidos, elegantes y sin sufrir, prueba {tinyplot}🔥
✅ Gráficos en base R sin complicaciones
✅ Agrupaciones y leyendas automáticas en un solo paso
✅ Facetas sin sudar la gota gorda (olvídate de par(mfrow=...))
✅ Temas personalizables con un solo comando
📌 ¿Por qué deberías probar tinyplot?
1️⃣ Usa solo base R → sin dependencias, sin bloat.
2️⃣ Ultra ligero → instalación mínima, ideal para paquetes o scripts portables.
3️⃣ Drop-in replacement → si ya usas plot(), cambiar a tinyplot() es pan comido.
Feb 13 • 5 tweets • 2 min read
🚀🔮✨ATENCIÓN, DETECTIVES DE DATOS ✨🔮🚀
😉 Porque aprender programación también puede hacerse de forma práctica y entretenida, hoy te traigo un desafío que pondrá a prueba tus conocimientos de R y tidyverse: la adaptación del SQL Murder Mystery. 🔎
👉 buff.ly/4hNGjGX
🕵🏻♂️ Este ejercicio interactivo te convertirá en un detective de datos que debe resolver un crimen analizando bases de datos policiales. Originalmente fue diseñado para SQL por pero aquí lo abordaremos utilizando R y tidyverse.
♻️ Adaptación de Naidoo (2019) y Goyal (2024).
Feb 8 • 4 tweets • 2 min read
🔥¿10 CASOS POR VARIABLE?🔥
Si has escuchado que necesitas 10 eventos por variable (EPV) para hacer una regresión logística, te tengo noticias... ¡Ese criterio es una trampa!🚨 Hoy te explico por qué confiar en esta regla puede arruinar tus análisis y qué puedes hacer en su lugar
🤔 ¿Por qué se usa el criterio de 10 EPV?
👉 Es fácil de recordar y aplicar.
👉 Se ha usado en miles de estudios.
👉 Parece "una buena regla general".
💀 Pero en realidad tiene GRANDES problemas...
Feb 7 • 5 tweets • 2 min read
🔥 EDA Automático con R y Python 🔥
👀 El EDA es clave al trabajar con datos, ayuda a comprender y preparar los datos antes de modelar. R y Python ofrecen herramientas automáticas, pero ¡usa siempre con responsabilidad y ética! 🚨
📢 Guía práctica para la inferencia estadística 📊
La inferencia estadística es fundamental para analizar datos y tomar decisiones informadas. Sin embargo, elegir el método correcto puede ser un desafío. Aquí tienes algunas estrategias clave para 5 problemas comunes:🧵👇
#stats
🔍 1. Comparación de medias en datos no Normales pero población simétrica y unimodal:
❌ No confíes en n > 30
❌ No uses Wilcoxon, ya que cambia la hipótesis nula
✅ Usa pruebas t de Welch por permutación o con bootstrap
✅ Con valores atípicos, prueba Yuen-Welch por permutación
Jan 31 • 8 tweets • 5 min read
🔥🤖 IA en #RStats: Opciones y Precauciones🧠📊
Desde hace un tiempo, vengo explorando cómo utilizar la IA para programar en R: ¿Podría ser un cambio interesante? ¿Qué hay que tener en cuenta? ¿Qué opciones hay? Dejo algunas de mis reflexiones para que compartamos experiencias.🧵
La IA puede ser útil, pero también puede generar código incorrecto, reforzar sesgos y fomentar la dependencia. Usarla con responsabilidad implica verificar, interpretar y contextualizar, no aceptar ciegamente sus sugerencias. 🚦
#IA #CódigoSeguro #stats #RStats
Jan 27 • 9 tweets • 5 min read
😈 Los 7 Pecados Estadísticos Más Comunes y Graves 🚨
¡Atención! Estos errores pueden destruir cualquier análisis de datos, ¡y son más comunes de lo que crees! 😱
Pero no te preocupes, te diré cómo resolverlos. Sigue leyendo... 👇
#stats #datascience #analytics #HorrorStats
🚫 ERROR 1: No hacer tu investigación reproducible 😱
😤 ¿Te ha pasado tener que rehacer todo por un pequeño error?
💡 Usa R, RMarkdown o Quarto para que tu trabajo sea 100% reproducible y se actualice automáticamente.
+Info: buff.ly/2x97p6z