📊 PhD, Statistics + Data Science + Machine Learning + Biology/Ecol
😉 Stats is the grammar of science
🎓 Directora académica y Docente
🏢 Consultora
💙 #RStats
Mar 2 • 7 tweets • 2 min read
🤯 Por piensas que con solo mirar coeficientes y R² tienes todo bajo control en tu modelo de regresión... 🤨
🔥 El Cuarteto de Anscombe: Cuatro datasets, un mismo modelo… pero con realidades completamente distintas. 🔥
🧵Soluciones...👇
#stats #analytics #datascience #DataViz
Estos cuatro conjuntos de datos tienen:
✅ Misma media en X e Y
✅ Misma varianza
✅ Misma correlación
✅ Mismos coeficientes de regresión
✅ Mismo R²
📉 Pero cuando los graficas… descubres el desastre 🤯
¿No sabes qué modelo de regresión usar? ¿Te confunden los términos LM, GLM, GAMM y demás siglas raras? 🌀 LO INTENTARÉ EXPLICAR RÁPIDAMENTE ⏳💥👇🧵
#stats #analytics #datascience
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM) (SI SE CUMPLEN SUS SUPUESTOS).
🚫 No → ¡Sigue leyendo! 👇
Feb 25 • 9 tweets • 4 min read
🚨📊 ¿Por qué deberías dejar de usar barplots? 🌧️🌈
Si sigues usando gráficos de barras con error para representar datos cuantitativos, estás perdiendo información valiosa. Aquí te explico por qué:👇🧵
#DataViz #RaincloudPlots #Analytics #RStats #DataScience #stats
1️⃣🔥 Ocultan la variabilidad → ¡Pueden hacer que datos diferentes se vean iguales!😵
👉📊 Los barplots NO te muestran la forma real de los datos, solo la media y el error o la incertidumbre.
🚨Datos con distribuciones totalmente diferentes pueden parecer idénticos en un barplot.
Feb 22 • 5 tweets • 3 min read
🔥 Crear gráficos con pruebas estadísticas suele requerir varios pasos, pero {ggstatsplot} lo hace todo en una sola línea de código. 👇🧵
✅ No necesitas copiar/pegar números en un informe: los gráficos ya contienen toda la información.
#rstats #stats #dataviz #datascience
🎯 #stats + #dataviz en 1 solo paso
✅ Gráficos con pruebas paramétricas, no paramétricas y robustas
✅ Formato APA listo para publicar 📑
✅ Muestra automáticamente N 📊
✅ Mezcla caja + violín para mejor visualización 🎻
✅ Incluye tamaños de efecto, IC y pruebas bayesianas
Feb 18 • 4 tweets • 2 min read
🧐 Si quieres gráficos rápidos, elegantes y sin sufrir, prueba {tinyplot}🔥
✅ Gráficos en base R sin complicaciones
✅ Agrupaciones y leyendas automáticas en un solo paso
✅ Facetas sin sudar la gota gorda (olvídate de par(mfrow=...))
✅ Temas personalizables con un solo comando
📌 ¿Por qué deberías probar tinyplot?
1️⃣ Usa solo base R → sin dependencias, sin bloat.
2️⃣ Ultra ligero → instalación mínima, ideal para paquetes o scripts portables.
3️⃣ Drop-in replacement → si ya usas plot(), cambiar a tinyplot() es pan comido.
Feb 13 • 5 tweets • 2 min read
🚀🔮✨ATENCIÓN, DETECTIVES DE DATOS ✨🔮🚀
😉 Porque aprender programación también puede hacerse de forma práctica y entretenida, hoy te traigo un desafío que pondrá a prueba tus conocimientos de R y tidyverse: la adaptación del SQL Murder Mystery. 🔎
👉 buff.ly/4hNGjGX
🕵🏻♂️ Este ejercicio interactivo te convertirá en un detective de datos que debe resolver un crimen analizando bases de datos policiales. Originalmente fue diseñado para SQL por pero aquí lo abordaremos utilizando R y tidyverse.
♻️ Adaptación de Naidoo (2019) y Goyal (2024).
Feb 8 • 4 tweets • 2 min read
🔥¿10 CASOS POR VARIABLE?🔥
Si has escuchado que necesitas 10 eventos por variable (EPV) para hacer una regresión logística, te tengo noticias... ¡Ese criterio es una trampa!🚨 Hoy te explico por qué confiar en esta regla puede arruinar tus análisis y qué puedes hacer en su lugar
🤔 ¿Por qué se usa el criterio de 10 EPV?
👉 Es fácil de recordar y aplicar.
👉 Se ha usado en miles de estudios.
👉 Parece "una buena regla general".
💀 Pero en realidad tiene GRANDES problemas...
Feb 7 • 5 tweets • 2 min read
🔥 EDA Automático con R y Python 🔥
👀 El EDA es clave al trabajar con datos, ayuda a comprender y preparar los datos antes de modelar. R y Python ofrecen herramientas automáticas, pero ¡usa siempre con responsabilidad y ética! 🚨
📢 Guía práctica para la inferencia estadística 📊
La inferencia estadística es fundamental para analizar datos y tomar decisiones informadas. Sin embargo, elegir el método correcto puede ser un desafío. Aquí tienes algunas estrategias clave para 5 problemas comunes:🧵👇
#stats
🔍 1. Comparación de medias en datos no Normales pero población simétrica y unimodal:
❌ No confíes en n > 30
❌ No uses Wilcoxon, ya que cambia la hipótesis nula
✅ Usa pruebas t de Welch por permutación o con bootstrap
✅ Con valores atípicos, prueba Yuen-Welch por permutación
Jan 31 • 8 tweets • 5 min read
🔥🤖 IA en #RStats: Opciones y Precauciones🧠📊
Desde hace un tiempo, vengo explorando cómo utilizar la IA para programar en R: ¿Podría ser un cambio interesante? ¿Qué hay que tener en cuenta? ¿Qué opciones hay? Dejo algunas de mis reflexiones para que compartamos experiencias.🧵
La IA puede ser útil, pero también puede generar código incorrecto, reforzar sesgos y fomentar la dependencia. Usarla con responsabilidad implica verificar, interpretar y contextualizar, no aceptar ciegamente sus sugerencias. 🚦
#IA #CódigoSeguro #stats #RStats
Jan 27 • 9 tweets • 5 min read
😈 Los 7 Pecados Estadísticos Más Comunes y Graves 🚨
¡Atención! Estos errores pueden destruir cualquier análisis de datos, ¡y son más comunes de lo que crees! 😱
Pero no te preocupes, te diré cómo resolverlos. Sigue leyendo... 👇
#stats #datascience #analytics #HorrorStats
🚫 ERROR 1: No hacer tu investigación reproducible 😱
😤 ¿Te ha pasado tener que rehacer todo por un pequeño error?
💡 Usa R, RMarkdown o Quarto para que tu trabajo sea 100% reproducible y se actualice automáticamente.
+Info: buff.ly/2x97p6z
Jan 26 • 5 tweets • 2 min read
🔥 Una muy buena opción para aprender visualización de datos online 🔥
🌟 ¿Quieres aprender visualización de datos con ejercicios interactivos y acceso a todo el código fuente? 🌟 Te voy a contar cómo funciona esta web alucinante que ha montado Claus Wilke.
#dataviz #stats
🧠 Un sitio web diseñado para aprender de forma activa:
Este curso online utiliza Quarto Live, lo que significa que puedes practicar en vivo directamente desde la página. 🎯 ¡No más excusas para no probar lo que estás aprendiendo al instante!
Jan 22 • 6 tweets • 3 min read
💡 A menudo le advierto a mis alumnos: No todos los valores atípicos (outliers) son villanos en tu análisis de datos. A veces, ¡son los héroes! 🤔
🚨 NO elimines los valores atípicos de forma predeterminada. ¡Podrías estar destruyendo tu análisis!
Antes evalúa lo siguiente:👇
1️⃣ ¿Qué es un valor atípico?
👉 “un valor atípico es una observación que se desvía tanto de las otras observaciones que despierta sospechas de que ha sido generada por un mecanismo diferente” (Hawkins 1980).
👀 ¿Qué constituye una desviación “suficiente”?
#stats #outliers
Jan 19 • 5 tweets • 2 min read
🔄 "Basura entra, basura sale" es un principio clave cuando hablamos de datos, pero si pensaste en "limpiar" tus datos y nada más, ¡te falta la mitad del cuadro!
🧠 Reflexionemos por qué... 👀
#stats #analytics #datascience #research #phd #thesis #science #experiment #design
🤯 La VERDADERA lección es que los resultados no solo dependen de cómo preparas los datos para el análisis, sino de cómo tomaste esos datos desde el principio. Y eso, mi amigo, está directamente relacionado con el diseño de estudio. 📊
Jan 14 • 8 tweets • 3 min read
🚨 ¡No dejes que la selección de predictores te confunda! 🚨
👉 Especifica tu modelo con lo que sabes (no solo por significación estadística).🔥
🧠 Crea un modelo que tenga sentido desde el conocimiento teórico o práctico del tema.
👇 Ejemplo Sencillo: Mortalidad de Ranas 🐸
1️⃣ Especifica lo que ya sabes primero 🧠
👉 No elijas variables al azar.
Usa lo que sabes: la temperatura y la comida afecta a las ranas.🥵🍴
¿Y si lo importante es la interacción? (calor extremo + poca comida = 🚨 muerte).
✔️ Incluye efectos principales y la interacción.
Jan 5 • 5 tweets • 3 min read
🌟📦 abess: Selección rápida del mejor subconjunto de predictores en Python y #RStats. 📊
😬 En un mundo lleno de datos, encontrar las variables más importantes puede ser como buscar una aguja en un pajar. ABESS (Adaptive BEst Subset Selection) llega para cambiar el juego.🧵👇
Una solución rápida, precisa y adaptativa que selecciona las mejores variables para tus modelos predictivos. ABESS se centra en seleccionar un pequeño subconjunto de predictores clave, asegurando que el modelo final sea preciso y eficiente.
Dec 31, 2024 • 6 tweets • 7 min read
✨✨ Mis post más populares de 2024 sobre #RStats ✨✨
Aquí tienes los favoritos de la comunidad, cargados de tips, herramientas y mejores prácticas. ¡No te los pierdas! 👇
#code #programming #stats #analytics #datascience #data #AI #IA #ML
🔥 IA y R: ¡Lo mejor del año!
✅ Asistente de IA para Shiny buff.ly/408Mmjp
✅ LLM en R y Python (paquete mall): buff.ly/3ZKFPKc
✅ Paquete “ask” en R para analytics con IA buff.ly/40aRFz1
✅ Integra IA en R: Guía paso a paso: buff.ly/4iQ7RwO
Dec 29, 2024 • 10 tweets • 7 min read
🔥🔥 Mis post más populares sobre #stats #datascience y #analytics en 2024 🔥🔥
✨Este año ha estado lleno de aprendizajes, reflexiones y debates apasionantes. Aquí tienes los artículos sobre estadística y análisis de datos que más resonaron en la comunidad. ¿Te los perdiste?👇🏻
🎯 Conceptos que DESPEJAN dudas:
✅ ¿Por qué APRENDER estadística si el SOFTWARE/IA lo puede hacer todo por ti? buff.ly/41RK8WW
✅ ¿Cómo definir preguntas de investigación adecuadas? buff.ly/3Pdddof
✅ Valores atípicos e incluyentes: buff.ly/3PdlRDe
Dec 16, 2024 • 4 tweets • 2 min read
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo? 🧠
No te preocupes, ¡No es el fin del mundo! 🌎 Aquí te dejo una guía para reflexionar y tomar el próximo paso como un profesional de los datos: 🧵👇
#stats #analytics #datascience #research #science #phd
🔑 La ausencia de evidencia NO es evidencia de ausencia.
📚 No es el p-valor lo que define tu éxito, sino lo que haces con lo que aprendes del análisis. 🧠 Reflexiona, ajusta y avanza con estrategias más sólidas. 💪
💡 Los IC, tan populares en investigación, a menudo se malinterpretan y se utilizan para obtener conclusiones equivocadas. 🧠
🔍 Lo que crees vs. Lo que realmente son los IC: 👇🧵🔥
#stats #rstats #analytics #datascience #data
Mito 1️⃣
❌ Un IC del 95% contiene el valor verdadero del parámetro con una probabilidad del 95%.
✅ Realidad: No. El IC solo garantiza que, si repites el muestreo, el 95% de los IC incluirán el valor verdadero. Es sobre los procedimientos repetidos, ¡no sobre un IC específico!😬
Dec 11, 2024 • 6 tweets • 3 min read
😱 El error más frecuente de un análisis de datos... ¡SÍ, ESTÁ AQUÍ! 🔥
¿Crees que los valores atípicos y valores ausentes son el peor enemigo en tu análisis? Pfff, amateur. El verdadero peligro acecha en un rincón mucho más oscuro: ¡la falta de contexto! 💣
#stats #datascience
🧐 El verdadero reto en un análisis de datos no es la preparación de datos ni la elección de algoritmos, sino el diseño de estudio y la pregunta de investigación. Sin una base sólida, todo tu análisis será como un castillo de naipes. 🏰🌪️