🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃
¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻
🚫No distinguir la significación estadística de la significación práctica🤦🏻♀️p-valor nos dice la dirección y tamaño del efecto la magnitud
Que exista una diferencia no significa que sea grande
Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO! #HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"
👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀 #HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"
😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.
😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...
🚨 Una crítica válida y urgente a prácticas comunes de análisis de datos en la Ciencia🚨
🏆 La causalidad es el Santo Grial del análisis de datos: saber qué realmente causa qué. Pero, ¡cuidado! No es tan fácil como parece.
🧠 La causalidad (especialmente en medicina y salud pública) NO es como un interruptor de luz. 🔦 Prendes, se enciende. Apagas, se apaga. Fácil. La causalidad aquí es clara debido a mecanismos conocidos, resultados inmediatos y repetibles.
😱 Pero en otros ámbitos (como en la salud)… la cosa se complica. Factores como intervenciones poco definidas, sistemas complejos (biológicos/sociales) y mediciones imprecisas dificultan establecer la causalidad. 🤔
💣 Hay 3 tipos de investigadores que fracasan con esto: 👀
🤯 Por piensas que con solo mirar coeficientes y R² tienes todo bajo control en tu modelo de regresión... 🤨
🔥 El Cuarteto de Anscombe: Cuatro datasets, un mismo modelo… pero con realidades completamente distintas. 🔥
🧵Soluciones...👇
#stats #analytics #datascience #DataViz
Estos cuatro conjuntos de datos tienen:
✅ Misma media en X e Y
✅ Misma varianza
✅ Misma correlación
✅ Mismos coeficientes de regresión
✅ Mismo R²
📉 Pero cuando los graficas… descubres el desastre 🤯
💡 Errores clave en un modelo de regresión:
❌ 1. Asumir linealidad sin verificarla
No todas las relaciones son lineales. Ajustar una línea recta a un patrón curvo es un error clásico.
Solución: Graficar y evaluar modelos más flexibles como regresión con splines o GAM.
¿No sabes qué modelo de regresión usar? ¿Te confunden los términos LM, GLM, GAMM y demás siglas raras? 🌀 LO INTENTARÉ EXPLICAR RÁPIDAMENTE ⏳💥👇🧵
#stats #analytics #datascience
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM) (SI SE CUMPLEN SUS SUPUESTOS).
🚫 No → ¡Sigue leyendo! 👇
📢 PASO 2: ¿Tu variable respuesta es binaria, de conteo o de proporciones?
✅ Sí → Modelo Lineal Generalizado (GLM) (elige la familia adecuada: binomial, Poisson, gamma, etc.)
🚫 No → Vamos más profundo. 👇
1️⃣🔥 Ocultan la variabilidad → ¡Pueden hacer que datos diferentes se vean iguales!😵
👉📊 Los barplots NO te muestran la forma real de los datos, solo la media y el error o la incertidumbre.
🚨Datos con distribuciones totalmente diferentes pueden parecer idénticos en un barplot.
2️⃣ 🤯 Malas comparaciones → ¡Pueden hacerte creer diferencias que no existen! 📉
👉📊 Si los tamaños de muestra son diferentes, los IC en los barplots pueden ser engañosos.
❌ Dos grupos =medias y !=N pueden generar IC que te hagan pensar que hay +o- incertidumbre de la real.
🔥 Crear gráficos con pruebas estadísticas suele requerir varios pasos, pero {ggstatsplot} lo hace todo en una sola línea de código. 👇🧵
✅ No necesitas copiar/pegar números en un informe: los gráficos ya contienen toda la información.
#rstats #stats #dataviz #datascience
🎯 #stats + #dataviz en 1 solo paso
✅ Gráficos con pruebas paramétricas, no paramétricas y robustas
✅ Formato APA listo para publicar 📑
✅ Muestra automáticamente N 📊
✅ Mezcla caja + violín para mejor visualización 🎻
✅ Incluye tamaños de efecto, IC y pruebas bayesianas
📌 Funciones:
📊 ggbetweenstats → Compara entre grupos (violín + caja)
📊 ggwithinstats → Compara dentro de grupos
📊 gghistostats → Histogramas
📊 ggscatterstats y ggcorrmat → Correlaciones
📊 ggbarstats y ggpiestats → Barras y pie
📊 ggcoefstats → Regresión y metaanálisis
🧐 Si quieres gráficos rápidos, elegantes y sin sufrir, prueba {tinyplot}🔥
✅ Gráficos en base R sin complicaciones
✅ Agrupaciones y leyendas automáticas en un solo paso
✅ Facetas sin sudar la gota gorda (olvídate de par(mfrow=...))
✅ Temas personalizables con un solo comando
📌 ¿Por qué deberías probar tinyplot?
1️⃣ Usa solo base R → sin dependencias, sin bloat.
2️⃣ Ultra ligero → instalación mínima, ideal para paquetes o scripts portables.
3️⃣ Drop-in replacement → si ya usas plot(), cambiar a tinyplot() es pan comido.
🎯 ¡Prueba esto AHORA MISMO en tu R! 🎯
install.packages("tinyplot")
library(tinyplot)