🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃
¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻
🚫No distinguir la significación estadística de la significación práctica🤦🏻♀️p-valor nos dice la dirección y tamaño del efecto la magnitud
Que exista una diferencia no significa que sea grande
Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO! #HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"
👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀 #HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"
😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.
😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...
👀📏 ¿Por qué tus estudios no convencen? El drama de las muestras pequeñas.
Este error se repite cada día en estudios académicos y proyectos empresariales. ¿Por qué ocurre? ¿Por qué es grave? ¿Cómo arreglarlo?
Te lo cuento en este post👇
#stats #datascience #samplesize #rstats
👉 ¿Por qué pasa?
❌ Presupuesto escaso
❌ Poco tiempo
❌ Mala planificación
❌ Dificultad para acceder a la población de interés
👉 ¿Por qué es grave?
😱 Pierdes potencia
🤯 Riesgo de conclusiones erróneas
🫣 Imposibles de replicar
😳 Decisiones de negocio mal fundamentadas
👉 ¿Cómo arreglarlo?
✅ Antes de empezar, calcula el tamaño muestral necesario con herramientas de potencia estadística y el diseño de estudio en mente (G*Power o R como {pwr}).
😱 “Mis datos no son normales… ¿Y ahora qué hago?” 💥
💬 Una de las frases más comunes que escucho es:
“Hice la prueba de Shapiro-Wilk y me salió p < 0.05, así que mis datos no son normales. ¿Qué prueba uso ahora?”
📢 CUIDADO. Sigue leyendo...
Que tus datos no sean perfectamente normales no significa que tengas que abandonar todos los métodos clásicos o correr directamente a una prueba "no paramétrica".
🔑 Lo que realmente necesitas saber:
1️⃣ La normalidad es un supuesto de los errores (residuos), no de la respuesta directamente.
👉 Muchas pruebas estadísticas (t-test o ANOVA) asumen normalidad del error dentro del modelo, no de la respuesta en bruto.
🔎 Histogramas y Shapiro-Wilk no te dicen lo que necesitas saber
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠
El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵
3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):
🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí?
🔄 2. ESTABILIDAD del agrupamiento
Realiza el clustering varias veces con diferentes subconjuntos.
Evalúa la CONSISTENCIA en los resultados.
👉 ¿Tu agrupación resiste los cambios en la muestra?
El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.
#datascience
En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV
👉 Modelos predictivos para prevenir lesiones
👉 Grafos para visualizar redes de pase
👉 Análisis de estilo de juego y búsqueda de fichajes similares
✨ Elegir la prueba de hipótesis correcta (o el modelo correcto) para una repuesta continua no es solo un "ANOVA vs. Kruskal-Wallis" o "t-test vs Mann-Whitney".
👇 Hay 6 aspectos clave que debes considerar antes de tomar una decisión:🚀
#stats #datascience #analytics #research
1️⃣ ¿Qué quieres comparar?
📉 Igualdad de medias
📈 igualdad de medianas (según la distribución de los datos).
💨 Equivalencia estocástica (los grupos son similares en distribución) vs Superioridad estocástica (un grupo tiende a valores mayores que otro).
⚠️ Advertencias clave
👉 El método debe elegirse según H0 y la pregunta de investigación, no según la distribución de los datos.
👉 "No paramétrico" no significa "sin supuestos" ni "sin problemas".
👉 Métodos como Mann-Whitney o pruebas de rangos modifican la hipótesis original.