🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃
¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻
🚫No distinguir la significación estadística de la significación práctica🤦🏻♀️p-valor nos dice la dirección y tamaño del efecto la magnitud
Que exista una diferencia no significa que sea grande
Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO! #HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"
👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀 #HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"
😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.
😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo? 🧠
Tranquilo, ¡que un p > 0.05 no es el apocalipsis estadístico! Aquí va una guía rápida para que actúes como un verdadero profesional de los datos y saques partido a ese resultado.👇🧵
#stats #analytics
🙈1️⃣ ¿Qué significa realmente un p-valor > 0.05?
No significa que no haya efecto. "La ausencia de evidencia no es evidencia de ausencia" (Carl Sagan). Ese es uno de los errores más comunes. Recuerda: el p-valor no mide la probabilidad de que la hipótesis nula sea verdadera.
📏2️⃣ ¿Por qué pudo darse ese resultado? ¿Qué papel juega el tamaño de la muestra?
👉 Muestra pequeña: La potencia puede ser insuficiente para detectar un efecto real. Aquí toca hacer un análisis de sensibilidad para ver el tamaño mínimo de efecto detectable.
😳 Cuando empiezas con R, las dudas llueven:
👉 ¿Qué función necesito?
👉 ¿Cómo se usa?
👉 ¿¡Por qué me sale este error infernal!?
Por eso, he recopilado en un solo lugar todos los recursos que te ayudarán a aprender R como un/a pro:
#stats #rstats #EstadísticaConR #DataScience
📚 Funciones de ayuda, buscadores especializados, viñetas, ejemplos, CRAN Task Views, foros, FAQs…
Y sí, también cómo hacer preguntas que reciban respuestas útiles
💡 En el Máster enseñamos mucho más que sintaxis: formamos a personas que saben buscar, preguntar y seguir aprendiendo de forma autónoma. Porque saber usar R no es memorizar, es saber encontrar lo que necesitas, cuando lo necesitas.
👀 Google predijo una epidemia… de malas decisiones. 🔥
El Big Data no sustituye pensar: el caso de Google Flu Trends (GFT).
Un modelo precioso, que no servía para nada.🦠❄️
👇 Hilo crítico sobre hype, errores y lecciones en ciencia de datos:🧵
#stats #datascience #analytics
Durante años, Google Flu Trends fue el niño bonito del Big Data.
La promesa: predecir brotes de gripe en tiempo real usando nuestras búsquedas.
La realidad: sobreestimó los casos, confundió baloncesto con gripe y falló en la pandemia de 2009.
Sí, baloncesto (ambos en invierno).🏀
👀 ¿Qué salió mal? Casi todo.
📍1️⃣ La fiebre del Big Data
Pensar que tener muchos datos equivale a tener buenos datos.
Spoiler: no.
Correlacionaron búsquedas absurdas con brotes... y luego se sorprendieron de que no funcionara.
🎯 No todos los outliers son villanos. Algunos son los héroes que revelan lo que nadie más ve. 👀
👇🧵Te explico cómo distinguir entre errores, casos fuera de contexto y variación natural valiosa.
Eliminar outliers sin justificar puede:
❌ Distorsionar tus modelos
❌ Reducir la robustez de predicciones
❌ Hacerte perder información crítica
Por eso siempre recomiendo: PARA. REVISA Y CONSULTA PRIMERO.
Los valores atípicos no siempre son errores. A veces son:
✨ Variación natural que contiene información valiosa
🔍 Casos excepcionales que revelan patrones ocultos
💡 Las claves del hallazgo más importante
🔥 ¿Qué NO te enseñaron en tu curso de análisis de datos… y tuviste que aprender a golpes?
Nos enseñan métodos, fórmulas y (con suerte) sintaxis.
Pero en el mundo real, los datos llegan sucios, los plazos aprietan y nadie lee tus gráficos si no los entienden.
10 lecciones👇
📉 10 verdades del análisis de datos que no salen en el temario:
1️⃣ El 80% del trabajo es limpiar, ordenar y entender los datos.
Sí, lo has leído mil veces. Pero hasta que no lo vives, no lo crees.
🧼 Si amas la estadística, aprende también a amar el preprocesado.
#stats
2️⃣ Los datos nunca llegan como los necesitas. Nunca.
A veces el problema no es técnico, sino organizativo: fuentes desconectadas, procesos manuales, duplicados...
💡 El mejor analista no es el que espera datos perfectos, sino el que aprende a trabajar con datos imperfectos.
🚨 EL INFIERNO DE LAS FECHAS EN ANÁLISIS DE DATOS 🚨
Sí, lo has vivido. Todos lo hemos vivido.
Si alguna vez has intentado analizar fechas en Excel, sabes de lo que hablo:
🧨 Problemas típicos:
❌ Formatos inconsistentes: ¿DD/MM/AAAA o MM/DD/AAAA?
❌ Fechas como texto: Importas datos y... mágicamente son cadenas.
❌ Zonas horarias: UTC, GMT, hora local… todo mezclado.
❌ Restas y sumas absurdas: Días que no cuadran, meses que desaparecen…
💡 Pero hay una solución: R + lubridate = paz mental 🧘
✅ Limpiar fechas: ymd(), dmy(), mdy()
✅ Sumar días, meses o años: + days(5), + months(3)
✅ Detectar y corregir formatos mixtos: parse_date_time()
✅ Controlar husos horarios: with_tz() y force_tz()