🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.
(Imagen de ReNom)
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve #DataScientists#stats#data
😉Sígueme para obtener más herramientas y recursos de #DataScience#ML#IA#RStats y aprende las mejores técnicas y enfoques.
🔥 ¿QUÉ MODELO DE REGRESIÓN DEBERÍAS ELEGIR? (UNA GUÍA SENCILLA) 🔥
¿Te suena a conjuro estadístico esto de LM, GLM, GAMM, GLMM...?
🧙♂️ Tranquilidad. Vamos paso a paso. Te prometo solo necesitas realizar unos simples pasos para elegir el modelo más adecuado para tu problema:👇🧵
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM)
(Si se cumplen sus supuestos: linealidad, homocedasticidad, normalidad, independencia…)
🚫 No → ¡Sigue leyendo!
📢 PASO 2: ¿Es binaria, de conteo o proporciones?
✅ Sí → Modelo Lineal Generalizado (GLM)
Usa la familia adecuada:
🔷 Binomial (0/1, éxito/fracaso)
🔷 Poisson (conteos)
🔷 Gamma/inversa (datos sesgados, positivos)
🚫 No → Profundicemos.
💡Una de las mejores herramientas que conozco (y de las que más recomiendo) es R Markdown… o su evolución, Quarto.
Siempre que puedo, la incluyo en los cursos/Másters que doy.👌
🧵👇 Hoy un hilo de experiencias y recursos en el que espero que participes con tus aportes.
#rstats
¿Por qué? Porque permite integrar código, resultados y explicaciones en un solo documento.
Eso ahorra tiempo, evita errores y, sobre todo, mejora la reproducibilidad y la comunicación de los análisis.
En mis clases suelo proponer a los estudiantes que reflexionen sobre:
🔹 ¿Qué ventajas concretas le han encontrado a R Markdown?
🔹 ¿Qué errores han podido evitar gracias a su uso?
🔹 ¿Qué les ha despertado curiosidad y les gustaría seguir explorando?
🔹 ¿Usas R Markdown o Quarto en tu trabajo? ¿Tienes alguna anécdota de error evitado (o cometido)?
👀 ¿Cómo evoluciona el análisis desde una comparación de medias simple (ANOVA / t-test), a un análisis de covarianza (ANCOVA) y finalmente a un modelo lineal general con interacción?
Vamos paso a paso, leyendo cada viñeta del gráfico de Adrian Olszewski 🙌:
#stats #datascience
1️⃣ ANOVA/t-test: Efecto principal no ajustado
Se comparan las medias de dos grupos (líneas horizontales morada y verde), ignorando cualquier otra covariable.
Comparación cruda, no se ajusta por covariables (e.g. eje X).
❗Puede haber confusión si esa covariable está relacionada.
2️⃣ANCOVA (igual pendiente): Efecto principal ajustado
Incluye una covariable continua (eje X) y estima el efecto del grupo ajustando por esa covariable.
Las líneas tienen la misma pendiente: se asume que la relación entre la covariable y el resultado es la misma en ambos grupos.
🚨 Una crítica válida y urgente a prácticas comunes de análisis de datos en la Ciencia🚨
🏆 La causalidad es el Santo Grial del análisis de datos: saber qué realmente causa qué. Pero, ¡cuidado! No es tan fácil como parece.
🧠 La causalidad (especialmente en medicina y salud pública) NO es como un interruptor de luz. 🔦 Prendes, se enciende. Apagas, se apaga. Fácil. La causalidad aquí es clara debido a mecanismos conocidos, resultados inmediatos y repetibles.
😱 Pero en otros ámbitos (como en la salud)… la cosa se complica. Factores como intervenciones poco definidas, sistemas complejos (biológicos/sociales) y mediciones imprecisas dificultan establecer la causalidad. 🤔
💣 Hay 3 tipos de investigadores que fracasan con esto: 👀
🤯 Por piensas que con solo mirar coeficientes y R² tienes todo bajo control en tu modelo de regresión... 🤨
🔥 El Cuarteto de Anscombe: Cuatro datasets, un mismo modelo… pero con realidades completamente distintas. 🔥
🧵Soluciones...👇
#stats #analytics #datascience #DataViz
Estos cuatro conjuntos de datos tienen:
✅ Misma media en X e Y
✅ Misma varianza
✅ Misma correlación
✅ Mismos coeficientes de regresión
✅ Mismo R²
📉 Pero cuando los graficas… descubres el desastre 🤯
💡 Errores clave en un modelo de regresión:
❌ 1. Asumir linealidad sin verificarla
No todas las relaciones son lineales. Ajustar una línea recta a un patrón curvo es un error clásico.
Solución: Graficar y evaluar modelos más flexibles como regresión con splines o GAM.
¿No sabes qué modelo de regresión usar? ¿Te confunden los términos LM, GLM, GAMM y demás siglas raras? 🌀 LO INTENTARÉ EXPLICAR RÁPIDAMENTE ⏳💥👇🧵
#stats #analytics #datascience
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM) (SI SE CUMPLEN SUS SUPUESTOS).
🚫 No → ¡Sigue leyendo! 👇
📢 PASO 2: ¿Tu variable respuesta es binaria, de conteo o de proporciones?
✅ Sí → Modelo Lineal Generalizado (GLM) (elige la familia adecuada: binomial, Poisson, gamma, etc.)
🚫 No → Vamos más profundo. 👇