🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.
(Imagen de ReNom)
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve #DataScientists#stats#data
😉Sígueme para obtener más herramientas y recursos de #DataScience#ML#IA#RStats y aprende las mejores técnicas y enfoques.
𝐋𝐚 𝐩𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚 es 1−β: la probabilidad de evitar un 𝐞𝐫𝐫𝐨𝐫 𝐝𝐞 𝐭𝐢𝐩𝐨 II, es decir, de no pasar por alto un efecto real del tamaño especificado. Una potencia baja implica un alto riesgo de concluir que no hay efecto cuando sí existe.
#master
Por eso, el enfoque correcto no es basarse en el efecto esperado, sino en el 𝐭𝐚𝐦𝐚𝐧̃𝐨 𝐝𝐞𝐥 𝐞𝐟𝐞𝐜𝐭𝐨 𝐝𝐞 𝐢𝐧𝐭𝐞́𝐫𝐞𝐬 𝐦𝐚́s 𝐩𝐞𝐪𝐮𝐞𝐧̃𝐨 (𝐒𝐄𝐒𝐎𝐈). Esto define el umbral de relevancia científica o práctica que no queremos pasar por alto.
#cienciadedatos #phd
😱 ¿Tienes varias mediciones de un mismo sujeto, sensor o ciudad? ¡Cuidado! Tratarlas como si fueran observaciones independientes (e.g. tratar 25 mediciones de 5 sujetos como si fueran 25 sujetos distintos) es cometer pseudoreplicación. Y este error invalida tus conclusiones:👇🧵
1️⃣Inferencia
Al ignorar la dependencia, el modelo asume que cada dato aporta información nueva y única. Esto subestima el error estándar e infla los estadísticos de prueba.
Consecuencia: Aumentan los falsos positivos y se distorsionan artificialmente los intervalos de confianza.
2️⃣ Estimación de Efectos (Intra vs. Inter)
Impide distinguir entre la variabilidad intra-sujetos (cambios en el tiempo) y inter-sujetos (diferencias inherentes).
Consecuencia: Los efectos aparentan ser más precisos de lo que realmente son, y puedes caer en la Paradoja de Simpson.
⚽ En este post tienes una introducción divulgativa y práctica al papel del data scientist en el fútbol, explicando qué datos se generan, cómo se analizan y para qué se usan en la toma de decisiones deportivas.
Hoy cada partido y entrenamiento producen una avalancha de información que ya no se puede gestionar solo con intuición.
El data scientist entra en escena para responder preguntas que antes no tenían respuesta clara:
El fútbol sigue siendo emocional. Pero la toma de decisiones ya no lo es tanto.
Cada vez más clubes (grandes y pequeños) tienen equipos internos de datos. Porque decidir fichajes, rotaciones o planteamientos sin datos hoy es asumir desventaja estructural.
🚨𝗖𝗼́𝗺𝗼 𝗲𝘃𝗮𝗹𝘂𝗮𝗿 𝘂𝗻 𝗺𝗼𝗱𝗲𝗹𝗼 𝗽𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝘃𝗼: decenas de métricas... y mucha confusión
La evaluación de modelos predictivos está plagada de métricas (¡existen más de 30!), pero ¿Qué preguntas responden realmente?
𝟱 𝗱𝗶𝗺𝗲𝗻𝘀𝗶𝗼𝗻𝗲𝘀 conceptuales👇🧵
👉 Si no distingues estos dominios, estás evaluando mal el modelo, aunque los números “salgan bien”.
¿Cómo evaluar qué errores comete, con qué frecuencia y a qué coste?
#stats
▶︎ 𝗘𝗫𝗔𝗖𝗧𝗜𝗧𝗨𝗗 (𝗔𝗖𝗖𝗨𝗥𝗔𝗖𝗬)
Porcentaje total de aciertos.
⚠️ Si una clase es mayoritaria, un modelo trivial que siempre predice esa clase puede tener una exactitud alta sin capacidad predictiva real.
Debes superar la tasa de no información (% clase mayoritaria)
¿Qué revelan los residuos que no dicen los coeficientes ni los p-values ni las métricas de ajuste?
R² elevado, AIC bajo o accuracy aceptable no asegura que los errores estándar estén bien estimados, que los p-values tengan sentido o las predicciones fuera de muestra sean estables
La inferencia depende del comportamiento del residuo.
Coeficientes resumen una relación promedio bajo el modelo impuesto. P-values evalúan compatibilidad con una H0 bajo supuestos. Métricas de ajuste cuantifican cuánto explica el modelo.
👉Ninguno muestra cómo falla el modelo
Los residuos muestran:
- Estructura no modelada: patrones sistemáticos indican que falta una variable, una interacción, una no linealidad o una transformación.
- Heterogeneidad del error: varianza que cambia con el nivel de la respuesta o de los predictores.