🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.
(Imagen de ReNom)
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve #DataScientists#stats#data
😉Sígueme para obtener más herramientas y recursos de #DataScience#ML#IA#RStats y aprende las mejores técnicas y enfoques.
🔥 EDA Automático con R y Python 🔥
👀 El EDA es clave al trabajar con datos, ayuda a comprender y preparar los datos antes de modelar. R y Python ofrecen herramientas automáticas, pero ¡usa siempre con responsabilidad y ética! 🚨
#DataScience #RStats #Python #stats #dataviz
🚀 ¿Por qué realizar un EDA automático?
🔧 Herramientas para EDA Automático
En R:
DataExplorer
dataMaid
SmartEDA
skimr
GGally
En Python:
pandas_profiling
sweetviz
Dython
ydata-profiling
dtale
autoviz
📢 Guía práctica para la inferencia estadística 📊
La inferencia estadística es fundamental para analizar datos y tomar decisiones informadas. Sin embargo, elegir el método correcto puede ser un desafío. Aquí tienes algunas estrategias clave para 5 problemas comunes:🧵👇
#stats
🔍 1. Comparación de medias en datos no Normales pero población simétrica y unimodal:
❌ No confíes en n > 30
❌ No uses Wilcoxon, ya que cambia la hipótesis nula
✅ Usa pruebas t de Welch por permutación o con bootstrap
✅ Con valores atípicos, prueba Yuen-Welch por permutación
📐 2. Comparación de medianas
Las pruebas Mann-Whitney o Kruskal-Wallis:
❌ No comparan medianas sin IID y simetría.
❌ No permiten análisis con múltiples factores o covariables
✅ Usa regresión cuantílica o prueba Mood-Brown
✅ Usa regresión logística ordinal o ART-ANOVA
🔥🤖 IA en #RStats: Opciones y Precauciones🧠📊
Desde hace un tiempo, vengo explorando cómo utilizar la IA para programar en R: ¿Podría ser un cambio interesante? ¿Qué hay que tener en cuenta? ¿Qué opciones hay? Dejo algunas de mis reflexiones para que compartamos experiencias.🧵
La IA puede ser útil, pero también puede generar código incorrecto, reforzar sesgos y fomentar la dependencia. Usarla con responsabilidad implica verificar, interpretar y contextualizar, no aceptar ciegamente sus sugerencias. 🚦
#IA #CódigoSeguro #stats #RStats
🤔¿Qué se espera de la IA? Permitir escribir código más rápido, reducir errores mediante asistencia en depuración y explicación del código, enfocarnos más en el análisis en lugar de en la sintaxis; pero esto siempre y cuando no nos vuelva menos críticos con nuestro propio código.
😈 Los 7 Pecados Estadísticos Más Comunes y Graves 🚨
¡Atención! Estos errores pueden destruir cualquier análisis de datos, ¡y son más comunes de lo que crees! 😱
Pero no te preocupes, te diré cómo resolverlos. Sigue leyendo... 👇
#stats #datascience #analytics #HorrorStats
🚫 ERROR 1: No hacer tu investigación reproducible 😱
😤 ¿Te ha pasado tener que rehacer todo por un pequeño error?
💡 Usa R, RMarkdown o Quarto para que tu trabajo sea 100% reproducible y se actualice automáticamente.
+Info: buff.ly/2x97p6z
🚫 ERROR 2: No limpiar tus datos correctamente 🙄
🗑️ Basura entra, basura sale. Un error de datos puede arruinar todo el análisis.
🎯 Dedica el 80% del tiempo a limpiar y preparar tus datos.
+Info: buff.ly/3E8lgjG
🔥 Una muy buena opción para aprender visualización de datos online 🔥
🌟 ¿Quieres aprender visualización de datos con ejercicios interactivos y acceso a todo el código fuente? 🌟 Te voy a contar cómo funciona esta web alucinante que ha montado Claus Wilke.
#dataviz #stats
🧠 Un sitio web diseñado para aprender de forma activa:
Este curso online utiliza Quarto Live, lo que significa que puedes practicar en vivo directamente desde la página. 🎯 ¡No más excusas para no probar lo que estás aprendiendo al instante!
💻 Código fuente en GitHub:
¿Te gusta ver qué hay "detrás de la magia"? 🪄 Aquí no hay secretos: ¡todo el código para las diapositivas y hojas de trabajo está disponible en un repositorio público de GitHub! 🧑💻✨ Comprende cómo se construyen las visualizaciones y adáptalas.
💡 A menudo le advierto a mis alumnos: No todos los valores atípicos (outliers) son villanos en tu análisis de datos. A veces, ¡son los héroes! 🤔
🚨 NO elimines los valores atípicos de forma predeterminada. ¡Podrías estar destruyendo tu análisis!
Antes evalúa lo siguiente:👇
1️⃣ ¿Qué es un valor atípico?
👉 “un valor atípico es una observación que se desvía tanto de las otras observaciones que despierta sospechas de que ha sido generada por un mecanismo diferente” (Hawkins 1980).
👀 ¿Qué constituye una desviación “suficiente”?
#stats #outliers
2️⃣ ¿Por qué están ahí?
Los outliers tienen su origen en tres causas (ver imagen).
🔍 Ve a la fuente, utiliza tu conocimiento del área y el contexto del estudio para evaluarlo.