🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.
(Imagen de ReNom)
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve #DataScientists#stats#data
😉Sígueme para obtener más herramientas y recursos de #DataScience#ML#IA#RStats y aprende las mejores técnicas y enfoques.
🚨 ¡Atención usuarios de Excel! 🚨
📊 Aproximadamente 1 de cada 8 personas en el planeta usa Excel 🤯 Este software es tan popular que muchas veces da la falsa sensación de que todo lo que se hace allí está libre de errores. Pero... ¡cuidado con los siguientes casos! 😱👇🧵
🔥 Desventajas de Excel vs herramientas avanzadas como R:
1️⃣ Errores manuales más frecuentes.
2️⃣ No es ideal para tareas complejas.
3️⃣ Menor automatización.
4️⃣ Difícil trazar/reproducir.
5️⃣ Visualización básica no interactiva.
6️⃣ Volumen.
7️⃣ Conversión de datos automática. 😳
Si usas Excel desactiva la conversión automática de datos o tus proyectos pueden acabar corruptos. Un estudio en 2016 encontró que ¡1 de cada 5 artículos científicos tenía errores por esto!😱
📅 Disponible desde 2022 para Windows y en 2024 para Mac.¡Pero no funciona con macros!❌
🤔 ¿Alguna vez te has preguntado qué significa realmente que falten datos y cómo afecta a tu análisis? Vamos a destapar lo que a menudo SE IGNORA sobre este tema👇
#rstats #stats #datascience #ML #dataviz
🔴 ¿Qué son los datos faltantes?
"datos que no tienes -quizás datos que desearías tener, o esperabas tener, o pensabas que tenías, pero que, de todos modos, no tienes. [...] los datos faltantes son al menos tan importantes como los datos que tienes". (David Hand)
🔴 ¿Por qué te deberían importar?
Cuando te faltan datos, tus resultados pueden estar MAL, pero no te das cuenta hasta que es demasiado tarde.😬 Los datos faltantes son inevitables y afectan la calidad del análisis, disminuyen la información disponible y pueden generan sesgos.
🔥 ¿Cómo integrar la Inteligencia Artificial Generativa (GenAI) en R?
💡 Aquí te dejo algunas herramientas interesantes que permiten integrar la GenAI en tu flujo de trabajo en R. 🧵👇
🚨 También algunas advertencias y consejos.
#RStats #GenAI #DataScience #AI #ChatGPT #RStats
1️⃣ {chattr} by @theotheredgar. Conecta tu código con LLMs como GitHub Copilot Chat y GPT 3.5 o 4 de OpenAI; también con LLaMa o GitHub Copilot. Usa una aplicación Shiny que se ejecuta dentro del IDE RStudio.
@theotheredgar 2️⃣ {ask} by @antoine_fabri ¿Te imaginas obtener el código para replicar un gráfico simplemente con una imagen de la web? Además, puedes pedir modificar el gráfico o realizar una consulta sobre él, todo en lenguaje natural.
🚨 ¡El R² no es lo que parece! 🚨 A menudo me preguntan cuál debe ser el valor deseable del R² o a partir de qué cifra podemos decir que nuestro modelo es adecuado. Pero esto no es tan sencillo como parece.🤯
💡 Aquí van algunas consideraciones importantes:
#Stats #datascience
🔥 El R² NO indica si el modelo es adecuado. Un R² alto no garantiza que el modelo se ajuste a los datos correctamente. Realiza un gráfico de dispersión para evaluar la relación entre las variables, gráficos de diagnóstico para evaluar si se cumplen los supuestos, etc..
#dataviz
🔥El R² depende de la variabilidad en los datos. La variabilidad natural de los fenómenos, las imprecisiones en las mediciones y la presencia de datos atípicos/influyentes.
👉Un análisis sólido se basa en más que un solo número. Analiza, interpreta y saca conclusiones valiosas.💡
💡 ¡Atención! 🚀 No todos los valores atípicos/influyentes son problemáticos. A veces, son clave para entender la variabilidad en nuestros datos.🤔 Si los eliminamos sin pensarlo, ¡podríamos sesgar nuestro modelo!😱
🔍 Antes de eliminar cualquier punto: ¡Evalúa!🧵
#stats #rstats
Pregúntate:
1️⃣ ¿Son errores de medición? Si son observaciones genuinas de la muestra, ¿Son atípicas o influyentes?
2️⃣ ¿Por qué? ¿Cómo impactan en el modelo?
Puedes comparar el modelo con y sin esos valores para evaluar cómo cambian los coeficientes o las predicciones 🧐
📊 Para ello, utiliza la función influence.measures() de #rstats.
👉 Analiza cambios en las predicciones (dffit), coeficientes (dfb), covarianza (cov.r), impacto total (cook.d), cuán lejos están tus observaciones de los promedios (hat).
Si encuentras un asterisco, ¡atención!🚨
😈 Los 7 Pecados Estadísticos que Incluso algunos Expertos Cometen
🚨 ¿Te consideras un experto en estadística? Entonces, ¡presta atención! Incluso los profesionales más experimentados caen en estos 7 pecados estadísticos que pueden arruinar cualquier análisis de datos. 🧵👇
🚫 ERROR 1: No realizar una investigación reproducible 😱
😤 ¿Cuántas veces has tenido que rehacer un análisis completo por un simple error o cambio en los datos?
💡Usa R, RMarkdown/Quarto para asegurar que tu trabajo sea 100% reproducible, y actualiza automáticamente tu trabajo.
🚫 ERROR 2: No preparar tus datos adecuadamente para su análisis 🙄
🗑️ Basura entra, basura sale. Algunos datos erróneos pueden arruinar el resto del análisis, igual que una manzana podrida en un cesto.
🎯Dedica el 80% de tu tiempo a limpiar y preparar tus datos para el análisis.