🚫4. No evaluar los supuestos del modelo y su ajuste mediante gráficos.🎃
El Cuarteto de Anscombe: 4 conjuntos de datos con misma media, var, correlación, línea de regresión, etc. pero ¿En cuál tiene sentido ajustar una regresión lineal?😱👇 maximaformacion.es/blog-dat/error…
🚨 ¡Atención usuarios de Excel! 🚨
📊 Aproximadamente 1 de cada 8 personas en el planeta usa Excel 🤯 Este software es tan popular que muchas veces da la falsa sensación de que todo lo que se hace allí está libre de errores. Pero... ¡cuidado con los siguientes casos! 😱👇🧵
🔥 Desventajas de Excel vs herramientas avanzadas como R:
1️⃣ Errores manuales más frecuentes.
2️⃣ No es ideal para tareas complejas.
3️⃣ Menor automatización.
4️⃣ Difícil trazar/reproducir.
5️⃣ Visualización básica no interactiva.
6️⃣ Volumen.
7️⃣ Conversión de datos automática. 😳
Si usas Excel desactiva la conversión automática de datos o tus proyectos pueden acabar corruptos. Un estudio en 2016 encontró que ¡1 de cada 5 artículos científicos tenía errores por esto!😱
📅 Disponible desde 2022 para Windows y en 2024 para Mac.¡Pero no funciona con macros!❌
🤔 ¿Alguna vez te has preguntado qué significa realmente que falten datos y cómo afecta a tu análisis? Vamos a destapar lo que a menudo SE IGNORA sobre este tema👇
#rstats #stats #datascience #ML #dataviz
🔴 ¿Qué son los datos faltantes?
"datos que no tienes -quizás datos que desearías tener, o esperabas tener, o pensabas que tenías, pero que, de todos modos, no tienes. [...] los datos faltantes son al menos tan importantes como los datos que tienes". (David Hand)
🔴 ¿Por qué te deberían importar?
Cuando te faltan datos, tus resultados pueden estar MAL, pero no te das cuenta hasta que es demasiado tarde.😬 Los datos faltantes son inevitables y afectan la calidad del análisis, disminuyen la información disponible y pueden generan sesgos.
🔥 ¿Cómo integrar la Inteligencia Artificial Generativa (GenAI) en R?
💡 Aquí te dejo algunas herramientas interesantes que permiten integrar la GenAI en tu flujo de trabajo en R. 🧵👇
🚨 También algunas advertencias y consejos.
#RStats #GenAI #DataScience #AI #ChatGPT #RStats
1️⃣ {chattr} by @theotheredgar. Conecta tu código con LLMs como GitHub Copilot Chat y GPT 3.5 o 4 de OpenAI; también con LLaMa o GitHub Copilot. Usa una aplicación Shiny que se ejecuta dentro del IDE RStudio.
@theotheredgar 2️⃣ {ask} by @antoine_fabri ¿Te imaginas obtener el código para replicar un gráfico simplemente con una imagen de la web? Además, puedes pedir modificar el gráfico o realizar una consulta sobre él, todo en lenguaje natural.
🚨 ¡El R² no es lo que parece! 🚨 A menudo me preguntan cuál debe ser el valor deseable del R² o a partir de qué cifra podemos decir que nuestro modelo es adecuado. Pero esto no es tan sencillo como parece.🤯
💡 Aquí van algunas consideraciones importantes:
#Stats #datascience
🔥 El R² NO indica si el modelo es adecuado. Un R² alto no garantiza que el modelo se ajuste a los datos correctamente. Realiza un gráfico de dispersión para evaluar la relación entre las variables, gráficos de diagnóstico para evaluar si se cumplen los supuestos, etc..
#dataviz
🔥El R² depende de la variabilidad en los datos. La variabilidad natural de los fenómenos, las imprecisiones en las mediciones y la presencia de datos atípicos/influyentes.
👉Un análisis sólido se basa en más que un solo número. Analiza, interpreta y saca conclusiones valiosas.💡
💡 ¡Atención! 🚀 No todos los valores atípicos/influyentes son problemáticos. A veces, son clave para entender la variabilidad en nuestros datos.🤔 Si los eliminamos sin pensarlo, ¡podríamos sesgar nuestro modelo!😱
🔍 Antes de eliminar cualquier punto: ¡Evalúa!🧵
#stats #rstats
Pregúntate:
1️⃣ ¿Son errores de medición? Si son observaciones genuinas de la muestra, ¿Son atípicas o influyentes?
2️⃣ ¿Por qué? ¿Cómo impactan en el modelo?
Puedes comparar el modelo con y sin esos valores para evaluar cómo cambian los coeficientes o las predicciones 🧐
📊 Para ello, utiliza la función influence.measures() de #rstats.
👉 Analiza cambios en las predicciones (dffit), coeficientes (dfb), covarianza (cov.r), impacto total (cook.d), cuán lejos están tus observaciones de los promedios (hat).
Si encuentras un asterisco, ¡atención!🚨
😈 Los 7 Pecados Estadísticos que Incluso algunos Expertos Cometen
🚨 ¿Te consideras un experto en estadística? Entonces, ¡presta atención! Incluso los profesionales más experimentados caen en estos 7 pecados estadísticos que pueden arruinar cualquier análisis de datos. 🧵👇
🚫 ERROR 1: No realizar una investigación reproducible 😱
😤 ¿Cuántas veces has tenido que rehacer un análisis completo por un simple error o cambio en los datos?
💡Usa R, RMarkdown/Quarto para asegurar que tu trabajo sea 100% reproducible, y actualiza automáticamente tu trabajo.
🚫 ERROR 2: No preparar tus datos adecuadamente para su análisis 🙄
🗑️ Basura entra, basura sale. Algunos datos erróneos pueden arruinar el resto del análisis, igual que una manzana podrida en un cesto.
🎯Dedica el 80% de tu tiempo a limpiar y preparar tus datos para el análisis.