😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes #ML#IA#DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE #ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos. #ML#IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento #DataScience#MachineLearning#ML#IA
• • •
Missing some Tweet in this thread? You can try to
force a refresh
🚨 Una crítica válida y urgente a prácticas comunes de análisis de datos en la Ciencia🚨
🏆 La causalidad es el Santo Grial del análisis de datos: saber qué realmente causa qué. Pero, ¡cuidado! No es tan fácil como parece.
🧠 La causalidad (especialmente en medicina y salud pública) NO es como un interruptor de luz. 🔦 Prendes, se enciende. Apagas, se apaga. Fácil. La causalidad aquí es clara debido a mecanismos conocidos, resultados inmediatos y repetibles.
😱 Pero en otros ámbitos (como en la salud)… la cosa se complica. Factores como intervenciones poco definidas, sistemas complejos (biológicos/sociales) y mediciones imprecisas dificultan establecer la causalidad. 🤔
💣 Hay 3 tipos de investigadores que fracasan con esto: 👀
🤯 Por piensas que con solo mirar coeficientes y R² tienes todo bajo control en tu modelo de regresión... 🤨
🔥 El Cuarteto de Anscombe: Cuatro datasets, un mismo modelo… pero con realidades completamente distintas. 🔥
🧵Soluciones...👇
#stats #analytics #datascience #DataViz
Estos cuatro conjuntos de datos tienen:
✅ Misma media en X e Y
✅ Misma varianza
✅ Misma correlación
✅ Mismos coeficientes de regresión
✅ Mismo R²
📉 Pero cuando los graficas… descubres el desastre 🤯
💡 Errores clave en un modelo de regresión:
❌ 1. Asumir linealidad sin verificarla
No todas las relaciones son lineales. Ajustar una línea recta a un patrón curvo es un error clásico.
Solución: Graficar y evaluar modelos más flexibles como regresión con splines o GAM.
¿No sabes qué modelo de regresión usar? ¿Te confunden los términos LM, GLM, GAMM y demás siglas raras? 🌀 LO INTENTARÉ EXPLICAR RÁPIDAMENTE ⏳💥👇🧵
#stats #analytics #datascience
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM) (SI SE CUMPLEN SUS SUPUESTOS).
🚫 No → ¡Sigue leyendo! 👇
📢 PASO 2: ¿Tu variable respuesta es binaria, de conteo o de proporciones?
✅ Sí → Modelo Lineal Generalizado (GLM) (elige la familia adecuada: binomial, Poisson, gamma, etc.)
🚫 No → Vamos más profundo. 👇
1️⃣🔥 Ocultan la variabilidad → ¡Pueden hacer que datos diferentes se vean iguales!😵
👉📊 Los barplots NO te muestran la forma real de los datos, solo la media y el error o la incertidumbre.
🚨Datos con distribuciones totalmente diferentes pueden parecer idénticos en un barplot.
2️⃣ 🤯 Malas comparaciones → ¡Pueden hacerte creer diferencias que no existen! 📉
👉📊 Si los tamaños de muestra son diferentes, los IC en los barplots pueden ser engañosos.
❌ Dos grupos =medias y !=N pueden generar IC que te hagan pensar que hay +o- incertidumbre de la real.
🔥 Crear gráficos con pruebas estadísticas suele requerir varios pasos, pero {ggstatsplot} lo hace todo en una sola línea de código. 👇🧵
✅ No necesitas copiar/pegar números en un informe: los gráficos ya contienen toda la información.
#rstats #stats #dataviz #datascience
🎯 #stats + #dataviz en 1 solo paso
✅ Gráficos con pruebas paramétricas, no paramétricas y robustas
✅ Formato APA listo para publicar 📑
✅ Muestra automáticamente N 📊
✅ Mezcla caja + violín para mejor visualización 🎻
✅ Incluye tamaños de efecto, IC y pruebas bayesianas
📌 Funciones:
📊 ggbetweenstats → Compara entre grupos (violín + caja)
📊 ggwithinstats → Compara dentro de grupos
📊 gghistostats → Histogramas
📊 ggscatterstats y ggcorrmat → Correlaciones
📊 ggbarstats y ggpiestats → Barras y pie
📊 ggcoefstats → Regresión y metaanálisis
🧐 Si quieres gráficos rápidos, elegantes y sin sufrir, prueba {tinyplot}🔥
✅ Gráficos en base R sin complicaciones
✅ Agrupaciones y leyendas automáticas en un solo paso
✅ Facetas sin sudar la gota gorda (olvídate de par(mfrow=...))
✅ Temas personalizables con un solo comando
📌 ¿Por qué deberías probar tinyplot?
1️⃣ Usa solo base R → sin dependencias, sin bloat.
2️⃣ Ultra ligero → instalación mínima, ideal para paquetes o scripts portables.
3️⃣ Drop-in replacement → si ya usas plot(), cambiar a tinyplot() es pan comido.
🎯 ¡Prueba esto AHORA MISMO en tu R! 🎯
install.packages("tinyplot")
library(tinyplot)