🚫4. No evaluar los supuestos del modelo y su ajuste mediante gráficos.🎃
El Cuarteto de Anscombe: 4 conjuntos de datos con misma media, var, correlación, línea de regresión, etc. pero ¿En cuál tiene sentido ajustar una regresión lineal?😱👇 maximaformacion.es/blog-dat/error…
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵
Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇
🧪 Diagnóstico gráfico: lo que todo analista debería revisar:
🔍1️⃣ Residuos vs. valores ajustados
✔️ Ideal: dispersión aleatoria alrededor de 0 → indica linealidad y homocedasticidad
❌ Problemas:
Curvas = fallo en la linealidad
Forma de embudo = heterocedasticidad
🛠Solución: agrega términos no lineales o usa modelos con varianza flexible
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔
🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵
#DataScience #stats
📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos.
✨ La RESPUESTA está en el CÁLCULO del tamaño de muestra.
Objetivo: Tener suficientes muestras para detectar un efecto real sin exagerar con muestras innecesarias.
🔑 Factores clave en el cálculo del tamaño de muestra:
👀 ¿Te has preguntado qué estadísticos y gráficos usar para cada tipo de variable y estudio?
✨ Tanto la variación como la covariación son esenciales en el análisis de datos.
Aquí te lo resumo de forma sencilla 👇🧵
La VARIACIÓN se ocupa de la dispersión dentro de una variable
La COVARIACIÓN se centra en las relaciones entre múltiples variables
Utilizar correctamente estas herramientas estadísticas puede enriquecer cualquier análisis de datos y ayudar a obtener conclusiones más robustas.📈🔍
✅ Estudios de variación: 1 variable
👉 Variables Categóricas (Nominales y Ordinales)
Gráfico recomendado: ¡Gráficos de barras!
Estadístico clave: Frecuencias y porcentajes.
Ejemplo: ¿Qué color prefieres? ¿A quién votarás? ¿Eres fumador? 🌈🚭
🔥 Las pruebas estadísticas más comunes son TODAS modelos lineales. 🔥
🧠 Por lo tanto, en lugar de utilizar cientos de pruebas diferentes, ¿por qué no usar un modelo que realiza todas tus pruebas en una sola estructura flexible y robusta?
Te lo resumo en este post:👇🧵
🤔 Cuando piensas en ANOVA, t-tests, test de Mann-Whitney o test Chi-cuadrado, crees que estás aplicando métodos diferentes, pero la realidad es que todos son casos especiales del Modelo Lineal.
🌟 3 razones por las que los modelos de regresión lineal deben ser tu primera opción:
1️⃣ Las Pruebas Clásicas requieren demasiados Supuestos
Modelos como GLM, GEE o regresión cuantil pueden manejar distribuciones sesgadas, correlaciones y dependencias sin esfuerzo.
🚨Los datos ausentes están por todas partes🚨
👉Los NA pueden invalidar los resultados de tu estudio
👉Muchas funciones automáticas pueden no ser las más óptimas para manejarlos
👉El tratamiento incorrecto de los NA puede llevar a conclusiones erróneas o sesgadas
¿Qué hacer?👇🧵
👀 ¿Qué hacer con los NA? 🤔
1️⃣ Identifica los datos ausentes y comprende por qué faltan:
👉 Errores humanos
👉 Interrupciones en el flujo de datos (como meses sin registro)
👉 Problemas de privacidad
👉 Sesgo: Como cuando ciertos participantes del estudio tienen más NA que otros
¡El patrón de NAs es información clave para intentar solucionarlo! 🔑
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo?
¡No entres en pánico! 🧘♀️🧠 Un p > 0.05 no es el fin del análisis, sino el inicio de una buena reflexión.
🔥 1. Evita conclusiones simplistas
No estadísticamente significativo (discernible o detectable) ≠ No hay efecto
👉 El p-valor NO te dice si la hipótesis nula es verdadera. Solo indica la compatibilidad de los datos con esa hipótesis, asumiendo que sea cierta.
📏 2. Revisa el tamaño muestral
🔍 ¿Muestra pequeña? → Tal vez no hubo potencia suficiente para detectar el efecto.
💡 TIP: Usa análisis de sensibilidad para ver qué efecto podrías haber detectado.