😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes #ML#IA#DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE #ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos. #ML#IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento #DataScience#MachineLearning#ML#IA
• • •
Missing some Tweet in this thread? You can try to
force a refresh
👀📏 ¿Por qué tus estudios no convencen? El drama de las muestras pequeñas.
Este error se repite cada día en estudios académicos y proyectos empresariales. ¿Por qué ocurre? ¿Por qué es grave? ¿Cómo arreglarlo?
Te lo cuento en este post👇
#stats #datascience #samplesize #rstats
👉 ¿Por qué pasa?
❌ Presupuesto escaso
❌ Poco tiempo
❌ Mala planificación
❌ Dificultad para acceder a la población de interés
👉 ¿Por qué es grave?
😱 Pierdes potencia
🤯 Riesgo de conclusiones erróneas
🫣 Imposibles de replicar
😳 Decisiones de negocio mal fundamentadas
👉 ¿Cómo arreglarlo?
✅ Antes de empezar, calcula el tamaño muestral necesario con herramientas de potencia estadística y el diseño de estudio en mente (G*Power o R como {pwr}).
😱 “Mis datos no son normales… ¿Y ahora qué hago?” 💥
💬 Una de las frases más comunes que escucho es:
“Hice la prueba de Shapiro-Wilk y me salió p < 0.05, así que mis datos no son normales. ¿Qué prueba uso ahora?”
📢 CUIDADO. Sigue leyendo...
Que tus datos no sean perfectamente normales no significa que tengas que abandonar todos los métodos clásicos o correr directamente a una prueba "no paramétrica".
🔑 Lo que realmente necesitas saber:
1️⃣ La normalidad es un supuesto de los errores (residuos), no de la respuesta directamente.
👉 Muchas pruebas estadísticas (t-test o ANOVA) asumen normalidad del error dentro del modelo, no de la respuesta en bruto.
🔎 Histogramas y Shapiro-Wilk no te dicen lo que necesitas saber
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠
El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵
3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):
🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí?
🔄 2. ESTABILIDAD del agrupamiento
Realiza el clustering varias veces con diferentes subconjuntos.
Evalúa la CONSISTENCIA en los resultados.
👉 ¿Tu agrupación resiste los cambios en la muestra?
El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.
#datascience
En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV
👉 Modelos predictivos para prevenir lesiones
👉 Grafos para visualizar redes de pase
👉 Análisis de estilo de juego y búsqueda de fichajes similares