😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes #ML#IA#DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE #ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos. #ML#IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento #DataScience#MachineLearning#ML#IA
• • •
Missing some Tweet in this thread? You can try to
force a refresh
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠
El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵
3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):
🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí?
🔄 2. ESTABILIDAD del agrupamiento
Realiza el clustering varias veces con diferentes subconjuntos.
Evalúa la CONSISTENCIA en los resultados.
👉 ¿Tu agrupación resiste los cambios en la muestra?
El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.
#datascience
En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV
👉 Modelos predictivos para prevenir lesiones
👉 Grafos para visualizar redes de pase
👉 Análisis de estilo de juego y búsqueda de fichajes similares
✨ Elegir la prueba de hipótesis correcta (o el modelo correcto) para una repuesta continua no es solo un "ANOVA vs. Kruskal-Wallis" o "t-test vs Mann-Whitney".
👇 Hay 6 aspectos clave que debes considerar antes de tomar una decisión:🚀
#stats #datascience #analytics #research
1️⃣ ¿Qué quieres comparar?
📉 Igualdad de medias
📈 igualdad de medianas (según la distribución de los datos).
💨 Equivalencia estocástica (los grupos son similares en distribución) vs Superioridad estocástica (un grupo tiende a valores mayores que otro).
⚠️ Advertencias clave
👉 El método debe elegirse según H0 y la pregunta de investigación, no según la distribución de los datos.
👉 "No paramétrico" no significa "sin supuestos" ni "sin problemas".
👉 Métodos como Mann-Whitney o pruebas de rangos modifican la hipótesis original.
📢 ¡Ya puedes descargar GRATIS nuestras guías rápidas de RStudio y R Software en español!
👀 ¿Estás empezando en Data Science con R y no sabes por dónde comenzar?
👉 Tenemos justo lo que necesitas: cheat sheets validadas por RStudio con lo esencial para arrancar con buen pie.👇
✨ Visuales, prácticas y fáciles de imprimir o tener a mano mientras trabajas.
🔹 ¿Qué encontrarás?
✔️ Guía rápida del IDE de RStudio
✔️ Guía rápida de Estadística Descriptiva con R y ggplot2
✔️ Guía rápida del lenguaje R: operadores, funciones básicas, estructuras de datos y más
📌 Son recursos diseñados para ayudarte a organizar el conocimiento por tareas y ganar fluidez sin memorizarlo todo.
💬 Como dice Garret Grolemund (RStudio):
“Las cheat sheets son ayudas visuales para acercarte rápidamente a las funciones que necesitas.”
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨
¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯
#stats #rstats #DataScience
💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot
📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵
#stats
❌ 8 razones para dejar de usar barplots para datos continuos
1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales.
2️⃣ Dan una falsa sensación de certeza
Representar solo la media ± error estándar (SE) o desviación típica (SD) induce a interpretaciones erróneas, especialmente con muestras pequeñas.
El SE puede exagerar visualmente las diferencias entre grupos.