😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes #ML#IA#DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE #ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos. #ML#IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento #DataScience#MachineLearning#ML#IA
• • •
Missing some Tweet in this thread? You can try to
force a refresh
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨
¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯
#stats #rstats #DataScience
💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot
📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵
#stats
❌ 8 razones para dejar de usar barplots para datos continuos
1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales.
2️⃣ Dan una falsa sensación de certeza
Representar solo la media ± error estándar (SE) o desviación típica (SD) induce a interpretaciones erróneas, especialmente con muestras pequeñas.
El SE puede exagerar visualmente las diferencias entre grupos.
@AdrianOlszewski 1. "La regresión logística no es una regresión". Error! Existe un malentendido del término "regresión" en estadística, que realmente incluye modelos como la regresión logística.
@AdrianOlszewski 2."El p-valor es la probabilidad de que la H0 sea verdadera". Error! Mide la probabilidad de obtener los datos observados o +extremos, asumiendo que H0 es cierta (y los supuestos se cumplen). Un p-valor alto indica que no hay suficiente evidencia contra H0, no que sea verdadera.
🎯 ¿Quieres que tus clusters realmente representen la estructura de tus datos? Entonces no te olvides de escalar.
💡 Escalar bien tus datos puede cambiar radicalmente los resultados que obtienes. Aquí te explico por qué y cómo hacerlo mejor. 👇
#MachineLearning #DataScience
🧠 En el análisis de datos, hay decisiones que parecen “detalles técnicos” pero que cambian radicalmente los resultados. El escalado de características (feature scaling) es una de ellas. ¿Por qué es tan crucial cuando usamos algoritmos como el k-means?
#clustering #ML #KMeans
🔍 k-means agrupa observaciones minimizando distancias (normalmente euclidianas) a los centroides. ¿El problema? Si tus variables están en unidades diferentes (e.g. edad e ingresos), las de mayor rango dominan el cálculo de distancias. Resultado: clústeres sesgados.💥
📊 Errores comunes al analizar e interpretar datos (y cómo evitarlos)
En plena era de los datos, cometer errores al analizarlos puede salir muy caro.
👇🧵 Aquí tienes un repaso de los errores más comunes.
#stats #datascience #analytics #rstats
🔍 1. No tener claro el objetivo del estudio
¿Estás describiendo, explicando o prediciendo? No es lo mismo.
Ese objetivo define qué datos necesitas, cómo analizarlos y cómo interpretar los resultados.
📏 2. Usar muestras demasiado pequeñas
Muestras pequeñas pueden llevar a sobreajuste, baja precisión y falta de potencia.
Las reglas del pulgar no sirven. Calcula el tamaño muestral con fundamento.
🚨 ¿Todavía haces análisis complejos en hojas de cálculo? ¡🚨
Las hojas de cálculo son omnipresentes, versátiles y familiares, pero cuando se trata de análisis de datos complejos o decisiones críticas… se transforman en una bomba de relojería.💣👇🧵
#rstats #excel #spss #stats
💥 La cruda realidad: los errores son la norma, no la excepción
Estudios sistemáticos han demostrado que los errores en hojas de cálculo son tan comunes como invisibles. No hablamos solo de equivocarse al teclear un número. Hablamos de Errores lógicos, Fórmulas, Cambios, etc.!
Según Panko (2008), en grandes hojas de cálculo, no se trata de si hay errores, sino de cuántos hay. 💥
Y esto no es anecdótico: