😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes #ML#IA#DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE #ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos. #ML#IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento #DataScience#MachineLearning#ML#IA
• • •
Missing some Tweet in this thread? You can try to
force a refresh
🔥🔥 Mis post más populares sobre #stats #datascience y #analytics en 2024 🔥🔥
✨Este año ha estado lleno de aprendizajes, reflexiones y debates apasionantes. Aquí tienes los artículos sobre estadística y análisis de datos que más resonaron en la comunidad. ¿Te los perdiste?👇🏻
🎯 Conceptos que DESPEJAN dudas:
✅ ¿Por qué APRENDER estadística si el SOFTWARE/IA lo puede hacer todo por ti? buff.ly/41RK8WW
✅ ¿Cómo definir preguntas de investigación adecuadas? buff.ly/3Pdddof
✅ Valores atípicos e incluyentes: buff.ly/3PdlRDe
💡 Los IC, tan populares en investigación, a menudo se malinterpretan y se utilizan para obtener conclusiones equivocadas. 🧠
🔍 Lo que crees vs. Lo que realmente son los IC: 👇🧵🔥
#stats #rstats #analytics #datascience #data
Mito 1️⃣
❌ Un IC del 95% contiene el valor verdadero del parámetro con una probabilidad del 95%.
✅ Realidad: No. El IC solo garantiza que, si repites el muestreo, el 95% de los IC incluirán el valor verdadero. Es sobre los procedimientos repetidos, ¡no sobre un IC específico!😬
Mito 2️⃣
❌ El ancho del IC mide directamente la precisión de la estimación.
✅ Realidad: No
👉 Variabilidad en los datos: Más variabilidad → IC más amplio.
👉 Tamaño de la muestra: Muestras más grandes → IC más estrecho.
👉 Nivel de confianza elegido: Mayor NC → IC más amplio.
😱 El error más frecuente de un análisis de datos... ¡SÍ, ESTÁ AQUÍ! 🔥
¿Crees que los valores atípicos y valores ausentes son el peor enemigo en tu análisis? Pfff, amateur. El verdadero peligro acecha en un rincón mucho más oscuro: ¡la falta de contexto! 💣
#stats #datascience
🧐 El verdadero reto en un análisis de datos no es la preparación de datos ni la elección de algoritmos, sino el diseño de estudio y la pregunta de investigación. Sin una base sólida, todo tu análisis será como un castillo de naipes. 🏰🌪️
#analytics #research #Investigación
💡 Un diseño de estudio adecuado es la base de todo
🎯 La calidad de los resultados no solo depende de la calidad de los datos y el modelo seleccionado, sino también de la validez del diseño de estudio que les dio forma. buff.ly/3OEeeWc
👀 ¿Qué pasaría si el PCA hiciera su propio informe? 🤖
🔥 Con FactoInvestigate, el análisis de componentes principales (PCA) no solo examina tus datos, ¡también genera un informe completo automáticamente! 📝 Pero aquí está lo importante: el control siempre es tuyo.💪🧵
#rstats
😱 Con el FactoInvestigate en R puedes generar un informe completo en solo una línea de código.🚀
💡¿Qué es el PCA y por qué usarlo?
✅ Reducir la dimensión de tus datos sin perder información clave
✅ Identificar componentes más informativos
✅ Visualizar relaciones y patrones
🛠️ ¿Qué hace FactoInvestigate?
Automatiza todo el análisis:
🔍 Detecta valores atípicos automáticamente
📊 Identifica los componentes principales más relevantes
📈 Genera gráficos claros y llamativos para explorar tus datos
📝 Describe dimensiones y variables de manera sencilla
🔥 ¿Cuál es el problema?
Cada prueba estadística tiene una probabilidad de error tipo I (rechazar una hipótesis nula verdadera).
⏩ Realizas 1 prueba → Error esperado: 5% (si 𝛼=0.05).
⏩ Realizas 100 pruebas → Probabilidad de al menos 1 error: ¡casi el 100%! 😬
Se llama Tasa de Error por Experimento (EER), y si no ajustas, tus resultados podrían ser pura casualidad.
💡 ¿Cuándo ajustar?
1️⃣ Estudios confirmatorios:
Es obligatorio si combinas múltiples pruebas en una conclusión final.
Ej: Ensayos clínicos que comparan varios tratamientos