Rosana Ferrero 📈📊🙌 Profile picture
Dec 28, 2022 5 tweets 6 min read Read on X
😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)

#RStats #analytics #stats #IA
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes
#ML #IA #DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE
#ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos.
#ML #IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento
#DataScience #MachineLearning #ML #IA

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Dec 16
🤔Hace poco, Daniel Lakens publicó una sátira brillante sobre lo que él llama el "Trastorno de Bayesianismo Dogmático".Aunque el tono es humorístico, el mensaje de fondo es vital para cualquiera que trabaje con datos: el tribalismo metodológico está frenando el avance científico. Image
Como profesionales, a menudo nos vemos atrapados en la guerra entre Frecuentistas y Bayesianos. Pero, ¿y si el camino hacia una ciencia más robusta no fuera elegir un bando, sino aprender a usar toda la caja de herramientas?

Aquí algunas reflexiones para superar esta división:
1️⃣Un carpintero no se define como "seguidor del martillo" en oposición al "culto del destornillador".El enfoque frecuentista y el bayesiano no son dogmas de fe. Cada uno responde a preguntas ligeramente diferentes. La robustez nace de saber qué herramienta aplicar a cada problema
Read 10 tweets
Dec 15
💡La inferencia estadística es un sistema de gestión de riesgos, relevancia y recursos. Los 3 pilares que todo investigador debe dominar:
1. Controla el riesgo (Justifica tu alfa)
2. Asegura la relevancia (Define tu SESOI)
3. Optimiza la eficiencia (Usa Análisis Secuenciales) Image
1️⃣ Control: Justificar el Nivel de Alfa (Riesgo a Largo Plazo)
Limita la probabilidad de cometer un Error Tipo I (falso positivo) a un nivel deseado (aproximación frecuentista). Así no haces afirmaciones falsas con demasiada frecuencia. Image
2️⃣ Relevancia: Definir Efectos Mínimos de Interés (SESOI)
La aproximación frecuentista no solo sirve para evaluar la hipótesis del efecto nulo (H0: mu = 0; útil en algunos casos y no tanto en otros) también permite evaluar efectos no nulos de interés (como el SESOI). Image
Read 6 tweets
Dec 13
📊 ¿Tu modelo realmente funciona bien?
Muchos modelos se crean… pero pocos se diagnostican a fondo. Si trabajas con modelos de regresión en R, este recurso puede ahorrarte tiempo y sustos.👇🧵

#stats #rstats #datascience #dataviz #analytics Image
📦 performance permite evaluar los supuestos de tus modelos:
✅ check_collinearity() Detecta predictores muy correlacionados
✅ check_normality() Evalúa si los residuos siguen una distribución normal
✅ check_heteroscedasticity() Evalúa si la varianza de los residuos es constante Image
Lo mejor:
👉 check_model() → Una sola función para un diagnóstico visual completo en segundos.

🚀 Más posibilidades con performance:
- Obtén métricas como R², AIC, BIC, RMSE, ICC…
- Diagnostica modelos mixtos, con sobredispersión o inflación cero. Image
Read 5 tweets
Dec 9
🚨El R² engaña. Más de lo que muchos admiten.🙈
Se repite como un mantra: “R² alto = modelo bueno”. La simplificación es cómoda, pero intelectualmente pobre.
Esto es lo que le enseño a mis alumnos en clase: 👇🧵

#stats #datacience #analytics #master #formacion #cienciadedatos Image
El R² no evalúa adecuación, no valida supuestos y no tiene capacidad para anticipar precisión predictiva. La obsesión con encontrar un “valor mínimo aceptable” revela un malentendido estadístico arraigado.

Cuatro enseñanzas clave sobre lo que NO indica el R2: 👇
1️⃣ No evalúa adecuación.
Un ajuste puede producir un R² excelente y, aun así, incumplir supuestos básicos: no linealidad, heterocedasticidad, residuos estructurados, influencia de pocos puntos. La métrica no detecta nada de esto.
Read 9 tweets
Dec 8
⚠️Una tentación peligrosa: forzar los datos para que se ajusten a los supuestos de un modelo estadístico.
La limpieza y la transformación de datos son prácticas esenciales, pero cruzar la línea con una manipulación excesiva puede llevarnos a conclusiones y decisiones erróneas.🧵 Image
🧐 ¿Qué son los Supuestos del Modelo?
Los modelos estadísticos, como la Regresión Lineal Simple o el ANOVA, se construyen sobre ciertas condiciones que, si se cumplen, garantizan que los estimadores (los coeficientes o efectos que calculamos) sean insesgados y eficientes.
👉 El Peligro de la Transformación:
Cuando los supuestos no se cumplen, algunos utilizan la transformación de variables para que todo encaje: log(x), sqrt(x) o 1/x pueden corregir problemas como la asimetría, la heterocedasticidad o la no linealidad, pero... existen riesgos.
Read 8 tweets
Dec 6
🚨𝐃𝐞𝐣𝐚 𝐝𝐞 𝐜𝐨𝐩𝐢𝐚𝐫 𝐲 𝐩𝐞𝐠𝐚𝐫 para generar informes.🚨
Si trabajas con datos, ya sabes lo que supone cambiar una fecha, ejecutar todo el script y cruzar los dedos.
La alternativa profesional es otra: parametrizar.👇🧵

#stats #datascience #analytics #dataviz #rstats
Herramientas como R Markdown/Quarto permiten definir 𝐩𝐚𝐫á𝐦𝐞𝐭𝐫𝐨𝐬 𝐝𝐞 𝐞𝐧𝐭𝐫𝐚𝐝𝐚, convirtiendo tu informe en una 𝐩𝐥𝐚𝐧𝐭𝐢𝐥𝐥𝐚 𝐝𝐢𝐧á𝐦𝐢𝐜𝐚.
👉 Un único script; cientos de resultados distintos.
Cambio la sucursal o la especie, y genero el informe específico. Image
⏱️ Eficiencia
Genera informes para cada región, producto o periodo sin reescribir nada. Solo cambias el parámetro y renderizas. Horas de trabajo reducidas a segundos.

✅ Reproducibilidad
Código limpio, evita errores manuales. Una mejora radical en trazabilidad y auditoría. Image
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(