Rosana Ferrero 📈📊🙌 Profile picture
Dec 28, 2022 5 tweets 6 min read Read on X
😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)

#RStats #analytics #stats #IA
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes
#ML #IA #DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE
#ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos.
#ML #IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento
#DataScience #MachineLearning #ML #IA

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Jul 20
🚨 Selección de variables automática: mucho cuidado 🚨

Históricamente, la regresión por pasos (stepwise) se ha vendido como un atajo automatizado para quedarnos con “las mejores” variables. Pero cuidado:

#DataScience #stats #ML Image
💣 La regresión por pasos no es la salvación, sino un generador de problemas

👉 Sobreajuste
👉 Estimaciones sesgadas
👉 Errores estándar subestimados
👉 Modelos inestables que cambian con un soplido de datos nuevos Image
Como advierte Frank Harrell (autor de "Regression Modeling Strategies"):

“Stepwise regression is important in developing predictive models only in the sense that it is important to avoid its use.”

En otras palabras: su principal valor es recordarnos que debemos huir de ella. Image
Read 7 tweets
Jul 13
🕵️ El sesgo de selección es la madre de todos los sesgos.
Porque tu investigación podría estar condenada antes de empezar.

Hoy hablamos del sesgo de selección, ese enemigo silencioso que distorsiona estudios académicos y decisiones de negocio. 👇

#stats #datascience #rstats Image
El sesgo de selección ocurre cuando el grupo que analizas no representa realmente a la población de interés.

Ejemplo: preguntar por el nivel educativo solo en bibliotecas. ¿Ves el problema? 📚

👉 ¿Por qué pasa?
👉 ¿Qué provoca?
👉 ¿Cómo evitarlo?

Te lo cuento en este post... Image
¿Por qué aparece este sesgo?
✅ Muestras por conveniencia
✅ Falta de criterios claros
✅ Datos históricos ya sesgados
✅ Solo responden los “fáciles”

👉 Caso extremo: sesgo por supervivencia. Ignora a los que no llegaron y engaña con los que sí.
+Info: linkedin.com/posts/rosanafe…Image
Read 6 tweets
Jul 12
👀📏 ¿Por qué tus estudios no convencen? El drama de las muestras pequeñas.

Este error se repite cada día en estudios académicos y proyectos empresariales. ¿Por qué ocurre? ¿Por qué es grave? ¿Cómo arreglarlo?

Te lo cuento en este post👇

#stats #datascience #samplesize #rstats Image
👉 ¿Por qué pasa?
❌ Presupuesto escaso
❌ Poco tiempo
❌ Mala planificación
❌ Dificultad para acceder a la población de interés

👉 ¿Por qué es grave?
😱 Pierdes potencia
🤯 Riesgo de conclusiones erróneas
🫣 Imposibles de replicar
😳 Decisiones de negocio mal fundamentadas Image
👉 ¿Cómo arreglarlo?
✅ Antes de empezar, calcula el tamaño muestral necesario con herramientas de potencia estadística y el diseño de estudio en mente (G*Power o R como {pwr}).

+Info:

#stats #datascience #analytics #research #samplesize linkedin.com/posts/rosanafe…Image
Read 5 tweets
Jul 9
😱 “Mis datos no son normales… ¿Y ahora qué hago?” 💥

💬 Una de las frases más comunes que escucho es:
“Hice la prueba de Shapiro-Wilk y me salió p < 0.05, así que mis datos no son normales. ¿Qué prueba uso ahora?”

📢 CUIDADO. Sigue leyendo... Image
Que tus datos no sean perfectamente normales no significa que tengas que abandonar todos los métodos clásicos o correr directamente a una prueba "no paramétrica".

🔑 Lo que realmente necesitas saber:
1️⃣ La normalidad es un supuesto de los errores (residuos), no de la respuesta directamente.
👉 Muchas pruebas estadísticas (t-test o ANOVA) asumen normalidad del error dentro del modelo, no de la respuesta en bruto.
🔎 Histogramas y Shapiro-Wilk no te dicen lo que necesitas saber
Read 9 tweets
Jul 1
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠

El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵
3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):

🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí? Image
🔄 2. ESTABILIDAD del agrupamiento
Realiza el clustering varias veces con diferentes subconjuntos.
Evalúa la CONSISTENCIA en los resultados.
👉 ¿Tu agrupación resiste los cambios en la muestra? Image
Read 8 tweets
Jun 26
⚽📊 ¿Qué hace un data scientist del fútbol?

El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.

#datascience Image
En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV Image
Image
👉 Modelos predictivos para prevenir lesiones
👉 Grafos para visualizar redes de pase
👉 Análisis de estilo de juego y búsqueda de fichajes similares

🔗 Enlace al post completo: maximaformacion.es/blog-ciencia-d…Image
Image
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(