Rosana Ferrero 📈📊🙌 Profile picture
Dec 28, 2022 5 tweets 6 min read Read on X
😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)

#RStats #analytics #stats #IA
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes
#ML #IA #DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE
#ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos.
#ML #IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento
#DataScience #MachineLearning #ML #IA

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Nov 15
🤔 ¿Alguna vez te has preguntado qué significa realmente que falten datos y cómo afecta a tu análisis? Vamos a destapar lo que a menudo SE IGNORA sobre este tema👇

#rstats #stats #datascience #ML #dataviz Image
🔴 ¿Qué son los datos faltantes?
"datos que no tienes -quizás datos que desearías tener, o esperabas tener, o pensabas que tenías, pero que, de todos modos, no tienes. [...] los datos faltantes son al menos tan importantes como los datos que tienes". (David Hand) Image
🔴 ¿Por qué te deberían importar?
Cuando te faltan datos, tus resultados pueden estar MAL, pero no te das cuenta hasta que es demasiado tarde.😬 Los datos faltantes son inevitables y afectan la calidad del análisis, disminuyen la información disponible y pueden generan sesgos. Image
Read 7 tweets
Nov 7
🔥 ¿Cómo integrar la Inteligencia Artificial Generativa (GenAI) en R?

💡 Aquí te dejo algunas herramientas interesantes que permiten integrar la GenAI en tu flujo de trabajo en R. 🧵👇

🚨 También algunas advertencias y consejos.
#RStats #GenAI #DataScience #AI #ChatGPT #RStats
1️⃣ {chattr} by @theotheredgar. Conecta tu código con LLMs como GitHub Copilot Chat y GPT 3.5 o 4 de OpenAI; también con LLaMa o GitHub Copilot. Usa una aplicación Shiny que se ejecuta dentro del IDE RStudio.

👉buff.ly/3UL7aJP
buff.ly/4dI8EgB
@theotheredgar 2️⃣ {ask} by @antoine_fabri ¿Te imaginas obtener el código para replicar un gráfico simplemente con una imagen de la web? Además, puedes pedir modificar el gráfico o realizar una consulta sobre él, todo en lenguaje natural.

👉 buff.ly/3Ya1b3d
Read 8 tweets
Nov 4
🚨 ¡El R² no es lo que parece! 🚨 A menudo me preguntan cuál debe ser el valor deseable del R² o a partir de qué cifra podemos decir que nuestro modelo es adecuado. Pero esto no es tan sencillo como parece.🤯

💡 Aquí van algunas consideraciones importantes:

#Stats #datascience Image
🔥 El R² NO indica si el modelo es adecuado. Un R² alto no garantiza que el modelo se ajuste a los datos correctamente. Realiza un gráfico de dispersión para evaluar la relación entre las variables, gráficos de diagnóstico para evaluar si se cumplen los supuestos, etc..

#dataviz Image
🔥El R² depende de la variabilidad en los datos. La variabilidad natural de los fenómenos, las imprecisiones en las mediciones y la presencia de datos atípicos/influyentes.
👉Un análisis sólido se basa en más que un solo número. Analiza, interpreta y saca conclusiones valiosas.💡 Image
Read 6 tweets
Oct 29
💡 ¡Atención! 🚀 No todos los valores atípicos/influyentes son problemáticos. A veces, son clave para entender la variabilidad en nuestros datos.🤔 Si los eliminamos sin pensarlo, ¡podríamos sesgar nuestro modelo!😱
🔍 Antes de eliminar cualquier punto: ¡Evalúa!🧵
#stats #rstats Image
Pregúntate:
1️⃣ ¿Son errores de medición? Si son observaciones genuinas de la muestra, ¿Son atípicas o influyentes?
2️⃣ ¿Por qué? ¿Cómo impactan en el modelo?

Puedes comparar el modelo con y sin esos valores para evaluar cómo cambian los coeficientes o las predicciones 🧐 Image
📊 Para ello, utiliza la función influence.measures() de #rstats.
👉 Analiza cambios en las predicciones (dffit), coeficientes (dfb), covarianza (cov.r), impacto total (cook.d), cuán lejos están tus observaciones de los promedios (hat).
Si encuentras un asterisco, ¡atención!🚨 Image
Read 5 tweets
Oct 10
😈 Los 7 Pecados Estadísticos que Incluso algunos Expertos Cometen
🚨 ¿Te consideras un experto en estadística? Entonces, ¡presta atención! Incluso los profesionales más experimentados caen en estos 7 pecados estadísticos que pueden arruinar cualquier análisis de datos. 🧵👇
🚫 ERROR 1: No realizar una investigación reproducible 😱
😤 ¿Cuántas veces has tenido que rehacer un análisis completo por un simple error o cambio en los datos?
💡Usa R, RMarkdown/Quarto para asegurar que tu trabajo sea 100% reproducible, y actualiza automáticamente tu trabajo. Image
🚫 ERROR 2: No preparar tus datos adecuadamente para su análisis 🙄
🗑️ Basura entra, basura sale. Algunos datos erróneos pueden arruinar el resto del análisis, igual que una manzana podrida en un cesto.
🎯Dedica el 80% de tu tiempo a limpiar y preparar tus datos para el análisis. Image
Read 9 tweets
Oct 6
🌍10 Casos Emblemáticos de Análisis de Datos en la Vida Real
🔍¿Sabías que el análisis de datos ha salvado vidas y revolucionado industrias?Si alguna vez te has preguntado cómo los datos pueden marcar la diferencia, aquí te presento algunos casos emblemáticos que te sorprenderán. Image
1️⃣ John Snow y el cólera (1854): Identificó con datos la fuente de un brote de cólera en Londres, creando un mapa que reveló la relación entre las muertes y una bomba de agua contaminada, sentando las bases de la epidemiología moderna.

#Epidemiology buff.ly/2WaBa4sImage
2️⃣ Florence Nightingale y mortalidad en hospitales (1850s): Analizó datos de mortalidad en hospitales militares y presentó sus hallazgos en gráficos circulares, impulsando reformas en las condiciones sanitarias.

#dataviz #salud #Healthcare buff.ly/3BfkvnCImage
Read 12 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(