😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes #ML#IA#DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE #ML
✅ Validación cruzada: dividir los datos en varios conjuntos y entrenar y evaluar el modelo varias veces, cada vez utilizando un conjunto diferente como prueba y promediando los resultados. Da una estimación más robusta del rendimiento del modelo ya que utiliza más datos. #ML#IA
✅ Validación del rendimiento en el mundo real, una vez que se ha implementado. Esto puede incluir medir la precisión del modelo en tareas reales o monitorear el rendimiento del modelo a lo largo del tiempo para ver si mantiene su rendimiento #DataScience#MachineLearning#ML#IA
• • •
Missing some Tweet in this thread? You can try to
force a refresh
🤔 ¿Alguna vez te has preguntado qué significa realmente que falten datos y cómo afecta a tu análisis? Vamos a destapar lo que a menudo SE IGNORA sobre este tema👇
#rstats #stats #datascience #ML #dataviz
🔴 ¿Qué son los datos faltantes?
"datos que no tienes -quizás datos que desearías tener, o esperabas tener, o pensabas que tenías, pero que, de todos modos, no tienes. [...] los datos faltantes son al menos tan importantes como los datos que tienes". (David Hand)
🔴 ¿Por qué te deberían importar?
Cuando te faltan datos, tus resultados pueden estar MAL, pero no te das cuenta hasta que es demasiado tarde.😬 Los datos faltantes son inevitables y afectan la calidad del análisis, disminuyen la información disponible y pueden generan sesgos.
🔥 ¿Cómo integrar la Inteligencia Artificial Generativa (GenAI) en R?
💡 Aquí te dejo algunas herramientas interesantes que permiten integrar la GenAI en tu flujo de trabajo en R. 🧵👇
🚨 También algunas advertencias y consejos.
#RStats #GenAI #DataScience #AI #ChatGPT #RStats
1️⃣ {chattr} by @theotheredgar. Conecta tu código con LLMs como GitHub Copilot Chat y GPT 3.5 o 4 de OpenAI; también con LLaMa o GitHub Copilot. Usa una aplicación Shiny que se ejecuta dentro del IDE RStudio.
@theotheredgar 2️⃣ {ask} by @antoine_fabri ¿Te imaginas obtener el código para replicar un gráfico simplemente con una imagen de la web? Además, puedes pedir modificar el gráfico o realizar una consulta sobre él, todo en lenguaje natural.
🚨 ¡El R² no es lo que parece! 🚨 A menudo me preguntan cuál debe ser el valor deseable del R² o a partir de qué cifra podemos decir que nuestro modelo es adecuado. Pero esto no es tan sencillo como parece.🤯
💡 Aquí van algunas consideraciones importantes:
#Stats #datascience
🔥 El R² NO indica si el modelo es adecuado. Un R² alto no garantiza que el modelo se ajuste a los datos correctamente. Realiza un gráfico de dispersión para evaluar la relación entre las variables, gráficos de diagnóstico para evaluar si se cumplen los supuestos, etc..
#dataviz
🔥El R² depende de la variabilidad en los datos. La variabilidad natural de los fenómenos, las imprecisiones en las mediciones y la presencia de datos atípicos/influyentes.
👉Un análisis sólido se basa en más que un solo número. Analiza, interpreta y saca conclusiones valiosas.💡
💡 ¡Atención! 🚀 No todos los valores atípicos/influyentes son problemáticos. A veces, son clave para entender la variabilidad en nuestros datos.🤔 Si los eliminamos sin pensarlo, ¡podríamos sesgar nuestro modelo!😱
🔍 Antes de eliminar cualquier punto: ¡Evalúa!🧵
#stats #rstats
Pregúntate:
1️⃣ ¿Son errores de medición? Si son observaciones genuinas de la muestra, ¿Son atípicas o influyentes?
2️⃣ ¿Por qué? ¿Cómo impactan en el modelo?
Puedes comparar el modelo con y sin esos valores para evaluar cómo cambian los coeficientes o las predicciones 🧐
📊 Para ello, utiliza la función influence.measures() de #rstats.
👉 Analiza cambios en las predicciones (dffit), coeficientes (dfb), covarianza (cov.r), impacto total (cook.d), cuán lejos están tus observaciones de los promedios (hat).
Si encuentras un asterisco, ¡atención!🚨
😈 Los 7 Pecados Estadísticos que Incluso algunos Expertos Cometen
🚨 ¿Te consideras un experto en estadística? Entonces, ¡presta atención! Incluso los profesionales más experimentados caen en estos 7 pecados estadísticos que pueden arruinar cualquier análisis de datos. 🧵👇
🚫 ERROR 1: No realizar una investigación reproducible 😱
😤 ¿Cuántas veces has tenido que rehacer un análisis completo por un simple error o cambio en los datos?
💡Usa R, RMarkdown/Quarto para asegurar que tu trabajo sea 100% reproducible, y actualiza automáticamente tu trabajo.
🚫 ERROR 2: No preparar tus datos adecuadamente para su análisis 🙄
🗑️ Basura entra, basura sale. Algunos datos erróneos pueden arruinar el resto del análisis, igual que una manzana podrida en un cesto.
🎯Dedica el 80% de tu tiempo a limpiar y preparar tus datos para el análisis.
🌍10 Casos Emblemáticos de Análisis de Datos en la Vida Real
🔍¿Sabías que el análisis de datos ha salvado vidas y revolucionado industrias?Si alguna vez te has preguntado cómo los datos pueden marcar la diferencia, aquí te presento algunos casos emblemáticos que te sorprenderán.
1️⃣ John Snow y el cólera (1854): Identificó con datos la fuente de un brote de cólera en Londres, creando un mapa que reveló la relación entre las muertes y una bomba de agua contaminada, sentando las bases de la epidemiología moderna.
2️⃣ Florence Nightingale y mortalidad en hospitales (1850s): Analizó datos de mortalidad en hospitales militares y presentó sus hallazgos en gráficos circulares, impulsando reformas en las condiciones sanitarias.