Rosana Ferrero 📈📊🙌 Profile picture
Jan 26, 2023 9 tweets 6 min read Read on X
🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)

¡Es info clave para intentar solucionarlo!
Explora los datos con los paquetes:
✅ visdat github.com/ropensci/visdat
✅ naniar naniar.njtierney.com
✅ VIM github.com/statistikat/VIM

Un ejemplo con los 3: mtor.sci.yorku.ca/MATH4330/files… ImageImageImageImage
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻‍♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen Image
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.

(Imagen de ReNom) Image
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.

repositorio.cepal.org/bitstream/hand… Image
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados

📦mi, Amelia, mice, mitools, missForest o simputation
stat.columbia.edu/~gelman/resear… Image
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve
#DataScientists #stats #data
😉Sígueme para obtener más herramientas y recursos de #DataScience #ML #IA #RStats y aprende las mejores técnicas y enfoques.

Y si te resultó útil, ¡Comparte este hilo! 🤩

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Feb 7
🔥 EDA Automático con R y Python 🔥
👀 El EDA es clave al trabajar con datos, ayuda a comprender y preparar los datos antes de modelar. R y Python ofrecen herramientas automáticas, pero ¡usa siempre con responsabilidad y ética! 🚨

#DataScience #RStats #Python #stats #dataviz Image
🚀 ¿Por qué realizar un EDA automático? Image
🔧 Herramientas para EDA Automático

En R:
DataExplorer
dataMaid
SmartEDA
skimr
GGally

En Python:
pandas_profiling
sweetviz
Dython
ydata-profiling
dtale
autoviz

Ejemplos

#rstats #datascience #stats #analytics #dataviz buff.ly/3QzXfVk
Read 5 tweets
Feb 2
📢 Guía práctica para la inferencia estadística 📊
La inferencia estadística es fundamental para analizar datos y tomar decisiones informadas. Sin embargo, elegir el método correcto puede ser un desafío. Aquí tienes algunas estrategias clave para 5 problemas comunes:🧵👇

#stats Image
🔍 1. Comparación de medias en datos no Normales pero población simétrica y unimodal:
❌ No confíes en n > 30
❌ No uses Wilcoxon, ya que cambia la hipótesis nula
✅ Usa pruebas t de Welch por permutación o con bootstrap
✅ Con valores atípicos, prueba Yuen-Welch por permutación
📐 2. Comparación de medianas
Las pruebas Mann-Whitney o Kruskal-Wallis:
❌ No comparan medianas sin IID y simetría.
❌ No permiten análisis con múltiples factores o covariables
✅ Usa regresión cuantílica o prueba Mood-Brown
✅ Usa regresión logística ordinal o ART-ANOVA
Read 7 tweets
Jan 31
🔥🤖 IA en #RStats: Opciones y Precauciones🧠📊
Desde hace un tiempo, vengo explorando cómo utilizar la IA para programar en R: ¿Podría ser un cambio interesante? ¿Qué hay que tener en cuenta? ¿Qué opciones hay? Dejo algunas de mis reflexiones para que compartamos experiencias.🧵 Image
La IA puede ser útil, pero también puede generar código incorrecto, reforzar sesgos y fomentar la dependencia. Usarla con responsabilidad implica verificar, interpretar y contextualizar, no aceptar ciegamente sus sugerencias. 🚦

#IA #CódigoSeguro #stats #RStats Image
🤔¿Qué se espera de la IA? Permitir escribir código más rápido, reducir errores mediante asistencia en depuración y explicación del código, enfocarnos más en el análisis en lugar de en la sintaxis; pero esto siempre y cuando no nos vuelva menos críticos con nuestro propio código. Image
Read 8 tweets
Jan 27
😈 Los 7 Pecados Estadísticos Más Comunes y Graves 🚨
¡Atención! Estos errores pueden destruir cualquier análisis de datos, ¡y son más comunes de lo que crees! 😱
Pero no te preocupes, te diré cómo resolverlos. Sigue leyendo... 👇

#stats #datascience #analytics #HorrorStats Image
🚫 ERROR 1: No hacer tu investigación reproducible 😱
😤 ¿Te ha pasado tener que rehacer todo por un pequeño error?
💡 Usa R, RMarkdown o Quarto para que tu trabajo sea 100% reproducible y se actualice automáticamente.
+Info: buff.ly/2x97p6zImage
🚫 ERROR 2: No limpiar tus datos correctamente 🙄
🗑️ Basura entra, basura sale. Un error de datos puede arruinar todo el análisis.
🎯 Dedica el 80% del tiempo a limpiar y preparar tus datos.
+Info: buff.ly/3E8lgjGImage
Read 9 tweets
Jan 26
🔥 Una muy buena opción para aprender visualización de datos online 🔥

🌟 ¿Quieres aprender visualización de datos con ejercicios interactivos y acceso a todo el código fuente? 🌟 Te voy a contar cómo funciona esta web alucinante que ha montado Claus Wilke.

#dataviz #stats Image
🧠 Un sitio web diseñado para aprender de forma activa:
Este curso online utiliza Quarto Live, lo que significa que puedes practicar en vivo directamente desde la página. 🎯 ¡No más excusas para no probar lo que estás aprendiendo al instante! Image
💻 Código fuente en GitHub:
¿Te gusta ver qué hay "detrás de la magia"? 🪄 Aquí no hay secretos: ¡todo el código para las diapositivas y hojas de trabajo está disponible en un repositorio público de GitHub! 🧑‍💻✨ Comprende cómo se construyen las visualizaciones y adáptalas. Image
Read 5 tweets
Jan 22
💡 A menudo le advierto a mis alumnos: No todos los valores atípicos (outliers) son villanos en tu análisis de datos. A veces, ¡son los héroes! 🤔
🚨 NO elimines los valores atípicos de forma predeterminada. ¡Podrías estar destruyendo tu análisis!

Antes evalúa lo siguiente:👇 Image
1️⃣ ¿Qué es un valor atípico?
👉 “un valor atípico es una observación que se desvía tanto de las otras observaciones que despierta sospechas de que ha sido generada por un mecanismo diferente” (Hawkins 1980).

👀 ¿Qué constituye una desviación “suficiente”?

#stats #outliers Image
2️⃣ ¿Por qué están ahí?
Los outliers tienen su origen en tres causas (ver imagen).

🔍 Ve a la fuente, utiliza tu conocimiento del área y el contexto del estudio para evaluarlo. Image
Read 6 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(