🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)

¡Es info clave para intentar solucionarlo!
Explora los datos con los paquetes:
✅ visdat github.com/ropensci/visdat
✅ naniar naniar.njtierney.com
✅ VIM github.com/statistikat/VIM

Un ejemplo con los 3: mtor.sci.yorku.ca/MATH4330/files… ImageImageImageImage
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻‍♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen Image
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.

(Imagen de ReNom) Image
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.

repositorio.cepal.org/bitstream/hand… Image
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados

📦mi, Amelia, mice, mitools, missForest o simputation
stat.columbia.edu/~gelman/resear… Image
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve
#DataScientists #stats #data
😉Sígueme para obtener más herramientas y recursos de #DataScience #ML #IA #RStats y aprende las mejores técnicas y enfoques.

Y si te resultó útil, ¡Comparte este hilo! 🤩

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero🕊☮️🏳

Rosana Ferrero🕊☮️🏳 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Jan 25
💥14 herramientas secretas impulsadas por #RStats para ahorrar tiempo y esfuerzo en tus proyectos de datos (¡No te lo pierdas!):👀
1️⃣ ¡Edita tus datos de forma interactiva (y guarda el código)! 👀
📦 'editData' es un complemento de RStudio para editar un data.frame o un tibble de forma interactiva
🔗 buff.ly/3U5Tgjy

#DataScience #DataVisualization #dataviz #stats #analytics #RStats #Analytics
2️⃣ ¡Crea gráficos #ggplot de forma interactiva!🚀
📦esquisse es otro de mis addins favoritos de #rstudio
✅ exporta el gráfico o recupera el código para reproducir el gráfico
🔗 buff.ly/3mxLHSo
#DataScience #DataVisualization #dataviz #stats #analytics #RStats #Analytics
Read 17 tweets
Jan 14
🌎 ¡Acabo de encontrar una serie de mapas increíbles realizados con #RStats! Desde mapas interactivos hasta diseños 3D, hay algo para todos los amantes de los datos espaciales
👇 ¡8 cuentas a las que definitivamente vale la pena darle un vistazo!🧵
#dataviz #maps #geospatial #gis
✅ Tyler Morgan-Wall @tylermorganwall

🔗 buff.ly/3ZBWNKe
Mapa 3D giratorio con puntos de luz (mapa anterior)

🔗 buff.ly/3QDfXLx
La red de cable submarino de fibra óptica de la Tierra.

Utiliza #rayshader #rayrender #rayverse
#dataviz #maps #geospatial #gis
@tylermorganwall ✅ Milos Popovic @milos_agathon
🔗 buff.ly/3CJM6LN
Mapa % de empleados en la fabricación, datos Eurostat.

#dataviz #maps #geospatial #gis #rstats #DataVisualization #stats #DataScience
Read 9 tweets
Jan 14
💥 ¡Hey #RStudio users! ¿Quieres integrar #ChatGPT en tu código?
😱 ¡Descarga 📦 gpttools! (amplía gptstudio)
👉 4 complementos (hilo 🧵)

#chatgpt3 #GPTwitter #gptchat #RStats #datascience #stats #analytics #machinelearning #ML #IA #ArtificialIntelligence #dataviz @posit_pbc #AI
@posit_pbc Código de comentario: utiliza el modelo code-davinci-edit-001 de OpenAI para agregar comentarios a tu código con el mensaje: "agregue comentarios a cada línea de código, explicando lo que hace el código"
#ChatGPTenRStudio #RStats #DataScience #IA #ML #data #dataviz #analytics #AI
@posit_pbc Agrega roxygen: usa el modelo text-davinci-003 de OpenAI para agregar y completar un esqueleto de roxygen a tu código resaltado (debe ser una función) con el mensaje: "insertar esqueleto de roxygen para documentar esta función"
#ChatGPTenRStudio #RStats #DataScience #IA #ML #data
Read 5 tweets
Dec 28, 2022
😜¡No seas un inocente del #DataScience !
⚠️Aunque el #MachineLearning puede ser una herramienta poderosa, siempre es importante evaluar y validar tus modelos antes de confiar demasiado en ellos.
😱¿Cómo evaluar y validar modelos de #ML? 👉(Hilo 🧵)

#RStats #analytics #stats #IA
✅ Dividir los datos disponibles en dos (o más) conjuntos. Se entrena el modelo con un conjunto de entrenamiento y luego se mide su rendimiento en un conjunto de prueba. Así obtienes una estimación del rendimiento del modelo en datos que no ha visto antes
#ML #IA #DataScience
✅ Utilizar métricas de evaluación apropiadas: Dependiendo del tipo de problema y modelo, existen diferentes métricas que se pueden utilizar para evaluar el rendimiento del modelo.
E.g. para clasificación la precisión o recall, para regresión el error cuadrático medio o RMSE
#ML
Read 5 tweets
Nov 5, 2022
🤦🏻‍♀️Muchos usan RStudio durante años sin conocer esta herramienta👀
🎯Complementos: extensiones para ejecutar funciones avanzadas de #RStats sin código
👉Haz clic en el botón Addins del menú de RStudio, y el código correspondiente se ejecuta sin que tengas que escribir el código
👉Los complementos de RStudio se distribuyen como 📦paquetes #RStats
👉Una vez instalado y activado el paquete R, los complementos estarán disponibles de inmediato en RStudio
✅Ejemplo 📦addinexamples
🔗 rstudio.github.io/rstudioaddins/

#datascience #programming #dataviz #analytics Image
💡Cómo seleccionar un subconjunto de un conjunto de datos de forma interactiva en R

#datascience #analytics #dataviz #data #RStats #RStudio #posit #programming #code #analisisdedatos #cienciadedatos #BI #Python #stats #RAddins #complementosR
Read 4 tweets
Oct 31, 2022
🤯Tercer y última parte de ERRORES QUE DAN MIEDO en #DataScience 🎃

☠️ERRORES mortales que incluso los expertos cometen⚰️
rosanaferrero.blogspot.com/2016/09/los-7-…

Continúa leyendo, si te atreves...👻
#HorrorStats #HappyHalloween #DataAnalytics #Halloween #FelizLunes #dataviz #RStats #Python #ML
🚫No realizar una investigación reproducible💀

“Every analysis you do on a dataset will have to be redone 10-15 times before publication. Plan accordingly” Trevor A.Branch

No crear un informe replicable, reproducible y reutilizable sí que DA MIEDO

#HorrorStats #HappyHalloween
🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃

¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻

#HorrorStats #ML
Read 12 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(