Rosana Ferrero 📈📊🙌 Profile picture
Jan 26, 2023 9 tweets 6 min read Read on X
🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:
🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)

¡Es info clave para intentar solucionarlo!
Explora los datos con los paquetes:
✅ visdat github.com/ropensci/visdat
✅ naniar naniar.njtierney.com
✅ VIM github.com/statistikat/VIM

Un ejemplo con los 3: mtor.sci.yorku.ca/MATH4330/files… ImageImageImageImage
😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻‍♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen Image
1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.

(Imagen de ReNom) Image
2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.

repositorio.cepal.org/bitstream/hand… Image
3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados

📦mi, Amelia, mice, mitools, missForest o simputation
stat.columbia.edu/~gelman/resear… Image
⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve
#DataScientists #stats #data
😉Sígueme para obtener más herramientas y recursos de #DataScience #ML #IA #RStats y aprende las mejores técnicas y enfoques.

Y si te resultó útil, ¡Comparte este hilo! 🤩

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Jul 1
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠

El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵
3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):

🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí? Image
🔄 2. ESTABILIDAD del agrupamiento
Realiza el clustering varias veces con diferentes subconjuntos.
Evalúa la CONSISTENCIA en los resultados.
👉 ¿Tu agrupación resiste los cambios en la muestra? Image
Read 8 tweets
Jun 26
⚽📊 ¿Qué hace un data scientist del fútbol?

El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.

#datascience Image
En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV Image
Image
👉 Modelos predictivos para prevenir lesiones
👉 Grafos para visualizar redes de pase
👉 Análisis de estilo de juego y búsqueda de fichajes similares

🔗 Enlace al post completo: maximaformacion.es/blog-ciencia-d…Image
Image
Read 4 tweets
Jun 22
✨ Elegir la prueba de hipótesis correcta (o el modelo correcto) para una repuesta continua no es solo un "ANOVA vs. Kruskal-Wallis" o "t-test vs Mann-Whitney".

👇 Hay 6 aspectos clave que debes considerar antes de tomar una decisión:🚀

#stats #datascience #analytics #research Image
1️⃣ ¿Qué quieres comparar?

📉 Igualdad de medias
📈 igualdad de medianas (según la distribución de los datos).
💨 Equivalencia estocástica (los grupos son similares en distribución) vs Superioridad estocástica (un grupo tiende a valores mayores que otro).

linkedin.com/posts/rosanafe…
⚠️ Advertencias clave
👉 El método debe elegirse según H0 y la pregunta de investigación, no según la distribución de los datos.
👉 "No paramétrico" no significa "sin supuestos" ni "sin problemas".
👉 Métodos como Mann-Whitney o pruebas de rangos modifican la hipótesis original. Image
Read 11 tweets
Jun 16
📢 ¡Ya puedes descargar GRATIS nuestras guías rápidas de RStudio y R Software en español!
👀 ¿Estás empezando en Data Science con R y no sabes por dónde comenzar?
👉 Tenemos justo lo que necesitas: cheat sheets validadas por RStudio con lo esencial para arrancar con buen pie.👇 Image
✨ Visuales, prácticas y fáciles de imprimir o tener a mano mientras trabajas.
🔹 ¿Qué encontrarás?
✔️ Guía rápida del IDE de RStudio
✔️ Guía rápida de Estadística Descriptiva con R y ggplot2
✔️ Guía rápida del lenguaje R: operadores, funciones básicas, estructuras de datos y más Image
📌 Son recursos diseñados para ayudarte a organizar el conocimiento por tareas y ganar fluidez sin memorizarlo todo.

💬 Como dice Garret Grolemund (RStudio):
“Las cheat sheets son ayudas visuales para acercarte rápidamente a las funciones que necesitas.” Image
Read 5 tweets
Jun 11
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨

¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯

#stats #rstats #DataScience Image
💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇

#Addins #RStudio #Estadística #Programación #analytics
1️⃣ CRANsearcher: 🔍 Encuentra paquetes de CRAN por títulos y descripciones en un abrir y cerrar de ojos. ¡Ya no más búsquedas interminables!
Read 13 tweets
Jun 10
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot

📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵

#stats Image
❌ 8 razones para dejar de usar barplots para datos continuos

1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales. Image
2️⃣ Dan una falsa sensación de certeza
Representar solo la media ± error estándar (SE) o desviación típica (SD) induce a interpretaciones erróneas, especialmente con muestras pequeñas.
El SE puede exagerar visualmente las diferencias entre grupos. Image
Read 13 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(