Post

How to get URL link on X (Twitter) App

On the Twitter thread, click on or icon on the bottom
Click again on or Share Via icon
Click on Copy Link to Tweet
Paste it above and click "Unroll Thread"!
More info at Twitter Help

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Jan 26, 2023 • 9 tweets • 6 min read • Read on X

Scrolly

🤯¡Los datos ausentes están por todas partes!😜
👉Pueden invalidar los resultados de tu estudio
👉Muchas funciones utilizan métodos automáticos que pueden no ser óptimos
👉El impacto de la falta de datos es un tema que la mayoría quiere evitar, pero hoy no
¿Qué hacer con los NA?:

🎯Necesitas identificar los datos ausentes, averiguar por qué y cómo faltan:
- errores humanos
- interrupciones del flujo de datos (e.g. meses)
- problemas de privacidad
- sesgo (e.g. tipos de participantes del estudio que tienen >NA)

¡Es info clave para intentar solucionarlo!

Explora los datos con los paquetes:
✅ visdat github.com/ropensci/visdat
✅ naniar naniar.njtierney.com
✅ VIM github.com/statistikat/VIM

Un ejemplo con los 3: mtor.sci.yorku.ca/MATH4330/files…

😱¿Qué se hacer con los NA?
👉Si no puedes obtener el registro original, si <10-20% de los datos y si faltan completamente al azar, puedes sustituirlos/imputar por otros valores
🤦🏻‍♀️Existen muchos métodos y no hay garantía de que produzcan los mismos resultados
👇Te dejo mi resumen

1️⃣ Eliminación/exclusión de datos faltantes
👉Es útil SOLO si las ausencias son al azar y la subsiguiente reducción del tamaño de la muestra no afecta seriamente la potencia de las pruebas estadísticas.

(Imagen de ReNom)

2️⃣ Imputación simple (e.g. sustituir por la media de la variable)
👉No es muy recomendable
Esto puede afectar la forma de la distribución -varianza, covarianza, quantiles, sesgo, kurtosis, etc., atenuar la correlación con el resto de las variables, y más.

repositorio.cepal.org/bitstream/hand…

3️⃣ Imputación múltiple
- Supone que los NA ocurren al azar
- Genera valores posibles para los NA creando varios conjuntos de datos "completos"
- Produce resultados para cada uno y resultados combinados

📦mi, Amelia, mice, mitools, missForest o simputation
stat.columbia.edu/~gelman/resear…

⚠️RECUERDA
- Identifica los NA
- Comprueba si hay patrones o lagunas en los datos
- Elige el método adecuado
- No elimines ni sustituyas (imputes) los NA a ciegas
- Utilizar un procedimiento inapropiado puede generar más problemas de los que resuelve
#DataScientists #stats #data

😉Sígueme para obtener más herramientas y recursos de #DataScience #ML #IA #RStats y aprende las mejores técnicas y enfoques.

Y si te resultó útil, ¡Comparte este hilo! 🤩

https://twitter.com/RosanaFerrero/status/1618570691288399878?s=20&t=_Vi7cYiNfDz2a7wpC2C3dg

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @RosanaFerrero

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Aug 16

🔥 ¿Qué NO te enseñaron en tu curso de análisis de datos… y tuviste que aprender a golpes?
Nos enseñan métodos, fórmulas y (con suerte) sintaxis.
Pero en el mundo real, los datos llegan sucios, los plazos aprietan y nadie lee tus gráficos si no los entienden.
10 lecciones👇

📉 10 verdades del análisis de datos que no salen en el temario:

1️⃣ El 80% del trabajo es limpiar, ordenar y entender los datos.
Sí, lo has leído mil veces. Pero hasta que no lo vives, no lo crees.
🧼 Si amas la estadística, aprende también a amar el preprocesado.

#stats

2️⃣ Los datos nunca llegan como los necesitas. Nunca.
A veces el problema no es técnico, sino organizativo: fuentes desconectadas, procesos manuales, duplicados...
💡 El mejor analista no es el que espera datos perfectos, sino el que aprende a trabajar con datos imperfectos.

Read 12 tweets

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Aug 15

🚨 EL INFIERNO DE LAS FECHAS EN ANÁLISIS DE DATOS 🚨
Sí, lo has vivido. Todos lo hemos vivido.

Si alguna vez has intentado analizar fechas en Excel, sabes de lo que hablo:

🧨 Problemas típicos:
❌ Formatos inconsistentes: ¿DD/MM/AAAA o MM/DD/AAAA?
❌ Fechas como texto: Importas datos y... mágicamente son cadenas.
❌ Zonas horarias: UTC, GMT, hora local… todo mezclado.
❌ Restas y sumas absurdas: Días que no cuadran, meses que desaparecen…

💡 Pero hay una solución: R + lubridate = paz mental 🧘
✅ Limpiar fechas: ymd(), dmy(), mdy()
✅ Sumar días, meses o años: + days(5), + months(3)
✅ Detectar y corregir formatos mixtos: parse_date_time()
✅ Controlar husos horarios: with_tz() y force_tz()

Read 5 tweets

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Aug 12

📊 ¿Cómo sabes si tu modelo realmente funciona bien?
Muchos modelos se publican... pero pocos se diagnostican a fondo.
Si usas modelos de regresión en R, este recurso te va a ahorrar tiempo y sustos 🚨👇

#DataScience #RStats #stats #dataviz #modelling #regression #CienciaDeDatos

📦 {performance} de #RStats te permite evaluar los supuestos clave de tus modelos de forma rápida, clara y eficiente.
check_collinearity() → ¿Predictores correlacionados?
check_normality() → ¿Residuos normales?
check_heteroscedasticity() → ¿Residuos con Varianza constante?

Y lo mejor:
👉 check_model() → Una sola función para un diagnóstico visual completo en segundos.

🚀 ¿Qué más puedes hacer con performance?
🔹 Obtener métricas como R², AIC, BIC, RMSE, ICC...
🔹 Diagnosticar modelos mixtos, con sobredispersión o inflación cero

#Estadística

Read 5 tweets

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Aug 11

💥¿Cómo seleccionar las variables adecuadas para tu modelo? 💥

El arte de construir modelos explicativos, implica comprender tu problema y reflejarlo en el modelo que construyes. Es un arte —y sí, también una ciencia— que requiere equilibrio y criterio.

#stats #datascience

🧠 Si tienes muchos predictores candidatos, crece el riesgo de perder el rumbo.
Un modelo sub-especificado olvida variables clave y sesga tus resultados
Un modelo sobre-especificado se enreda en redundancias y ruido
Debes encontrar el punto medio, ni muy sencillo ni muy complejo

👉 No confíes ciegamente en la selección automática: evalúa el objetivo de tu estudio, elige predictores con sentido, explora tus datos a fondo y aprende a interpretar las métricas que te indican qué modelo es el más adecuado. Con un ejemplo práctico con R
maximaformacion.es/blog-dat/como-…

Read 4 tweets

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Aug 10

🧠 Lo fácil se vuelve difícil. Lo imposible se vuelve posible. Una charla de Hadley Wickham.
El viernes pasado, Wickham describió algo que está redefiniendo nuestra relación con la informática (y esto me provoca una mezcla de fascinación y alerta):👇🧵

#stats #AI #IA #GPT #LLM

👉 Los LLM invierten la lógica tradicional de las máquinas.

Durante décadas, para un ordenador:
✅ Fácil → cálculos exactos, conteos, aplicación de reglas fijas.
❌ Difícil → interpretar lenguaje natural, gestionar ambigüedad, crear algo nuevo.

#AItools #GPT5 #chatGPT #openAI

Hoy, con los LLM:
💎 Redactar un resumen adaptado a un público específico → fácil.
💎 Encontrar patrones en un texto ambiguo → natural.
💎 Traducir ideas vagas en código → habitual.

🤯 Pero contar las letras de una palabra o resolver una suma sencilla… puede salir mal.💥

Read 8 tweets

Rosana Ferrero 📈📊🙌

@RosanaFerrero

Aug 10

🔥 No tener en cuenta la potencia estadística es más común (y más grave) de lo que parece 🔥
Hace poco compartí contigo un post sobre qué es la potencia estadística, ahora vamos un paso más allá....
🔍 ¿Cómo interpretar los resultados según la potencia estadística?👇

#stats

1️⃣ Resultado NO estadísticamente significativo (p > 0.05):
➡️ ¿Realmente no hay efecto?
NO necesariamente.
Podría ser que…

✅ El efecto no existe → buena noticia: el test funcionó.
⚠️ El efecto existe, pero el estudio no tenía suficiente potencia para detectarlo.

#DataScience

2️⃣ Resultado SÍ estadísticamente significativo (p < 0.05):
➡️ ¿El efecto es real?
Quizá, pero puede deberse a:

✅ Efecto real y el test lo detectó (¡bien!).
⚠️ Efecto muy pequeño pero detectable por muestras muy grandes → ¿es relevante?
❌ Falso positivo (error tipo I) → 𝛼

Read 5 tweets

Support us! We are indie developers!

This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Share this page!

Enter URL or ID to Unroll

Rosana Ferrero 📈📊🙌

Try unrolling a thread yourself!

More from @RosanaFerrero

Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?

Send Email!