Rosana Ferrero 📈📊🙌 Profile picture
Oct 31, 2022 12 tweets 13 min read Read on X
🤯Tercer y última parte de ERRORES QUE DAN MIEDO en #DataScience 🎃

☠️ERRORES mortales que incluso los expertos cometen⚰️
rosanaferrero.blogspot.com/2016/09/los-7-…

Continúa leyendo, si te atreves...👻
#HorrorStats #HappyHalloween #DataAnalytics #Halloween #FelizLunes #dataviz #RStats #Python #ML
🚫No realizar una investigación reproducible💀

“Every analysis you do on a dataset will have to be redone 10-15 times before publication. Plan accordingly” Trevor A.Branch

No crear un informe replicable, reproducible y reutilizable sí que DA MIEDO

#HorrorStats #HappyHalloween
🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃

¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻

#HorrorStats #ML
🚫No distinguir la significación estadística de la significación práctica🤦🏻‍♀️p-valor nos dice la dirección y tamaño del efecto la magnitud

Que exista una diferencia no significa que sea grande

Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO!
#HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"

👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀
#HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"

😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙

Sientes ESCALOFRÍOS?
#HorrorStats #DataScience #Halloween2022 #RStats #Python
🚫Considerar que el nivel de significación alfa=5% es un mandamiento⛪️

😉El valor 5% es simplemente una convención conveniente, podría ser el 10% o el 1%, no existe un umbral real.

🎃#HorrorStats #DataScience #RStats #Python #Analytics #dataviz #analisisdedatos 👻
Lee más👇
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.

😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...

#HorrorStats
🚫No considerar el Error tipo III: resolver el problema incorrecto.

☠️¿Las hipótesis son las correctas? ¿Cuán plausible es H0? ¿Cuáles son las consecuencias de rechazar H0? El contexto es crucial

👻#HorrorStats #Halloween #Halloween2022 #DataScience #dataviz #RStats #Python 🎃
🚫Desconocer la potencia estadística

¿Alguna vez te lo has preguntado?
👉¿Puedo confiar en el resultado?
👉¿Cuántas muestras necesito?

Conocer la potencia estadística nos permite ahorrar tiempo y dinero en nuestras investigaciones, ¡¿cómo no te lo contaron antes?!

#HorrorStats
Interpretar correctamente los resultados de un análisis puede ser muy difícil😱

😎Para volverte un PRO en #DataScience no cometas los errores que te he mostrado en este hilo y usa esta guía para planificar y diseñar investigaciones rigurosas👇
#Halloween
maximaformacion.es/recursos/disen…
Recuerda👇

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

May 15
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔

🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵

#DataScience #stats Image
📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos. Image
✨ La RESPUESTA está en el CÁLCULO del tamaño de muestra.
Objetivo: Tener suficientes muestras para detectar un efecto real sin exagerar con muestras innecesarias.

🔑 Factores clave en el cálculo del tamaño de muestra: Image
Read 11 tweets
May 14
👀 ¿Te has preguntado qué estadísticos y gráficos usar para cada tipo de variable y estudio?
✨ Tanto la variación como la covariación son esenciales en el análisis de datos.
Aquí te lo resumo de forma sencilla 👇🧵

#stats #dataviz #statistics #analytics #datascience Image
La VARIACIÓN se ocupa de la dispersión dentro de una variable
La COVARIACIÓN se centra en las relaciones entre múltiples variables
Utilizar correctamente estas herramientas estadísticas puede enriquecer cualquier análisis de datos y ayudar a obtener conclusiones más robustas.📈🔍
✅ Estudios de variación: 1 variable

👉 Variables Categóricas (Nominales y Ordinales)
Gráfico recomendado: ¡Gráficos de barras!
Estadístico clave: Frecuencias y porcentajes.
Ejemplo: ¿Qué color prefieres? ¿A quién votarás? ¿Eres fumador? 🌈🚭
Read 7 tweets
May 13
🔥 Las pruebas estadísticas más comunes son TODAS modelos lineales. 🔥

🧠 Por lo tanto, en lugar de utilizar cientos de pruebas diferentes, ¿por qué no usar un modelo que realiza todas tus pruebas en una sola estructura flexible y robusta?

Te lo resumo en este post:👇🧵 Image
🤔 Cuando piensas en ANOVA, t-tests, test de Mann-Whitney o test Chi-cuadrado, crees que estás aplicando métodos diferentes, pero la realidad es que todos son casos especiales del Modelo Lineal.
🌟 3 razones por las que los modelos de regresión lineal deben ser tu primera opción:
1️⃣ Las Pruebas Clásicas requieren demasiados Supuestos
Modelos como GLM, GEE o regresión cuantil pueden manejar distribuciones sesgadas, correlaciones y dependencias sin esfuerzo.
Read 6 tweets
May 11
🚨Los datos ausentes están por todas partes🚨
👉Los NA pueden invalidar los resultados de tu estudio
👉Muchas funciones automáticas pueden no ser las más óptimas para manejarlos
👉El tratamiento incorrecto de los NA puede llevar a conclusiones erróneas o sesgadas
¿Qué hacer?👇🧵 Image
👀 ¿Qué hacer con los NA? 🤔
1️⃣ Identifica los datos ausentes y comprende por qué faltan:
👉 Errores humanos
👉 Interrupciones en el flujo de datos (como meses sin registro)
👉 Problemas de privacidad
👉 Sesgo: Como cuando ciertos participantes del estudio tienen más NA que otros Image
¡El patrón de NAs es información clave para intentar solucionarlo! 🔑

Para explorar los NA, te recomiendo estos paquetes de hashtag#RStats:
✅ visdat buff.ly/491P3p0
✅ naniar buff.ly/4hMOYKB
✅ VIM buff.ly/3wcVTcz
✅ mice buff.ly/3O97orm pic.x.com/bm3Ig6S5LpImage
Read 9 tweets
May 9
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo?
¡No entres en pánico! 🧘‍♀️🧠 Un p > 0.05 no es el fin del análisis, sino el inicio de una buena reflexión.

Hoja de ruta🧵👇🏻

#stats #datascience #analytics #inference #pvalue #rstats #research #thesis Image
🔥 1. Evita conclusiones simplistas
No estadísticamente significativo (discernible o detectable) ≠ No hay efecto
👉 El p-valor NO te dice si la hipótesis nula es verdadera. Solo indica la compatibilidad de los datos con esa hipótesis, asumiendo que sea cierta.
📏 2. Revisa el tamaño muestral

🔍 ¿Muestra pequeña? → Tal vez no hubo potencia suficiente para detectar el efecto.
💡 TIP: Usa análisis de sensibilidad para ver qué efecto podrías haber detectado.
Read 14 tweets
May 6
🔥 ¿QUÉ MODELO DE REGRESIÓN DEBERÍAS ELEGIR? (UNA GUÍA SENCILLA) 🔥
¿Te suena a conjuro estadístico esto de LM, GLM, GAMM, GLMM...?
🧙‍♂️ Tranquilidad. Vamos paso a paso. Te prometo solo necesitas realizar unos simples pasos para elegir el modelo más adecuado para tu problema:👇🧵 Image
📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM)
(Si se cumplen sus supuestos: linealidad, homocedasticidad, normalidad, independencia…)
🚫 No → ¡Sigue leyendo!
📢 PASO 2: ¿Es binaria, de conteo o proporciones?
✅ Sí → Modelo Lineal Generalizado (GLM)
Usa la familia adecuada:
🔷 Binomial (0/1, éxito/fracaso)
🔷 Poisson (conteos)
🔷 Gamma/inversa (datos sesgados, positivos)
🚫 No → Profundicemos.
Read 8 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(