Rosana Ferrero 📈📊🙌 Profile picture
Oct 31, 2022 12 tweets 13 min read Read on X
🤯Tercer y última parte de ERRORES QUE DAN MIEDO en #DataScience 🎃

☠️ERRORES mortales que incluso los expertos cometen⚰️
rosanaferrero.blogspot.com/2016/09/los-7-…

Continúa leyendo, si te atreves...👻
#HorrorStats #HappyHalloween #DataAnalytics #Halloween #FelizLunes #dataviz #RStats #Python #ML
🚫No realizar una investigación reproducible💀

“Every analysis you do on a dataset will have to be redone 10-15 times before publication. Plan accordingly” Trevor A.Branch

No crear un informe replicable, reproducible y reutilizable sí que DA MIEDO

#HorrorStats #HappyHalloween
🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃

¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻

#HorrorStats #ML
🚫No distinguir la significación estadística de la significación práctica🤦🏻‍♀️p-valor nos dice la dirección y tamaño del efecto la magnitud

Que exista una diferencia no significa que sea grande

Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO!
#HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"

👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀
#HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"

😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙

Sientes ESCALOFRÍOS?
#HorrorStats #DataScience #Halloween2022 #RStats #Python
🚫Considerar que el nivel de significación alfa=5% es un mandamiento⛪️

😉El valor 5% es simplemente una convención conveniente, podría ser el 10% o el 1%, no existe un umbral real.

🎃#HorrorStats #DataScience #RStats #Python #Analytics #dataviz #analisisdedatos 👻
Lee más👇
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.

😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...

#HorrorStats
🚫No considerar el Error tipo III: resolver el problema incorrecto.

☠️¿Las hipótesis son las correctas? ¿Cuán plausible es H0? ¿Cuáles son las consecuencias de rechazar H0? El contexto es crucial

👻#HorrorStats #Halloween #Halloween2022 #DataScience #dataviz #RStats #Python 🎃
🚫Desconocer la potencia estadística

¿Alguna vez te lo has preguntado?
👉¿Puedo confiar en el resultado?
👉¿Cuántas muestras necesito?

Conocer la potencia estadística nos permite ahorrar tiempo y dinero en nuestras investigaciones, ¡¿cómo no te lo contaron antes?!

#HorrorStats
Interpretar correctamente los resultados de un análisis puede ser muy difícil😱

😎Para volverte un PRO en #DataScience no cometas los errores que te he mostrado en este hilo y usa esta guía para planificar y diseñar investigaciones rigurosas👇
#Halloween
maximaformacion.es/recursos/disen…
Recuerda👇

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Aug 29
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo? 🧠
Tranquilo, ¡que un p > 0.05 no es el apocalipsis estadístico! Aquí va una guía rápida para que actúes como un verdadero profesional de los datos y saques partido a ese resultado.👇🧵

#stats #analytics Image
🙈1️⃣ ¿Qué significa realmente un p-valor > 0.05?
No significa que no haya efecto. "La ausencia de evidencia no es evidencia de ausencia" (Carl Sagan). Ese es uno de los errores más comunes. Recuerda: el p-valor no mide la probabilidad de que la hipótesis nula sea verdadera.
📏2️⃣ ¿Por qué pudo darse ese resultado? ¿Qué papel juega el tamaño de la muestra?
👉 Muestra pequeña: La potencia puede ser insuficiente para detectar un efecto real. Aquí toca hacer un análisis de sensibilidad para ver el tamaño mínimo de efecto detectable.

#pvalue
Read 13 tweets
Aug 25
😳 Cuando empiezas con R, las dudas llueven:
👉 ¿Qué función necesito?
👉 ¿Cómo se usa?
👉 ¿¡Por qué me sale este error infernal!?

Por eso, he recopilado en un solo lugar todos los recursos que te ayudarán a aprender R como un/a pro:

#stats #rstats #EstadísticaConR #DataScience Image
📚 Funciones de ayuda, buscadores especializados, viñetas, ejemplos, CRAN Task Views, foros, FAQs…
Y sí, también cómo hacer preguntas que reciban respuestas útiles

#AprenderR #MásterOnline #RStats #FormaciónContinua #EducaciónEstadística #ComunidadesDeDatos #CRAN #StackOverflow Image
Image
Image
💡 En el Máster enseñamos mucho más que sintaxis: formamos a personas que saben buscar, preguntar y seguir aprendiendo de forma autónoma. Porque saber usar R no es memorizar, es saber encontrar lo que necesitas, cuando lo necesitas.

maximaformacion.es/blog-dat/neces…Image
Image
Image
Read 4 tweets
Aug 20
👀 Google predijo una epidemia… de malas decisiones. 🔥
El Big Data no sustituye pensar: el caso de Google Flu Trends (GFT).
Un modelo precioso, que no servía para nada.🦠❄️

👇 Hilo crítico sobre hype, errores y lecciones en ciencia de datos:🧵

#stats #datascience #analytics Image
Durante años, Google Flu Trends fue el niño bonito del Big Data.
La promesa: predecir brotes de gripe en tiempo real usando nuestras búsquedas.
La realidad: sobreestimó los casos, confundió baloncesto con gripe y falló en la pandemia de 2009.
Sí, baloncesto (ambos en invierno).🏀
👀 ¿Qué salió mal? Casi todo.

📍1️⃣ La fiebre del Big Data
Pensar que tener muchos datos equivale a tener buenos datos.
Spoiler: no.

Correlacionaron búsquedas absurdas con brotes... y luego se sorprendieron de que no funcionara.

#DataScience #BigData #Estadística #Modelado
Read 10 tweets
Aug 19
🎯 No todos los outliers son villanos. Algunos son los héroes que revelan lo que nadie más ve. 👀
👇🧵Te explico cómo distinguir entre errores, casos fuera de contexto y variación natural valiosa.

#DataScience #Analytics #stats #rstats #ML #machinelearning #outliers
Eliminar outliers sin justificar puede:
❌ Distorsionar tus modelos
❌ Reducir la robustez de predicciones
❌ Hacerte perder información crítica

Por eso siempre recomiendo: PARA. REVISA Y CONSULTA PRIMERO.
Los valores atípicos no siempre son errores. A veces son:
✨ Variación natural que contiene información valiosa
🔍 Casos excepcionales que revelan patrones ocultos
💡 Las claves del hallazgo más importante
Read 8 tweets
Aug 16
🔥 ¿Qué NO te enseñaron en tu curso de análisis de datos… y tuviste que aprender a golpes?
Nos enseñan métodos, fórmulas y (con suerte) sintaxis.
Pero en el mundo real, los datos llegan sucios, los plazos aprietan y nadie lee tus gráficos si no los entienden.
10 lecciones👇 Image
📉 10 verdades del análisis de datos que no salen en el temario:

1️⃣ El 80% del trabajo es limpiar, ordenar y entender los datos.
Sí, lo has leído mil veces. Pero hasta que no lo vives, no lo crees.
🧼 Si amas la estadística, aprende también a amar el preprocesado.

#stats Image
2️⃣ Los datos nunca llegan como los necesitas. Nunca.
A veces el problema no es técnico, sino organizativo: fuentes desconectadas, procesos manuales, duplicados...
💡 El mejor analista no es el que espera datos perfectos, sino el que aprende a trabajar con datos imperfectos. Image
Read 12 tweets
Aug 15
🚨 EL INFIERNO DE LAS FECHAS EN ANÁLISIS DE DATOS 🚨
Sí, lo has vivido. Todos lo hemos vivido.

Si alguna vez has intentado analizar fechas en Excel, sabes de lo que hablo: Image
🧨 Problemas típicos:
❌ Formatos inconsistentes: ¿DD/MM/AAAA o MM/DD/AAAA?
❌ Fechas como texto: Importas datos y... mágicamente son cadenas.
❌ Zonas horarias: UTC, GMT, hora local… todo mezclado.
❌ Restas y sumas absurdas: Días que no cuadran, meses que desaparecen…
💡 Pero hay una solución: R + lubridate = paz mental 🧘
✅ Limpiar fechas: ymd(), dmy(), mdy()
✅ Sumar días, meses o años: + days(5), + months(3)
✅ Detectar y corregir formatos mixtos: parse_date_time()
✅ Controlar husos horarios: with_tz() y force_tz() Image
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(