Rosana Ferrero 📈📊🙌 Profile picture
Oct 31, 2022 12 tweets 13 min read Read on X
🤯Tercer y última parte de ERRORES QUE DAN MIEDO en #DataScience 🎃

☠️ERRORES mortales que incluso los expertos cometen⚰️
rosanaferrero.blogspot.com/2016/09/los-7-…

Continúa leyendo, si te atreves...👻
#HorrorStats #HappyHalloween #DataAnalytics #Halloween #FelizLunes #dataviz #RStats #Python #ML
🚫No realizar una investigación reproducible💀

“Every analysis you do on a dataset will have to be redone 10-15 times before publication. Plan accordingly” Trevor A.Branch

No crear un informe replicable, reproducible y reutilizable sí que DA MIEDO

#HorrorStats #HappyHalloween
🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃

¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻

#HorrorStats #ML
🚫No distinguir la significación estadística de la significación práctica🤦🏻‍♀️p-valor nos dice la dirección y tamaño del efecto la magnitud

Que exista una diferencia no significa que sea grande

Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO!
#HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"

👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀
#HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"

😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙

Sientes ESCALOFRÍOS?
#HorrorStats #DataScience #Halloween2022 #RStats #Python
🚫Considerar que el nivel de significación alfa=5% es un mandamiento⛪️

😉El valor 5% es simplemente una convención conveniente, podría ser el 10% o el 1%, no existe un umbral real.

🎃#HorrorStats #DataScience #RStats #Python #Analytics #dataviz #analisisdedatos 👻
Lee más👇
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.

😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...

#HorrorStats
🚫No considerar el Error tipo III: resolver el problema incorrecto.

☠️¿Las hipótesis son las correctas? ¿Cuán plausible es H0? ¿Cuáles son las consecuencias de rechazar H0? El contexto es crucial

👻#HorrorStats #Halloween #Halloween2022 #DataScience #dataviz #RStats #Python 🎃
🚫Desconocer la potencia estadística

¿Alguna vez te lo has preguntado?
👉¿Puedo confiar en el resultado?
👉¿Cuántas muestras necesito?

Conocer la potencia estadística nos permite ahorrar tiempo y dinero en nuestras investigaciones, ¡¿cómo no te lo contaron antes?!

#HorrorStats
Interpretar correctamente los resultados de un análisis puede ser muy difícil😱

😎Para volverte un PRO en #DataScience no cometas los errores que te he mostrado en este hilo y usa esta guía para planificar y diseñar investigaciones rigurosas👇
#Halloween
maximaformacion.es/recursos/disen…
Recuerda👇

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Jun 2
🎯 ¿Quieres que tus clusters realmente representen la estructura de tus datos? Entonces no te olvides de escalar.

💡 Escalar bien tus datos puede cambiar radicalmente los resultados que obtienes. Aquí te explico por qué y cómo hacerlo mejor. 👇

#MachineLearning #DataScience Image
🧠 En el análisis de datos, hay decisiones que parecen “detalles técnicos” pero que cambian radicalmente los resultados. El escalado de características (feature scaling) es una de ellas. ¿Por qué es tan crucial cuando usamos algoritmos como el k-means?

#clustering #ML #KMeans
🔍 k-means agrupa observaciones minimizando distancias (normalmente euclidianas) a los centroides. ¿El problema? Si tus variables están en unidades diferentes (e.g. edad e ingresos), las de mayor rango dominan el cálculo de distancias. Resultado: clústeres sesgados.💥 Image
Read 7 tweets
May 31
📊 Errores comunes al analizar e interpretar datos (y cómo evitarlos)
En plena era de los datos, cometer errores al analizarlos puede salir muy caro.

👇🧵 Aquí tienes un repaso de los errores más comunes.

#stats #datascience #analytics #rstats Image
🔍 1. No tener claro el objetivo del estudio
¿Estás describiendo, explicando o prediciendo? No es lo mismo.
Ese objetivo define qué datos necesitas, cómo analizarlos y cómo interpretar los resultados.

+Info: x.com/RosanaFerrero/…
science.org/doi/10.1126/sc… Image
Image
📏 2. Usar muestras demasiado pequeñas
Muestras pequeñas pueden llevar a sobreajuste, baja precisión y falta de potencia.
Las reglas del pulgar no sirven. Calcula el tamaño muestral con fundamento.

+Info: linkedin.com/posts/rosanafe…Image
Read 13 tweets
May 30
🚨 ¿Todavía haces análisis complejos en hojas de cálculo? ¡🚨
Las hojas de cálculo son omnipresentes, versátiles y familiares, pero cuando se trata de análisis de datos complejos o decisiones críticas… se transforman en una bomba de relojería.💣👇🧵

#rstats #excel #spss #stats Image
💥 La cruda realidad: los errores son la norma, no la excepción
Estudios sistemáticos han demostrado que los errores en hojas de cálculo son tan comunes como invisibles. No hablamos solo de equivocarse al teclear un número. Hablamos de Errores lógicos, Fórmulas, Cambios, etc.! Image
Según Panko (2008), en grandes hojas de cálculo, no se trata de si hay errores, sino de cuántos hay. 💥
Y esto no es anecdótico: Image
Read 9 tweets
May 28
🔍 ¿Qué es la ordenación restringida?
👀 Es una técnica de análisis multivariante que sirve para explorar cómo se relacionan múltiples variables de respuesta (e.g. abundancia de especies) con múltiples variables explicativas (e.g. condiciones ambientales).

Te cuento más 👇🧵 Image
💡A diferencia de la ordenación no restringida (e.g. PCA/CA), aquí forzamos la representación de los datos a que esté condicionada por variables externas. Buscamos los ejes que mejor explican la variación, pero solo dentro del espacio definido por las variables explicativas. Image
🌱 Ejemplo ecológico clásico:
Imagina dos matrices:
- Matriz Y: presencia o abundancia de especies en diferentes sitios.
- Matriz X: variables ambientales medidas en esos mismos sitios (pH, altitud, nutrientes, temperatura…). Image
Read 11 tweets
May 21
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵

#stats #analytics #RStats #ModelDiagnostics #Estadística #DataScience #easystats #performance Image
Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇

🧪 Diagnóstico gráfico: lo que todo analista debería revisar: Image
🔍1️⃣ Residuos vs. valores ajustados
✔️ Ideal: dispersión aleatoria alrededor de 0 → indica linealidad y homocedasticidad
❌ Problemas:
Curvas = fallo en la linealidad
Forma de embudo = heterocedasticidad
🛠Solución: agrega términos no lineales o usa modelos con varianza flexible
Read 9 tweets
May 15
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔

🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵

#DataScience #stats Image
📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos. Image
✨ La RESPUESTA está en el CÁLCULO del tamaño de muestra.
Objetivo: Tener suficientes muestras para detectar un efecto real sin exagerar con muestras innecesarias.

🔑 Factores clave en el cálculo del tamaño de muestra: Image
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(