Rosana Ferrero 📈📊🙌 Profile picture
Oct 31, 2022 12 tweets 13 min read Read on X
🤯Tercer y última parte de ERRORES QUE DAN MIEDO en #DataScience 🎃

☠️ERRORES mortales que incluso los expertos cometen⚰️
rosanaferrero.blogspot.com/2016/09/los-7-…

Continúa leyendo, si te atreves...👻
#HorrorStats #HappyHalloween #DataAnalytics #Halloween #FelizLunes #dataviz #RStats #Python #ML
🚫No realizar una investigación reproducible💀

“Every analysis you do on a dataset will have to be redone 10-15 times before publication. Plan accordingly” Trevor A.Branch

No crear un informe replicable, reproducible y reutilizable sí que DA MIEDO

#HorrorStats #HappyHalloween
🚫No seleccionar la prueba de hipótesis o el modelo de regresión correcto para tu objetivo🎃

¿Cuáles son las hipótesis? ¿Cómo son las muestras? ¿Qué tipo de prueba/modelo elegir? ¿Una cola o dos colas? ¿Qué hacer si mis datos no cumplen los supuestos? BOOO!! 👻

#HorrorStats #ML
🚫No distinguir la significación estadística de la significación práctica🤦🏻‍♀️p-valor nos dice la dirección y tamaño del efecto la magnitud

Que exista una diferencia no significa que sea grande

Muestras muy grandes detectan diferencias muy pequeñas. Big Data da MIEDO!
#HorrorStats
🚫Decir "se comprueba la hipótesis nula H0" o "H0 es cierta"

👉Así como la falta de evidencia no demuestra que el acusado es inocente, un resultado no estadísticamente significativo (e.g. p>.05) no demuestra que H0 sea verdadera. Solo “no hay suficiente evidencia"💀
#HorrorStats
🚫Decir "el p-valor es la probabilidad de que H0 sea cierta"

😱Las hipótesis son o no son. p-valor mide la fuerza de la evidencia contra H0. A menor p-valor, mayor evidencia contra H0 a largo plazo🧙

Sientes ESCALOFRÍOS?
#HorrorStats #DataScience #Halloween2022 #RStats #Python
🚫Considerar que el nivel de significación alfa=5% es un mandamiento⛪️

😉El valor 5% es simplemente una convención conveniente, podría ser el 10% o el 1%, no existe un umbral real.

🎃#HorrorStats #DataScience #RStats #Python #Analytics #dataviz #analisisdedatos 👻
Lee más👇
🚫No informar el p-valor exacto ni los resultados completos de la prueba de hipótesis.

😱p-valor depende de:
📌tamaño de efecto (ES), ES grandes son más fáciles de detectar.
📌tamaño de muestra (N). muestras grandes dan pruebas más sensibles
📌Diseño de estudio...

#HorrorStats
🚫No considerar el Error tipo III: resolver el problema incorrecto.

☠️¿Las hipótesis son las correctas? ¿Cuán plausible es H0? ¿Cuáles son las consecuencias de rechazar H0? El contexto es crucial

👻#HorrorStats #Halloween #Halloween2022 #DataScience #dataviz #RStats #Python 🎃
🚫Desconocer la potencia estadística

¿Alguna vez te lo has preguntado?
👉¿Puedo confiar en el resultado?
👉¿Cuántas muestras necesito?

Conocer la potencia estadística nos permite ahorrar tiempo y dinero en nuestras investigaciones, ¡¿cómo no te lo contaron antes?!

#HorrorStats
Interpretar correctamente los resultados de un análisis puede ser muy difícil😱

😎Para volverte un PRO en #DataScience no cometas los errores que te he mostrado en este hilo y usa esta guía para planificar y diseñar investigaciones rigurosas👇
#Halloween
maximaformacion.es/recursos/disen…
Recuerda👇

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Rosana Ferrero 📈📊🙌

Rosana Ferrero 📈📊🙌 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @RosanaFerrero

Feb 10
𝑽𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒅𝒆 𝑪𝒐𝒏𝒇𝒖𝒔𝒊ó𝒏: riesgos, límites y consideraciones críticas👇🧵
¿Qué es un confusor? ¿Cuáles son sus consecuencias?
¿Cómo evitar problemas de confusores? ¿Qué limitaciones debemos tener en cuenta?

#stats #datascience #master #analytics #cienciadedatos Image
¿Qué es? Una variable de confusión (o confusor) es un tercer factor que cambia la asociación entre otras 2 variables: la exposición (e.g. el factor de riesgo que se estudia) y el resultado (e.g. el efecto en la salud).

3 condiciones👇 Image
¿Consecuencias? El efecto real de la exposición se mezcla con el efecto de otros factores que también influyen en el resultado, dificultando la identificación de la verdadera relación causal.

Puede alterar los resultados en magnitud o dirección.

#datascience #master #analytics Image
Read 7 tweets
Feb 4
🚨𝐏𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚: 𝐧𝐨 𝐥𝐨 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐪𝐮𝐞𝐬 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐞𝐬𝐩𝐞𝐫𝐚𝐬, 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐜𝐚́𝐥𝐚 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐧𝐨 𝐪𝐮𝐢𝐞𝐫𝐞𝐬 𝐩𝐚𝐬𝐚𝐫 𝐩𝐨𝐫 𝐚𝐥𝐭𝐨
Te cuento por qué👇🧵

#stats #datascience #analytics #dataanalysis Image
𝐋𝐚 𝐩𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚 es 1−β: la probabilidad de evitar un 𝐞𝐫𝐫𝐨𝐫 𝐝𝐞 𝐭𝐢𝐩𝐨 II, es decir, de no pasar por alto un efecto real del tamaño especificado. Una potencia baja implica un alto riesgo de concluir que no hay efecto cuando sí existe.
#master Image
Por eso, el enfoque correcto no es basarse en el efecto esperado, sino en el 𝐭𝐚𝐦𝐚𝐧̃𝐨 𝐝𝐞𝐥 𝐞𝐟𝐞𝐜𝐭𝐨 𝐝𝐞 𝐢𝐧𝐭𝐞́𝐫𝐞𝐬 𝐦𝐚́s 𝐩𝐞𝐪𝐮𝐞𝐧̃𝐨 (𝐒𝐄𝐒𝐎𝐈). Esto define el umbral de relevancia científica o práctica que no queremos pasar por alto.
#cienciadedatos #phd Image
Read 6 tweets
Jan 30
😱 ¿Tienes varias mediciones de un mismo sujeto, sensor o ciudad? ¡Cuidado! Tratarlas como si fueran observaciones independientes (e.g. tratar 25 mediciones de 5 sujetos como si fueran 25 sujetos distintos) es cometer pseudoreplicación. Y este error invalida tus conclusiones:👇🧵 Image
1️⃣Inferencia
Al ignorar la dependencia, el modelo asume que cada dato aporta información nueva y única. Esto subestima el error estándar e infla los estadísticos de prueba.
Consecuencia: Aumentan los falsos positivos y se distorsionan artificialmente los intervalos de confianza.
2️⃣ Estimación de Efectos (Intra vs. Inter)
Impide distinguir entre la variabilidad intra-sujetos (cambios en el tiempo) y inter-sujetos (diferencias inherentes).
Consecuencia: Los efectos aparentan ser más precisos de lo que realmente son, y puedes caer en la Paradoja de Simpson.
Read 9 tweets
Jan 25
⚽ En este post tienes una introducción divulgativa y práctica al papel del data scientist en el fútbol, explicando qué datos se generan, cómo se analizan y para qué se usan en la toma de decisiones deportivas.


#stats #datascience #ML #LaLiga #dataviz maximaformacion.es/blog-ciencia-d…Image
Hoy cada partido y entrenamiento producen una avalancha de información que ya no se puede gestionar solo con intuición.
El data scientist entra en escena para responder preguntas que antes no tenían respuesta clara:

#MachineLearning #EstadísticaDeportivo #InnovaciónDeportiva Image
El fútbol sigue siendo emocional. Pero la toma de decisiones ya no lo es tanto.
Cada vez más clubes (grandes y pequeños) tienen equipos internos de datos. Porque decidir fichajes, rotaciones o planteamientos sin datos hoy es asumir desventaja estructural.

#AnálisisDeDatos Image
Image
Image
Read 4 tweets
Jan 22
🚨𝗖𝗼́𝗺𝗼 𝗲𝘃𝗮𝗹𝘂𝗮𝗿 𝘂𝗻 𝗺𝗼𝗱𝗲𝗹𝗼 𝗽𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝘃𝗼: decenas de métricas... y mucha confusión
La evaluación de modelos predictivos está plagada de métricas (¡existen más de 30!), pero ¿Qué preguntas responden realmente?

𝟱 𝗱𝗶𝗺𝗲𝗻𝘀𝗶𝗼𝗻𝗲𝘀 conceptuales👇🧵 Image
👉 Si no distingues estos dominios, estás evaluando mal el modelo, aunque los números “salgan bien”.

Artículo:

#stats #analytics #Estadística #DataScience #ModelosPredictivos #IA #ML hal.science/hal-04841858v1…Image
👀 Interpretación de cada dimensión (y sus peligros) Image
Read 5 tweets
Jan 21
𝗨𝗡𝗔 𝗠𝗔𝗧𝗥𝗜𝗭 𝗗𝗘 𝗖𝗢𝗡𝗙𝗨𝗦𝗜𝗢́𝗡 𝗡𝗢 𝗦𝗜𝗥𝗩𝗘 𝗣𝗔𝗥𝗔 “𝗩𝗘𝗥 𝗦𝗜 𝗘𝗟 𝗠𝗢𝗗𝗘𝗟𝗢 𝗔𝗖𝗜𝗘𝗥𝗧𝗔 𝗠𝗨𝗖𝗛𝗢”,
𝗦𝗜𝗡𝗢 𝗣𝗔𝗥𝗔 𝗘𝗡𝗧𝗘𝗡𝗗𝗘𝗥 𝗖𝗢́𝗠𝗢 𝗦𝗘 𝗘𝗤𝗨𝗜𝗩𝗢𝗖𝗔.

¿Cómo evaluar qué errores comete, con qué frecuencia y a qué coste?

#stats Image
▶︎ 𝗘𝗫𝗔𝗖𝗧𝗜𝗧𝗨𝗗 (𝗔𝗖𝗖𝗨𝗥𝗔𝗖𝗬)
Porcentaje total de aciertos.
⚠️ Si una clase es mayoritaria, un modelo trivial que siempre predice esa clase puede tener una exactitud alta sin capacidad predictiva real.

Debes superar la tasa de no información (% clase mayoritaria)
▶︎ 𝗦𝗲𝗻𝘀𝗶𝗯𝗶𝗹𝗶𝗱𝗮𝗱 (𝗥𝗲𝗰𝗮𝗹𝗹, 𝗧𝗣𝗥)
Capacidad de detectar positivos reales.
Penaliza falsos negativos.

▶︎ 𝗘𝘀𝗽𝗲𝗰𝗶𝗳𝗶𝗰𝗶𝗱𝗮𝗱 (𝗧𝗡𝗥)
Capacidad de identificar negativos reales.
Penaliza falsos positivos.

Optimizar una suele empeorar la otra.
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(