Rosana Ferrero 📈📊🙌's Threads

Jun 22 • 5 tweets • 3 min read

🚨 ¿Qué es realmente el p-valor y por qué debería importarte?

El p-valor es un sistema de alarma, una "línea de defensa" contra el ruido.

👉 Úsalo para calibrar cuánto te sorprende lo que estás viendo y qué tan dispuesto estás de cambiar tus creencias.

#stats #datascience

Cuando un investigador dice que un resultado es "estadísticamente significativo" (o discernible, habitualmente p < 0.05), no está certificando la verdad, sino señalando que, si el mundo fuera como asume nuestra H0 (y sus supuestos), lo que acabamos de observar sería muy inusual.

Jun 18 • 7 tweets • 3 min read

⚖️El diseño de estudio e inferencia estadística son una gestión de riesgo y errores
Nuestra tarea no es "evitar totalmente los errores" (eso es imposible).
Nuestra tarea es decidir qué errores estamos dispuestos a tolerar basándonos en el coste que suponen para nuestra comunidad.

Un test de hipótesis no es un ejercicio de búsqueda de la verdad, sino una estrategia para gestionar el riesgo bajo incertidumbre.
Muchos fijan alfa = 0.05 y 1-beta = 0.80 por defecto, y eso en muchos casos está bien, pero en otros tenemos que pensar mejor las consecuencias.

Jun 17 • 8 tweets • 2 min read

🔥 ¿Qué modelo de regresión elegir? Guía para investigadores (más allá de los mitos)
👉 (spoiler) Aunque los residuos son el juez final, tú debes ser el arquitecto. Empieza por comprender el origen de tus datos antes de tocar el software.👇🧵

#stats #datascience #estadística

No fuerces tus datos en modelos inadecuados, ni te pierdas en el laberinto de las siglas (LM, GLM, GAMM, GLMM). Utiliza esta guía rápida para elegir el modelo adecuado.

La ruta lógica recomendada para no perderte en el proceso es:
Diseño -> Modelo -> Diagnóstico

Jun 16 • 5 tweets • 2 min read

💡Planifica tu estudio para no perderte lo importante

La potencia estadística garantiza que tu estudio tenga el tamaño de muestra necesario para detectar un efecto de interés y evitar así los falsos negativos.

Pero, ¿qué efecto de interés?👇🧵

#cienciadedatos #estadistica

A menudo, los investigadores evitan el cálculo de potencia con la excusa de que "no conocen el tamaño del efecto". Mi consejo: 𝐧𝐨 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐪𝐮𝐞𝐬 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐞𝐬𝐩𝐞𝐫𝐚𝐬, 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐜𝐚 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐧𝐨 𝐪𝐮𝐢𝐞𝐫𝐞𝐬 𝐩𝐚𝐬𝐚𝐫 𝐩𝐨𝐫 𝐚𝐥𝐭𝐨.

Jun 15 • 11 tweets • 3 min read

💡¿Puede un resultado con 6 sigma estar equivocado?
Sí. Y eso no desacredita a la estadística. Nos enseña a utilizarla mejor.

OPERA y los neutrinos que viajaban más rápido que la luz.🧵👇

#stats #cienciadedatos #Estadística #DiseñoDeInvestigación #DataScience #AnálisisDeDatos

En 2011, el experimento OPERA anunció un hallazgo que parecía revolucionario: los neutrinos habrían viajado más rápido que la luz. Y con un nivel de 6 sigma, algo extraordinariamente exigente en física.
Si era cierto, las bases de la relatividad de Einstein quedaba en entredicho.

Jun 14 • 5 tweets • 2 min read

💡¿Cómo evaluar que algo es relevante además de estadísticamente significativo?

Un resultado puede ser discernible/detectable y, aun así, ser irrelevante para tomar decisiones.

O puede no ser concluyente simplemente porque no tenemos suficiente precisión.

Guía práctica 🧵👇

Muchos celebran un p<0,05 como si fuese la meta final, y no se preguntan:

👉 ¿Es un efecto lo suficientemente grande como para importar? ¿Es preciso?

Consejo: Evalúa la relevancia práctica y el diseño.

Compara:
• El tamaño del efecto observado (y su IC 95%)
vs.
• El SESOI

Jun 5 • 5 tweets • 3 min read

🤔¿Por qué usamos α = 0,05 como si fuera una ley universal… y tan pocas veces lo justificamos? ¿Has leído artículos en los que el nivel de significación parece "adaptarse" a los resultados? ¿O interpretaciones de tipo "marginalmente significativo"?

linkedin.com/posts/rosanafe…

La elección de α es una decisión de diseño estadístico: α es un criterio que controla la probabilidad de cometer un error de tipo I bajo H₀. Fija el umbral a partir del cual consideramos un resultado "suficientemente inusual" bajo H₀ (y los supuestos del modelo).
Cómo elegirlo?

Jun 1 • 6 tweets • 2 min read

🤖 ¿Sabías que puedes integrar GitHub Copilot en tu flujo de trabajo con R y RStudio?
GitHub Copilot es un asistente de IA que te sugiere código, funciones, comentarios y documentación en tiempo real mientras trabajas en RStudio IDE.

#DataScience #GitHubCopilot #RStudio #IA

¿Qué puedes hacer con él?
- Completar líneas de código o bloques enteros de funciones.
- Recibir sugerencias alternativas para resolver un problema de forma eficiente.
- Generar comentarios y documentación rápida para tus scripts.
- Ahorrar tiempo en tareas repetitivas.

#stats

May 28 • 5 tweets • 4 min read

🛑 𝗘𝗹 𝗮𝗿𝘁𝗲 𝗱𝗲 𝗻𝗼 𝗺𝗲𝗻𝘁𝗶𝗿(𝘀𝗲) 𝗰𝗼𝗻 𝗹𝗼𝘀 𝗱𝗮𝘁𝗼𝘀: 3 consejos para una mejor inferencia estadística
La inferencia estadística exige rigor conceptual antes, durante y después del análisis.
3 pilares innegociables que deberíamos grabarnos a fuego:🔥👇

#stats

¿Qué paso de este flujo crees que se pasa más por alto en las publicaciones actuales? Te leo en los comentarios. 👇

#stats #Estadistica #Inferencia #DataScience #CienciaDeDatos #Investigacion #Metodologia #research #phd #thesis #analytics #analisisdedatos

May 27 • 7 tweets • 3 min read

📊El error gráfico que costó 7 vidas y una lección sobre el "Sesgo de Selección"
¿Sabías que el desastre del transbordador espacial Challenger en 1986 no ocurrió por falta de datos, sino por un error catastrófico al elegir cuáles datos mostrar?
Lecciones para tu próximo gráfico👇

El 28 de enero de 1986, el transbordador Challenger se desintegró a los 73 segundos de su lanzamiento. No fue solo una falla de ingeniería física sino un trágico error en el análisis y la visualización de datos.
Te resumo la historia:👇

May 24 • 5 tweets • 2 min read

🚪Cerrar todas las puertas: un análisis falla cuando no justifica por qué se eligió un camino específico frente a alternativas razonables.

Te enseño algunos ejemplos y cómo manejarlos.👇🧵

#stats #datascience #estadistica #cienciadedatos #analytics #analisisdedatos #research

El fallo ocurre cuando hay lagunas lógicas en tu estudio que obligan al lector a preguntarse "¿Por qué no hicieron X?"

E.g. ¿Por qué usaron este modelo complejo en lugar de uno simple? ¿Por qué no consideró esta covariable? ¿Por qué no elimino estos outliers o valores ausentes?

May 22 • 4 tweets • 4 min read

👀 ¿Buscando conjuntos de datos gratuitos para aprender/practicar/crear tu portfolio de #stats #datascience #MachineLearning?
📣 Te dejo mi lista 👇

#cienciadedatos #analisisdedatos #estadistica #database #analytics #data #ML #BigData #datamining #datamining

✅ UCI ML Repositoryhttps://buff.ly/3E5H3Wa
✅ OMS salud buff.ly/3Wmt05X
✅ Zdataset buff.ly/3HSq5Ob
✅ Data Is Plural buff.ly/3vQUS55
✅ Data .gov del gobierno de EEUU buff.ly/2C4Z0p9
✅ NASA buff.ly/3FWL8wx

#RStats #Python

May 6 • 5 tweets • 2 min read

SMOTE y la falsa sensación de balanceo
💥𝗥𝗼𝗺𝗽𝗶𝗲𝗻𝗱𝗼 𝗺𝗶𝘁𝗼𝘀 𝗲𝗻 𝗠𝗟: 𝗲𝗹 𝗦𝗠𝗢𝗧𝗘 𝘆 𝗲𝗹 𝘀𝘂𝗯𝗺𝘂𝗲𝘀𝘁𝗿𝗲𝗼 podrían estar 𝗮𝗿𝗿𝘂𝗶𝗻𝗮𝗻𝗱𝗼 𝘁𝘂𝘀 𝗺𝗼𝗱𝗲𝗹𝗼𝘀

#stats #estadistica #cienciadedatos #ML #machinelearning #datascience #AI #imbalanceddata

Advertencia: 𝗰𝗼𝗿𝗿𝗲𝗴𝗶𝗿 𝗲𝗹 𝗱𝗲𝘀𝗯𝗮𝗹𝗮𝗻𝗰𝗲 de clases 𝗱𝗲 𝗳𝗼𝗿𝗺𝗮 𝗮𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝘀𝘂𝗲𝗹𝗲 𝘀𝗲𝗿 𝘂𝗻 𝗲𝗿𝗿𝗼𝗿

Crear datos sintéticos para balancear una clase minoritaria no añade información real, induce al sobreajuste y falta de precisión.

Apr 30 • 4 tweets • 2 min read

🧠 𝗣𝗶𝗲𝗻𝘀𝗮 𝗰𝗼𝗺𝗼 𝘂𝗻 𝗲𝘀𝘁𝗮𝗱í𝘀𝘁𝗶𝗰𝗼: 𝗹𝗮 𝗮𝗱𝘃𝗲𝗿𝘁𝗲𝗻𝗰𝗶𝗮 𝗱𝗲 𝗹𝗮 𝗥𝗦𝗦 𝘀𝗼𝗯𝗿𝗲 𝗹𝗮 𝗶𝗻𝘁𝗲𝗹𝗶𝗴𝗲𝗻𝗰𝗶𝗮 𝗮𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹
¿Por qué entender los datos, el sesgo y la incertidumbre será tan importante como saber usar ChatGPT/Gemini/Claude?

#AI

La IA es, fundamentalmente, estadística.
No entender estadística podría convertirse en una nueva forma de analfabetismo digital.
El desafío ya no es solo desarrollar herramientas más potentes, sino enseñar a pensar estadísticamente para usar la IA de manera segura y responsable.

Apr 28 • 10 tweets • 3 min read

🚨 ¿Interpretar o ignorar el efecto principal cuando hay interacciones? una guía 👇
La regla “Si hay interacción significativa, no interpretes el efecto principal” no siempre es correcta, sino que depende del contexto, modelo y pregunta.
Archivo:

#stats linkedin.com/posts/rosanafe…

La clave es entender:
👉 ¿Qué significa ese efecto principal cuando hay interacción?

Para eso necesitas distinguir entre dos tipos:

👉 Interacción ordinal
👉 Interacción disordinal

#datascience #cienciadedatos #estadistica #analytics #analisisdedatos #model #research #phd

Apr 26 • 4 tweets • 1 min read

💣 Recordatorio periódico: Cuidado con malinterpretar el R²
La interpretación “porcentaje de variación explicada" solo es cierta bajo condiciones concretas:
- Modelo lineal estimado por OLS
- Inclusión de intercepto
- Evaluación en la misma muestra usada para ajustar el modelo

Fuera de ese contexto, empieza a fallar.
- No mide capacidad predictiva fuera de muestra. Un modelo puede explicar bastante variación y, aun así, predecir mal fuera de muestra.
- No es comparable entre muestras distintas ni entre modelos con diferente variable respuesta.

#stats

Apr 22 • 10 tweets • 2 min read

💡La validación externa es una fotografía, no un certificado universal."Validado" no equivale a "apto para usarse sin más en cualquier situación", especialmente en modelos predictivos donde población, medición y contexto cambian.
Consejos para evaluar la validez de un modelo👇🧵

1️⃣ Lee la validación como evidencia parcial, no como garantía global. Antes de asumir que "funciona", pregúntate si tu contexto (pacientes, procesos, datos) se parece al de esa validación. Si no, estarías extrapolando, no aplicando.

Apr 15 • 4 tweets • 2 min read

Seguro que has escuchado hablar de la "potencia estadística" (por ejemplo, para estimar el tamaño de muestra que necesitas en tu estudio).
Sin embargo, hay 2 problemas recurrentes en cómo se utiliza este concepto en la práctica, y de los que poco se habla👇🧵
#stats #datascience

1️⃣ Sobre la elección de la potencia (¿80%, 90%, 70%?)
La potencia es una decisión de diseño que se fija en función de supuestos y criterios previos.

👉Puedes leer algunos ejemplos en este post:

#analytics #estadistica #cienciadedatos #research #clinical lnkd.in/eyKnsffD

Apr 11 • 6 tweets • 2 min read

Evaluar un modelo de regresión es una parte clave del análisis. Un modelo puede parecer “bueno” a simple vista, pero sin una evaluación rigurosa es fácil caer en conclusiones engañosas.
Ahora, para evaluar un modelo necesitas múltiples perspectivas y preguntas distintas👇🧵

¿Cómo evaluar un modelo?

1. Error de predicción (¿qué tan bien predigo?)
Métricas como RMSE o MAE evalúan la magnitud del error. Aquí es clave distinguir entre error en muestra y fuera de muestra: solo este último informa sobre generalización y permite detectar sobreajuste.

Mar 21 • 5 tweets • 2 min read

📚 4 libros de referencia sobre Divulgación Estadística.
Para disfrutarlos e inspirarte.

Y si conoces otro libro para recomendar, déjalo en comentarios.

#stats #DataScience #books #LibrosRecomendados #DataLiteracy #StatisticalThinking #ProfessionalDevelopment #Analytics

1️⃣ "The Art of Statistics: Learning from Data" David Spiegelhalter
Rigor académico accesible. Explica conceptos fundamentales a través de casos reales y actuales, desde ensayos clínicos hasta análisis de políticas públicas.
Regalo de @Capitan_Swing, estoy esperando el segundo 😜

Mar 17 • 8 tweets • 2 min read

𝗣𝗹𝗮𝗻𝘁𝗶𝗹𝗹𝗮𝘀 𝗲𝗻 𝗥 𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝘆 𝗤𝘂𝗮𝗿𝘁𝗼: 𝗲𝗹 𝗮𝘁𝗮𝗷𝗼 𝗽𝗮𝗿𝗮 𝗻𝗼 𝗲𝗺𝗽𝗲𝘇𝗮𝗿 𝘀𝗶𝗲𝗺𝗽𝗿𝗲 𝗱𝗲𝘀𝗱𝗲 𝗰𝗲𝗿𝗼
Una de las herramientas más infravaloradas en los flujos de trabajo reproducibles con R Markdown y Quarto son las plantillas.👇🧵
#rstats

No son solo estética, sirven para estandarizar el análisis, ahorrar tiempo y reducir errores.
Define de antemano:
• estructura del documento
• configuración
• estilo visual
• secciones típicas del análisis
• formato de tablas y gráficos
Crea el esqueleto y un estándar.

Share this page!

Enter URL or ID to Unroll