Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD. Bioestadística | Data Science + Machine Learning | 🎓 Directora académica y Docente 💙 #RStats 😉 Stats is the grammar of science🇺🇾🇪🇸
Mar 21 5 tweets 2 min read
📚 4 libros de referencia sobre Divulgación Estadística.
Para disfrutarlos e inspirarte.

Y si conoces otro libro para recomendar, déjalo en comentarios.

#stats #DataScience #books #LibrosRecomendados #DataLiteracy #StatisticalThinking #ProfessionalDevelopment #Analytics Image 1️⃣ "The Art of Statistics: Learning from Data" David Spiegelhalter
Rigor académico accesible. Explica conceptos fundamentales a través de casos reales y actuales, desde ensayos clínicos hasta análisis de políticas públicas.
Regalo de @Capitan_Swing, estoy esperando el segundo 😜 Image
Mar 17 8 tweets 2 min read
𝗣𝗹𝗮𝗻𝘁𝗶𝗹𝗹𝗮𝘀 𝗲𝗻 𝗥 𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝘆 𝗤𝘂𝗮𝗿𝘁𝗼: 𝗲𝗹 𝗮𝘁𝗮𝗷𝗼 𝗽𝗮𝗿𝗮 𝗻𝗼 𝗲𝗺𝗽𝗲𝘇𝗮𝗿 𝘀𝗶𝗲𝗺𝗽𝗿𝗲 𝗱𝗲𝘀𝗱𝗲 𝗰𝗲𝗿𝗼
Una de las herramientas más infravaloradas en los flujos de trabajo reproducibles con R Markdown y Quarto son las plantillas.👇🧵
#rstats No son solo estética, sirven para estandarizar el análisis, ahorrar tiempo y reducir errores.
Define de antemano:
• estructura del documento
• configuración
• estilo visual
• secciones típicas del análisis
• formato de tablas y gráficos
Crea el esqueleto y un estándar.
Mar 3 9 tweets 2 min read
🙈 ʟᴀ ᴄᴇɢᴜᴇʀᴀ ᴅᴇʟ ᴛᴀᴍᴀɴ̃ᴏ ᴅᴇ ᴇꜰᴇᴄᴛᴏ
No confundas magnitud (ni significación estadística) con relevancia práctica.
El tamaño de efecto, por sí solo, es una medida abstracta de fuerza de relación o magnitud de diferencia. Necesita un criterio de referencia.🧵 Image El tamaño de efecto (ES, effect size) es "ciego" a 3 factores que determinan si un resultado es un hito científico o simple ruido.

ʟᴏ ǫᴜᴇ ᴇs ᴇsᴛᴀᴅɪ́sᴛɪᴄᴀᴍᴇɴᴛᴇ ɢʀᴀɴᴅᴇ ᴘᴜᴇᴅᴇ sᴇʀ ᴘʀᴀ́ᴄᴛɪᴄᴀᴍᴇɴᴛᴇ ɪʀʀᴇʟᴇᴠᴀɴᴛᴇ.

#stats #datascience #estadistica Image
Feb 27 4 tweets 2 min read
📅 𝗘𝗹 𝗰𝗮𝗼𝘀 𝗱𝗲 𝗹𝗮𝘀 𝗳𝗲𝗰𝗵𝗮𝘀 𝗲𝗻 𝗮𝗻á𝗹𝗶𝘀𝗶𝘀 𝗱𝗲 𝗱𝗮𝘁𝗼𝘀 (𝘆 𝗰ó𝗺𝗼 𝗱𝗼𝗺𝗶𝗻𝗮𝗿𝗹𝗼)
Trabajar con fechas en análisis de datos es una fuente constante de errores. Especialmente cuando el flujo depende de hojas de cálculo.

#rstats #datascience #analytics Image • Conversión automática sin aviso.
• Formatos ambiguos → DD/MM/AAAA vs MM/DD/AAAA.
• Fechas como texto → Cadenas.
• Zonas horarias inconsistentes → UTC, GMT, hora local. Inconsistencias invisibles.
• Operaciones erróneas → Restas que dan números inesperados. Image
Feb 26 7 tweets 3 min read
💡 𝗖𝗼𝗻𝘀𝗲𝗷𝗼𝘀 𝗽𝗮𝗿𝗮 𝗾𝘂𝗲 𝗰𝗼𝗺𝗲𝗻𝘇𝗮𝗿 𝗰𝗼𝗻 𝗥 𝘁𝗲 𝘀𝗲𝗮 𝗮ú𝗻 𝗺á𝘀 𝘀𝗲𝗻𝗰𝗶𝗹𝗹𝗼
Empezar con R no es difícil. Lo que lo vuelve complejo es no conocer bien el entorno. Estos consejos reducen fricción desde el primer día.
maximaformacion.es/blog-dat/truco…Image 𝟭. 𝗨𝘀𝗮 𝗜𝗺𝗽𝗼𝗿𝘁 𝗗𝗮𝘁𝗮𝘀𝗲𝘁 𝗽𝗮𝗿𝗮 𝗮𝗽𝗿𝗲𝗻𝗱𝗲𝗿 𝗮 𝗶𝗺𝗽𝗼𝗿𝘁𝗮𝗿 𝗯𝗶𝗲𝗻
La interfaz de RStudio te permite importar .csv, Excel o SPSS viendo en tiempo real cómo se genera el código.
Consejo: copia ese código a tu script. La reproducibilidad empieza ahí.
Feb 25 10 tweets 2 min read
🤣 Cuando un modelo de regresión lineal supera a un modelo de aprendizaje profundo...
Muchos piensan que los modelos de deep learning son los más avanzados y precisos. Sin embargo, en ciertas situaciones, ¡Un simple modelo de regresión lineal puede superarlos! ¿Cómo es posible?👇 1️⃣ Datos limitados: Los modelos de aprendizaje profundo requieren grandes cantidades de datos para entrenarse. Si solo dispones de un conjunto de datos pequeño, la regresión lineal puede ofrecer mejores resultados debido a su menor complejidad y menor riesgo de sobreajuste.
Feb 19 7 tweets 2 min read
Ningún modelo es perfecto. La cuestión relevante no es si los supuestos fallan, sino cómo, cuánto y con qué consecuencias.
No todos los incumplimientos de los supuestos son iguales. Algunos afectan la esencia del estimador, otros solo la precisión con la que lo interpretamos.👇 Image - La mala especificación funcional del modelo (no-linealidad) es un problema estructural: genera sesgo e inconsistencia de los estimadores. Incluso con gran N, el estimador converge hacia un valor incorrecto. Necesitas replantear la función del modelo (no lineales, splines, etc).
Feb 10 7 tweets 2 min read
𝑽𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒅𝒆 𝑪𝒐𝒏𝒇𝒖𝒔𝒊ó𝒏: riesgos, límites y consideraciones críticas👇🧵
¿Qué es un confusor? ¿Cuáles son sus consecuencias?
¿Cómo evitar problemas de confusores? ¿Qué limitaciones debemos tener en cuenta?

#stats #datascience #master #analytics #cienciadedatos Image ¿Qué es? Una variable de confusión (o confusor) es un tercer factor que cambia la asociación entre otras 2 variables: la exposición (e.g. el factor de riesgo que se estudia) y el resultado (e.g. el efecto en la salud).

3 condiciones👇 Image
Feb 4 6 tweets 3 min read
🚨𝐏𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚: 𝐧𝐨 𝐥𝐨 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐪𝐮𝐞𝐬 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐞𝐬𝐩𝐞𝐫𝐚𝐬, 𝐩𝐥𝐚𝐧𝐢𝐟𝐢𝐜𝐚́𝐥𝐚 𝐩𝐚𝐫𝐚 𝐥𝐨 𝐪𝐮𝐞 𝐧𝐨 𝐪𝐮𝐢𝐞𝐫𝐞𝐬 𝐩𝐚𝐬𝐚𝐫 𝐩𝐨𝐫 𝐚𝐥𝐭𝐨
Te cuento por qué👇🧵

#stats #datascience #analytics #dataanalysis Image 𝐋𝐚 𝐩𝐨𝐭𝐞𝐧𝐜𝐢𝐚 𝐞𝐬𝐭𝐚𝐝𝐢𝐬𝐭𝐢𝐜𝐚 es 1−β: la probabilidad de evitar un 𝐞𝐫𝐫𝐨𝐫 𝐝𝐞 𝐭𝐢𝐩𝐨 II, es decir, de no pasar por alto un efecto real del tamaño especificado. Una potencia baja implica un alto riesgo de concluir que no hay efecto cuando sí existe.
#master Image
Jan 30 9 tweets 2 min read
😱 ¿Tienes varias mediciones de un mismo sujeto, sensor o ciudad? ¡Cuidado! Tratarlas como si fueran observaciones independientes (e.g. tratar 25 mediciones de 5 sujetos como si fueran 25 sujetos distintos) es cometer pseudoreplicación. Y este error invalida tus conclusiones:👇🧵 Image 1️⃣Inferencia
Al ignorar la dependencia, el modelo asume que cada dato aporta información nueva y única. Esto subestima el error estándar e infla los estadísticos de prueba.
Consecuencia: Aumentan los falsos positivos y se distorsionan artificialmente los intervalos de confianza.
Jan 25 4 tweets 3 min read
⚽ En este post tienes una introducción divulgativa y práctica al papel del data scientist en el fútbol, explicando qué datos se generan, cómo se analizan y para qué se usan en la toma de decisiones deportivas.


#stats #datascience #ML #LaLiga #dataviz maximaformacion.es/blog-ciencia-d…Image Hoy cada partido y entrenamiento producen una avalancha de información que ya no se puede gestionar solo con intuición.
El data scientist entra en escena para responder preguntas que antes no tenían respuesta clara:

#MachineLearning #EstadísticaDeportivo #InnovaciónDeportiva Image
Jan 22 5 tweets 2 min read
🚨𝗖𝗼́𝗺𝗼 𝗲𝘃𝗮𝗹𝘂𝗮𝗿 𝘂𝗻 𝗺𝗼𝗱𝗲𝗹𝗼 𝗽𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝘃𝗼: decenas de métricas... y mucha confusión
La evaluación de modelos predictivos está plagada de métricas (¡existen más de 30!), pero ¿Qué preguntas responden realmente?

𝟱 𝗱𝗶𝗺𝗲𝗻𝘀𝗶𝗼𝗻𝗲𝘀 conceptuales👇🧵 Image 👉 Si no distingues estos dominios, estás evaluando mal el modelo, aunque los números “salgan bien”.

Artículo:

#stats #analytics #Estadística #DataScience #ModelosPredictivos #IA #ML hal.science/hal-04841858v1…Image
Jan 21 10 tweets 2 min read
𝗨𝗡𝗔 𝗠𝗔𝗧𝗥𝗜𝗭 𝗗𝗘 𝗖𝗢𝗡𝗙𝗨𝗦𝗜𝗢́𝗡 𝗡𝗢 𝗦𝗜𝗥𝗩𝗘 𝗣𝗔𝗥𝗔 “𝗩𝗘𝗥 𝗦𝗜 𝗘𝗟 𝗠𝗢𝗗𝗘𝗟𝗢 𝗔𝗖𝗜𝗘𝗥𝗧𝗔 𝗠𝗨𝗖𝗛𝗢”,
𝗦𝗜𝗡𝗢 𝗣𝗔𝗥𝗔 𝗘𝗡𝗧𝗘𝗡𝗗𝗘𝗥 𝗖𝗢́𝗠𝗢 𝗦𝗘 𝗘𝗤𝗨𝗜𝗩𝗢𝗖𝗔.

¿Cómo evaluar qué errores comete, con qué frecuencia y a qué coste?

#stats Image ▶︎ 𝗘𝗫𝗔𝗖𝗧𝗜𝗧𝗨𝗗 (𝗔𝗖𝗖𝗨𝗥𝗔𝗖𝗬)
Porcentaje total de aciertos.
⚠️ Si una clase es mayoritaria, un modelo trivial que siempre predice esa clase puede tener una exactitud alta sin capacidad predictiva real.

Debes superar la tasa de no información (% clase mayoritaria)
Jan 19 5 tweets 2 min read
¿Qué revelan los residuos que no dicen los coeficientes ni los p-values ni las métricas de ajuste?
R² elevado, AIC bajo o accuracy aceptable no asegura que los errores estándar estén bien estimados, que los p-values tengan sentido o las predicciones fuera de muestra sean estables Image La inferencia depende del comportamiento del residuo.
Coeficientes resumen una relación promedio bajo el modelo impuesto. P-values evalúan compatibilidad con una H0 bajo supuestos. Métricas de ajuste cuantifican cuánto explica el modelo.
👉Ninguno muestra cómo falla el modelo
Jan 17 10 tweets 3 min read
🚨 Mitos acerca de los intervalos de confianza 🚨
Los IC, tan populares en investigación, a menudo se malinterpretan y se utilizan para obtener conclusiones equivocadas.

Lo que crees vs. lo que realmente son los IC:👇🧵

#stats #datascience #estadistica #cienciadedatos #rstats Image Mito 1️⃣
❌ Un IC del 95% contiene el valor verdadero del parámetro con una probabilidad del 95%.
✅ Realidad: No. El 95% es la tasa de éxito del procedimiento a largo plazo. Para un IC específico, el parámetro está dentro o no (1 o 0) una vez calculados los datos.
Jan 16 7 tweets 2 min read
📏 La mayoría de las medidas de tamaño de efecto no se interpretan solas.
Cohen’s d, f, r, r², η², ω², V de Cramér…
Todas comparten el mismo problema: son números sin significado práctico si no existe un criterio previo de relevancia.👇🧵

#stats #datascience #analytics Image Los umbrales clásicos (“pequeño”, “medio”, “grande”) son convenciones históricas, dependientes del contexto, de la variabilidad y del diseño.
Aplicarlos de forma automática es un error.

Aquí es donde entra el SESOI (Smallest Effect Size Of Interest).
Jan 15 7 tweets 2 min read
🦖📊 El dinosaurio que vive dentro de tus promedios (y de todos los estadísticos de resumen).
Media, desviación típica, correlación. Todo correcto. Todo idéntico. Y, sin embargo, los datos cuentan historias radicalmente distintas cuando se miran.👇🧵

#stats #datascience #rstats Image Anscombe lo mostró hace décadas. El Datasaurus lo hizo viral.
Chatterjee, Matejka y otros lo formalizaron con algoritmos: puedes construir infinitos conjuntos de datos con las mismas estadísticas pero gráficas distintas. Todos con el mismo “resumen”.

Y este es el mensaje clave:
Jan 11 7 tweets 2 min read
📌 Si trabajas con R y te interesa cómo los LLM pueden integrarse en tu flujo de trabajo, merece la pena dedicarle un tiempo al análisis de Luis D. Verde Arregoitia.

Su revisión es exhaustiva y actualizada, y va mucho más allá de simplemente “conectar R con ChatGPT”. Cubre:👇🧵 Image 🔹 Paquetes generales para interactuar con múltiples proveedores de LLM: wizrd, chatLLM, axolotr, llmR, tidyllm, gptstudio. APIs, integración con RStudio y el manejo de contexto.

🔹 Modelos locales (ollamar, rollama) para garantizar privacidad y reproducibilidad.

#AITools #code
Jan 10 7 tweets 2 min read
🧠 Un error crítico que casi nadie cuestiona: no definir 𝐪𝐮𝐞́ 𝐞𝐟𝐞𝐜𝐭𝐨 𝐞𝐬 𝐫𝐞𝐥𝐞𝐯𝐚𝐧𝐭𝐞 antes de evaluarlo. Llamemos a esto el 𝐒𝐄𝐒𝐎𝐈: el Smallest Effect Size of Interest, o el tamaño del efecto más pequeño que tiene relevancia práctica o teórica.👇🧵

#stats Image ¿Qué diferencias serían lo suficientemente grandes como para cambiar una decisión, un diseño de producto, un tratamiento clínico o una inversión?

Muchos diseñan estudios, interpretan resultados y comunican métricas sin criterio de relevancia práctica.

Alternativa: SESOI Image
Jan 4 4 tweets 2 min read
🚨 No todos los outliers se detectan igual ni se manejan igual.🚨
La decisión depende de su tipo y del objetivo del análisis.

¿Cómo diferenciar, detectar y manejar los distintos tipos de outliers?👇🧵

#stats #datascience #analytics #estadistica #cienciadedatos Image Los valores atípicos u outliers son observaciones que se desvían de manera significativa del patrón general de los datos. Su aparición puede tener varias causas: errores de registro o medición, procesos naturales con alta variabilidad, cambios estructurales o fenómenos raros. Image
Jan 3 7 tweets 3 min read
📌 ¿Cómo interpretar una interacción en un modelo de regresión? Una guía práctica con R.
👉 Las interacciones son fundamentales para representar relaciones no aditivas entre variables. Sin embargo, su interpretación puede ser compleja y a menudo lleva a errores conceptuales.👇🧵 Image 🧠 Cuando incluimos un término de interacción, estamos admitiendo que el efecto de una variable sobre la respuesta depende del nivel de otra. Esto exige un enfoque diferente: más cuidadoso, más visual, y sobre todo, más contextualizado.
💡3 claves para comprender una interacción: Image