Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD, Statistics + Data Science + Machine Learning + Biology/Ecol 😉 Stats is the grammar of science 🎓 Directora académica y Docente 🏢 Consultora 💙 #RStats
Jun 11 13 tweets 4 min read
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨

¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯

#stats #rstats #DataScience Image 💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇

#Addins #RStudio #Estadística #Programación #analytics
Jun 10 13 tweets 5 min read
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot

📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵

#stats Image ❌ 8 razones para dejar de usar barplots para datos continuos

1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales. Image
Jun 8 14 tweets 2 min read
🔥 Errores que cometes en tus análisis de datos, y que (casi) nadie te ha contado. Excepto @AdrianOlszewski. Mi resumen:

🚨 13 Errores de Comprensión de Conceptos Estadísticos.

#stats #analytics #datascience #rstats #python #research #phd #thesis #pvalue @AdrianOlszewski 1. "La regresión logística no es una regresión". Error! Existe un malentendido del término "regresión" en estadística, que realmente incluye modelos como la regresión logística.
Jun 2 7 tweets 2 min read
🎯 ¿Quieres que tus clusters realmente representen la estructura de tus datos? Entonces no te olvides de escalar.

💡 Escalar bien tus datos puede cambiar radicalmente los resultados que obtienes. Aquí te explico por qué y cómo hacerlo mejor. 👇

#MachineLearning #DataScience Image 🧠 En el análisis de datos, hay decisiones que parecen “detalles técnicos” pero que cambian radicalmente los resultados. El escalado de características (feature scaling) es una de ellas. ¿Por qué es tan crucial cuando usamos algoritmos como el k-means?

#clustering #ML #KMeans
May 31 13 tweets 7 min read
📊 Errores comunes al analizar e interpretar datos (y cómo evitarlos)
En plena era de los datos, cometer errores al analizarlos puede salir muy caro.

👇🧵 Aquí tienes un repaso de los errores más comunes.

#stats #datascience #analytics #rstats Image 🔍 1. No tener claro el objetivo del estudio
¿Estás describiendo, explicando o prediciendo? No es lo mismo.
Ese objetivo define qué datos necesitas, cómo analizarlos y cómo interpretar los resultados.

+Info: x.com/RosanaFerrero/…
science.org/doi/10.1126/sc… Image
Image
May 30 9 tweets 3 min read
🚨 ¿Todavía haces análisis complejos en hojas de cálculo? ¡🚨
Las hojas de cálculo son omnipresentes, versátiles y familiares, pero cuando se trata de análisis de datos complejos o decisiones críticas… se transforman en una bomba de relojería.💣👇🧵

#rstats #excel #spss #stats Image 💥 La cruda realidad: los errores son la norma, no la excepción
Estudios sistemáticos han demostrado que los errores en hojas de cálculo son tan comunes como invisibles. No hablamos solo de equivocarse al teclear un número. Hablamos de Errores lógicos, Fórmulas, Cambios, etc.! Image
May 28 11 tweets 6 min read
🔍 ¿Qué es la ordenación restringida?
👀 Es una técnica de análisis multivariante que sirve para explorar cómo se relacionan múltiples variables de respuesta (e.g. abundancia de especies) con múltiples variables explicativas (e.g. condiciones ambientales).

Te cuento más 👇🧵 Image 💡A diferencia de la ordenación no restringida (e.g. PCA/CA), aquí forzamos la representación de los datos a que esté condicionada por variables externas. Buscamos los ejes que mejor explican la variación, pero solo dentro del espacio definido por las variables explicativas. Image
May 21 9 tweets 3 min read
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵

#stats #analytics #RStats #ModelDiagnostics #Estadística #DataScience #easystats #performance Image Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇

🧪 Diagnóstico gráfico: lo que todo analista debería revisar: Image
May 15 11 tweets 5 min read
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔

🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵

#DataScience #stats Image 📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos. Image
May 14 7 tweets 2 min read
👀 ¿Te has preguntado qué estadísticos y gráficos usar para cada tipo de variable y estudio?
✨ Tanto la variación como la covariación son esenciales en el análisis de datos.
Aquí te lo resumo de forma sencilla 👇🧵

#stats #dataviz #statistics #analytics #datascience Image La VARIACIÓN se ocupa de la dispersión dentro de una variable
La COVARIACIÓN se centra en las relaciones entre múltiples variables
Utilizar correctamente estas herramientas estadísticas puede enriquecer cualquier análisis de datos y ayudar a obtener conclusiones más robustas.📈🔍
May 13 6 tweets 2 min read
🔥 Las pruebas estadísticas más comunes son TODAS modelos lineales. 🔥

🧠 Por lo tanto, en lugar de utilizar cientos de pruebas diferentes, ¿por qué no usar un modelo que realiza todas tus pruebas en una sola estructura flexible y robusta?

Te lo resumo en este post:👇🧵 Image 🤔 Cuando piensas en ANOVA, t-tests, test de Mann-Whitney o test Chi-cuadrado, crees que estás aplicando métodos diferentes, pero la realidad es que todos son casos especiales del Modelo Lineal.
🌟 3 razones por las que los modelos de regresión lineal deben ser tu primera opción:
May 11 9 tweets 5 min read
🚨Los datos ausentes están por todas partes🚨
👉Los NA pueden invalidar los resultados de tu estudio
👉Muchas funciones automáticas pueden no ser las más óptimas para manejarlos
👉El tratamiento incorrecto de los NA puede llevar a conclusiones erróneas o sesgadas
¿Qué hacer?👇🧵 Image 👀 ¿Qué hacer con los NA? 🤔
1️⃣ Identifica los datos ausentes y comprende por qué faltan:
👉 Errores humanos
👉 Interrupciones en el flujo de datos (como meses sin registro)
👉 Problemas de privacidad
👉 Sesgo: Como cuando ciertos participantes del estudio tienen más NA que otros Image
May 9 14 tweets 3 min read
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo?
¡No entres en pánico! 🧘‍♀️🧠 Un p > 0.05 no es el fin del análisis, sino el inicio de una buena reflexión.

Hoja de ruta🧵👇🏻

#stats #datascience #analytics #inference #pvalue #rstats #research #thesis Image 🔥 1. Evita conclusiones simplistas
No estadísticamente significativo (discernible o detectable) ≠ No hay efecto
👉 El p-valor NO te dice si la hipótesis nula es verdadera. Solo indica la compatibilidad de los datos con esa hipótesis, asumiendo que sea cierta.
May 6 8 tweets 2 min read
🔥 ¿QUÉ MODELO DE REGRESIÓN DEBERÍAS ELEGIR? (UNA GUÍA SENCILLA) 🔥
¿Te suena a conjuro estadístico esto de LM, GLM, GAMM, GLMM...?
🧙‍♂️ Tranquilidad. Vamos paso a paso. Te prometo solo necesitas realizar unos simples pasos para elegir el modelo más adecuado para tu problema:👇🧵 Image 📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM)
(Si se cumplen sus supuestos: linealidad, homocedasticidad, normalidad, independencia…)
🚫 No → ¡Sigue leyendo!
Apr 26 8 tweets 5 min read
💡Una de las mejores herramientas que conozco (y de las que más recomiendo) es R Markdown… o su evolución, Quarto.
Siempre que puedo, la incluyo en los cursos/Másters que doy.👌
🧵👇 Hoy un hilo de experiencias y recursos en el que espero que participes con tus aportes.

#rstats ¿Por qué? Porque permite integrar código, resultados y explicaciones en un solo documento.
Eso ahorra tiempo, evita errores y, sobre todo, mejora la reproducibilidad y la comunicación de los análisis.

En mis clases suelo proponer a los estudiantes que reflexionen sobre:
Apr 21 9 tweets 2 min read
👀 ¿Cómo evoluciona el análisis desde una comparación de medias simple (ANOVA / t-test), a un análisis de covarianza (ANCOVA) y finalmente a un modelo lineal general con interacción?

Vamos paso a paso, leyendo cada viñeta del gráfico de Adrian Olszewski 🙌:

#stats #datascience Image 1️⃣ ANOVA/t-test: Efecto principal no ajustado
Se comparan las medias de dos grupos (líneas horizontales morada y verde), ignorando cualquier otra covariable.
Comparación cruda, no se ajusta por covariables (e.g. eje X).
❗Puede haber confusión si esa covariable está relacionada.
Mar 30 7 tweets 2 min read
🚨 Una crítica válida y urgente a prácticas comunes de análisis de datos en la Ciencia🚨

🏆 La causalidad es el Santo Grial del análisis de datos: saber qué realmente causa qué. Pero, ¡cuidado! No es tan fácil como parece. Image 🧠 La causalidad (especialmente en medicina y salud pública) NO es como un interruptor de luz. 🔦 Prendes, se enciende. Apagas, se apaga. Fácil. La causalidad aquí es clara debido a mecanismos conocidos, resultados inmediatos y repetibles. Image
Mar 2 7 tweets 2 min read
🤯 Por piensas que con solo mirar coeficientes y R² tienes todo bajo control en tu modelo de regresión... 🤨

🔥 El Cuarteto de Anscombe: Cuatro datasets, un mismo modelo… pero con realidades completamente distintas. 🔥

🧵Soluciones...👇

#stats #analytics #datascience #DataViz Image Estos cuatro conjuntos de datos tienen:
✅ Misma media en X e Y
✅ Misma varianza
✅ Misma correlación
✅ Mismos coeficientes de regresión
✅ Mismo R²

📉 Pero cuando los graficas… descubres el desastre 🤯

💡 Errores clave en un modelo de regresión:
Feb 26 8 tweets 2 min read
🔥 ¿QUÉ MODELO DE REGRESIÓN DEBERÍAS ELEGIR? (UNA GUÍA SENCILLA) 🔥

¿No sabes qué modelo de regresión usar? ¿Te confunden los términos LM, GLM, GAMM y demás siglas raras? 🌀 LO INTENTARÉ EXPLICAR RÁPIDAMENTE ⏳💥👇🧵

#stats #analytics #datascience Image 📢 PASO 1: ¿Tu variable respuesta es continua?
✅ Sí → Modelo Lineal (LM) (SI SE CUMPLEN SUS SUPUESTOS).
🚫 No → ¡Sigue leyendo! 👇
Feb 25 9 tweets 4 min read
🚨📊 ¿Por qué deberías dejar de usar barplots? 🌧️🌈

Si sigues usando gráficos de barras con error para representar datos cuantitativos, estás perdiendo información valiosa. Aquí te explico por qué:👇🧵

#DataViz #RaincloudPlots #Analytics #RStats #DataScience #stats Image 1️⃣🔥 Ocultan la variabilidad → ¡Pueden hacer que datos diferentes se vean iguales!😵
👉📊 Los barplots NO te muestran la forma real de los datos, solo la media y el error o la incertidumbre.
🚨Datos con distribuciones totalmente diferentes pueden parecer idénticos en un barplot. Image
Feb 22 5 tweets 3 min read
🔥 Crear gráficos con pruebas estadísticas suele requerir varios pasos, pero {ggstatsplot} lo hace todo en una sola línea de código. 👇🧵

✅ No necesitas copiar/pegar números en un informe: los gráficos ya contienen toda la información.

#rstats #stats #dataviz #datascience Image 🎯 #stats + #dataviz en 1 solo paso
✅ Gráficos con pruebas paramétricas, no paramétricas y robustas
✅ Formato APA listo para publicar 📑
✅ Muestra automáticamente N 📊
✅ Mezcla caja + violín para mejor visualización 🎻
✅ Incluye tamaños de efecto, IC y pruebas bayesianas Image
Image
Image
Image