Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD, Statistics + Data Science + Machine Learning + Biology/Ecol 😉 Stats is the grammar of science 🎓 Directora académica y Docente 🏢 Consultora 💙 #RStats
Sep 17 9 tweets 2 min read
📊 ¿Cansado de usar iris y mtcars? Aquí tienes datasets MODERNOS listos para usar.
Años viendo los mismos ejemplos, es hora de renovar nuestro arsenal didáctico. Estos datasets no solo son más actuales, sino que abordan problemas reales que conectan con las preocupaciones de hoy. ¿Quieres más?👇

🎯 PARA PRINCIPIANTES (reemplazos directos)
- palmerpenguins::penguins (el nuevo iris)
- qatarcars (nuevo mtcars::dataset o mpg::ggplot2)
- ggplot2::diamonds (misterioso)
- dplyr::starwars (divertido)
Sep 16 6 tweets 2 min read
🎯 ¿Cuánto es suficiente?
La eterna pregunta cuando vas a diseñar un estudio o experimento:
¿Con 30 muestras basta? ¿Y si pongo 100 para estar seguro? ¿O mejor 300 para que nadie me critique? 🤯

La verdad es que… ni muy pocas ni demasiadas.🧵

#stats #Estadística #DataScience Un tamaño de muestra mal elegido puede arruinar meses de trabajo:
📉 Demasiado pequeño → corres el riesgo de que un efecto real pase desapercibido
💸 Demasiado grande → desperdicias tiempo, dinero y energía
🏆 Buscamos el punto justo: como el cuento de Ricitos de Oro.
Sep 15 7 tweets 3 min read
🎨 ggplot2 es mucho más que un sistema de gráficos en R: es un ecosistema entero
Muchos conocen ggplot2 por su sintaxis elegante para crear gráficos, pero pocos exploran su universo de extensiones, que amplían sus capacidades y permiten llevar la visualización a otro nivel.🧵👇 Image 🔹 Algunas familias de extensiones que vale la pena conocer:

1️⃣ Personalización de temas y estilos
ggthemes → colecciones de temas predefinidos (Excel, The Economist, Wall Street Journal).
hrbrthemes → tipografías modernas y gráficas limpias para presentaciones.

#RStats Image
Sep 14 4 tweets 2 min read
🔄Tus datos también necesitan mantenimiento: 5 claves para actualizarlos sin perder reproducibilidad👇
En investigación, los datos no son estáticos. Se corrigen, se amplían y evolucionan con el tiempo. El desafío: mantenerlos vivos sin sacrificar transparencia ni reproducibilidad Image Un reciente artículo publicado en Nature por , nos recomienda algunas buenas prácticas que todo científico de datos o investigador puede aplicar:

#GestiónDeDatos Image
Sep 6 9 tweets 2 min read
🔥El verdadero cuello de botella en analítica: hojas de cálculo caóticas
Quien ha trabajado en análisis de datos conoce esta escena: te llega un Excel “con todo lo que necesitas” para empezar el proyecto. Abres el archivo y, en lugar de datos listos para usar, encuentras el caos. 👉 Columnas con títulos duplicados o mal escritos.
👉 Fechas guardadas como texto o mezcladas con diferentes formatos (dd/mm/aaaa y mm/dd/aaaa conviviendo en la misma columna).
👉 Valores numéricos con comas y puntos intercalados, imposibles de interpretar sin limpieza manual.
Sep 4 9 tweets 2 min read
🚨 Los mitos de los intervalos de confianza (IC) 🚨
💡 Los IC son muy populares en investigación, pero la mayoría de las personas los malinterpreta… y eso puede llevar a conclusiones equivocadas. 🧠

Aquí van algunos mitos que me gustaría aclarar:🧵👇 Image Mito 1️⃣
❌ "Un IC del 95% tiene un 95% de probabilidad de contener el valor verdadero"
✅ Realidad: No, no es así. Si repites el experimento muchas veces, el 95% de los IC que calcules contendrán el valor verdadero.
Es sobre procedimientos repetidos, no sobre un único intervalo😬
Sep 2 10 tweets 3 min read
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento, la pregunta del millón es:
¿Cuántos sujetos o casos necesito para que mis resultados sean válidos? 🤔

Aquí está el secreto:👇

#Estadística #DataScience #RStats Image ¿Alguna vez te has encontrado con estudios que fracasan porque la muestra era demasiado pequeña? ¿O has visto proyectos que malgastan recursos con muestras innecesariamente grandes?

#analytics #research #phd #thesis #TamañoDeMuestra #stats
Aug 29 13 tweets 2 min read
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo? 🧠
Tranquilo, ¡que un p > 0.05 no es el apocalipsis estadístico! Aquí va una guía rápida para que actúes como un verdadero profesional de los datos y saques partido a ese resultado.👇🧵

#stats #analytics Image 🙈1️⃣ ¿Qué significa realmente un p-valor > 0.05?
No significa que no haya efecto. "La ausencia de evidencia no es evidencia de ausencia" (Carl Sagan). Ese es uno de los errores más comunes. Recuerda: el p-valor no mide la probabilidad de que la hipótesis nula sea verdadera.
Aug 25 4 tweets 3 min read
😳 Cuando empiezas con R, las dudas llueven:
👉 ¿Qué función necesito?
👉 ¿Cómo se usa?
👉 ¿¡Por qué me sale este error infernal!?

Por eso, he recopilado en un solo lugar todos los recursos que te ayudarán a aprender R como un/a pro:

#stats #rstats #EstadísticaConR #DataScience Image 📚 Funciones de ayuda, buscadores especializados, viñetas, ejemplos, CRAN Task Views, foros, FAQs…
Y sí, también cómo hacer preguntas que reciban respuestas útiles

#AprenderR #MásterOnline #RStats #FormaciónContinua #EducaciónEstadística #ComunidadesDeDatos #CRAN #StackOverflow Image
Image
Image
Aug 20 10 tweets 2 min read
👀 Google predijo una epidemia… de malas decisiones. 🔥
El Big Data no sustituye pensar: el caso de Google Flu Trends (GFT).
Un modelo precioso, que no servía para nada.🦠❄️

👇 Hilo crítico sobre hype, errores y lecciones en ciencia de datos:🧵

#stats #datascience #analytics Image Durante años, Google Flu Trends fue el niño bonito del Big Data.
La promesa: predecir brotes de gripe en tiempo real usando nuestras búsquedas.
La realidad: sobreestimó los casos, confundió baloncesto con gripe y falló en la pandemia de 2009.
Sí, baloncesto (ambos en invierno).🏀
Aug 19 8 tweets 2 min read
🎯 No todos los outliers son villanos. Algunos son los héroes que revelan lo que nadie más ve. 👀
👇🧵Te explico cómo distinguir entre errores, casos fuera de contexto y variación natural valiosa.

#DataScience #Analytics #stats #rstats #ML #machinelearning #outliers Eliminar outliers sin justificar puede:
❌ Distorsionar tus modelos
❌ Reducir la robustez de predicciones
❌ Hacerte perder información crítica

Por eso siempre recomiendo: PARA. REVISA Y CONSULTA PRIMERO.
Aug 16 12 tweets 5 min read
🔥 ¿Qué NO te enseñaron en tu curso de análisis de datos… y tuviste que aprender a golpes?
Nos enseñan métodos, fórmulas y (con suerte) sintaxis.
Pero en el mundo real, los datos llegan sucios, los plazos aprietan y nadie lee tus gráficos si no los entienden.
10 lecciones👇 Image 📉 10 verdades del análisis de datos que no salen en el temario:

1️⃣ El 80% del trabajo es limpiar, ordenar y entender los datos.
Sí, lo has leído mil veces. Pero hasta que no lo vives, no lo crees.
🧼 Si amas la estadística, aprende también a amar el preprocesado.

#stats Image
Aug 15 5 tweets 2 min read
🚨 EL INFIERNO DE LAS FECHAS EN ANÁLISIS DE DATOS 🚨
Sí, lo has vivido. Todos lo hemos vivido.

Si alguna vez has intentado analizar fechas en Excel, sabes de lo que hablo: Image 🧨 Problemas típicos:
❌ Formatos inconsistentes: ¿DD/MM/AAAA o MM/DD/AAAA?
❌ Fechas como texto: Importas datos y... mágicamente son cadenas.
❌ Zonas horarias: UTC, GMT, hora local… todo mezclado.
❌ Restas y sumas absurdas: Días que no cuadran, meses que desaparecen…
Aug 12 5 tweets 2 min read
📊 ¿Cómo sabes si tu modelo realmente funciona bien?
Muchos modelos se publican... pero pocos se diagnostican a fondo.
Si usas modelos de regresión en R, este recurso te va a ahorrar tiempo y sustos 🚨👇

#DataScience #RStats #stats #dataviz #modelling #regression #CienciaDeDatos Image 📦 {performance} de #RStats te permite evaluar los supuestos clave de tus modelos de forma rápida, clara y eficiente.
check_collinearity() → ¿Predictores correlacionados?
check_normality() → ¿Residuos normales?
check_heteroscedasticity() → ¿Residuos con Varianza constante? Image
Aug 11 4 tweets 2 min read
💥¿Cómo seleccionar las variables adecuadas para tu modelo? 💥

El arte de construir modelos explicativos, implica comprender tu problema y reflejarlo en el modelo que construyes. Es un arte —y sí, también una ciencia— que requiere equilibrio y criterio.

#stats #datascience Image 🧠 Si tienes muchos predictores candidatos, crece el riesgo de perder el rumbo.
Un modelo sub-especificado olvida variables clave y sesga tus resultados
Un modelo sobre-especificado se enreda en redundancias y ruido
Debes encontrar el punto medio, ni muy sencillo ni muy complejo Image
Aug 10 8 tweets 3 min read
🧠 Lo fácil se vuelve difícil. Lo imposible se vuelve posible. Una charla de Hadley Wickham.
El viernes pasado, Wickham describió algo que está redefiniendo nuestra relación con la informática (y esto me provoca una mezcla de fascinación y alerta):👇🧵

#stats #AI #IA #GPT #LLM Image 👉 Los LLM invierten la lógica tradicional de las máquinas.

Durante décadas, para un ordenador:
✅ Fácil → cálculos exactos, conteos, aplicación de reglas fijas.
❌ Difícil → interpretar lenguaje natural, gestionar ambigüedad, crear algo nuevo.

#AItools #GPT5 #chatGPT #openAI Image
Image
Aug 10 5 tweets 2 min read
🔥 No tener en cuenta la potencia estadística es más común (y más grave) de lo que parece 🔥
Hace poco compartí contigo un post sobre qué es la potencia estadística, ahora vamos un paso más allá....
🔍 ¿Cómo interpretar los resultados según la potencia estadística?👇

#stats Image 1️⃣ Resultado NO estadísticamente significativo (p > 0.05):
➡️ ¿Realmente no hay efecto?
NO necesariamente.
Podría ser que…

✅ El efecto no existe → buena noticia: el test funcionó.
⚠️ El efecto existe, pero el estudio no tenía suficiente potencia para detectarlo.

#DataScience Image
Aug 8 7 tweets 5 min read
🔍 ¿Cómo evitar errores frecuentes al hacer inferencia estadística?
Guía esencial (y práctica) con claves para no perderte en el camino 📊🧠

Muchos análisis fallan no por falta de datos, sino por malas decisiones al inferir.
Aquí tienes 5 errores comunes —y cómo evitarlos.👇🧵 Image 🔍1. Comparación de medias y normalidad
❌ No confíes en "n > 30, el TCL lo arreglará". buff.ly/4hCkfPw
❌ Wilcoxon cambia la hipótesis nula. buff.ly/4hmD6P0
✅ Permutación o bootstrap. buff.ly/42vWAMc
✅ Yuen-Welch para outliers buff.ly/3x3ATUe
Aug 7 4 tweets 1 min read
📊 ¿No sabes qué gráfico elegir? Esta mini-guía te evitará errores comunes 🚫📈
Una visualización mal elegida no solo confunde: puede hacerte tomar malas decisiones.

Si quieres que tus gráficos transmitan ideas con claridad, empieza con tres preguntas clave:👇

#stats #dataviz Image 1. ¿Qué quieres mostrar?
🔹 Comparaciones
🔹 Relaciones
🔹 Distribuciones
🔹 Composición o proporciones

2. ¿Cuántas variables tienes?
¿Una sola? ¿Dos? ¿Un conjunto complejo?

3. ¿Importa el tiempo?
¿Son datos estáticos o evolucionan en el tiempo?

🖼 Imagen: Cédric Scherer
Aug 6 8 tweets 3 min read
🔥¿Seguro que tus resultados “NO son significativos”? Quizá lo único que falta es potencia🔥
La potencia de una prueba mide si tienes suficiente evidencia para darte una oportunidad justa de cambiar de opinión.
Más potencia = más protección contra conclusiones erróneas. ¿CÓMO?👇 Image 🔍 La potencia estadística es la probabilidad de detectar un efecto genuino cuando realmente existe.
Si hay algo ahí, ¿tienes lo que necesitas para darte cuenta?

👉Se calcula: Potencia = 1 - β,
con β la probabilidad de cometer un error tipo II (no detectar un efecto que existe). Image
Aug 5 4 tweets 2 min read
👀 ¿Estás haciendo las preguntas correctas? Porque la estadística no soluciona estudios con preguntas tontas.💥
Sí, puedes aplicar fórmulas complejas, tener modelos brillantes, usar IA y… fracasar estrepitosamente.

¿Por qué? Te lo cuento...👇🧵

#stats #analytics #datascience Image 💥 Porque un buen análisis no empieza con datos, sino con una buena pregunta.
👉 No basta con responder bien. Hay que preguntar bien.
👉 No es solo usar datos. Hay que resolver los problemas correctos.
👉 Antes de hacer análisis, asegúrate de que tu pregunta no sea una trampa. Image