Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD, Statistics + Data Science + Machine Learning + Biology/Ecol 😉 Stats is the grammar of science 🎓 Directora académica y Docente 🏢 Consultora 💙 #RStats
Aug 11 4 tweets 2 min read
💥¿Cómo seleccionar las variables adecuadas para tu modelo? 💥

El arte de construir modelos explicativos, implica comprender tu problema y reflejarlo en el modelo que construyes. Es un arte —y sí, también una ciencia— que requiere equilibrio y criterio.

#stats #datascience Image 🧠 Si tienes muchos predictores candidatos, crece el riesgo de perder el rumbo.
Un modelo sub-especificado olvida variables clave y sesga tus resultados
Un modelo sobre-especificado se enreda en redundancias y ruido
Debes encontrar el punto medio, ni muy sencillo ni muy complejo Image
Aug 10 8 tweets 3 min read
🧠 Lo fácil se vuelve difícil. Lo imposible se vuelve posible. Una charla de Hadley Wickham.
El viernes pasado, Wickham describió algo que está redefiniendo nuestra relación con la informática (y esto me provoca una mezcla de fascinación y alerta):👇🧵

#stats #AI #IA #GPT #LLM Image 👉 Los LLM invierten la lógica tradicional de las máquinas.

Durante décadas, para un ordenador:
✅ Fácil → cálculos exactos, conteos, aplicación de reglas fijas.
❌ Difícil → interpretar lenguaje natural, gestionar ambigüedad, crear algo nuevo.

#AItools #GPT5 #chatGPT #openAI Image
Image
Aug 10 5 tweets 2 min read
🔥 No tener en cuenta la potencia estadística es más común (y más grave) de lo que parece 🔥
Hace poco compartí contigo un post sobre qué es la potencia estadística, ahora vamos un paso más allá....
🔍 ¿Cómo interpretar los resultados según la potencia estadística?👇

#stats Image 1️⃣ Resultado NO estadísticamente significativo (p > 0.05):
➡️ ¿Realmente no hay efecto?
NO necesariamente.
Podría ser que…

✅ El efecto no existe → buena noticia: el test funcionó.
⚠️ El efecto existe, pero el estudio no tenía suficiente potencia para detectarlo.

#DataScience Image
Aug 8 7 tweets 5 min read
🔍 ¿Cómo evitar errores frecuentes al hacer inferencia estadística?
Guía esencial (y práctica) con claves para no perderte en el camino 📊🧠

Muchos análisis fallan no por falta de datos, sino por malas decisiones al inferir.
Aquí tienes 5 errores comunes —y cómo evitarlos.👇🧵 Image 🔍1. Comparación de medias y normalidad
❌ No confíes en "n > 30, el TCL lo arreglará". buff.ly/4hCkfPw
❌ Wilcoxon cambia la hipótesis nula. buff.ly/4hmD6P0
✅ Permutación o bootstrap. buff.ly/42vWAMc
✅ Yuen-Welch para outliers buff.ly/3x3ATUe
Aug 7 4 tweets 1 min read
📊 ¿No sabes qué gráfico elegir? Esta mini-guía te evitará errores comunes 🚫📈
Una visualización mal elegida no solo confunde: puede hacerte tomar malas decisiones.

Si quieres que tus gráficos transmitan ideas con claridad, empieza con tres preguntas clave:👇

#stats #dataviz Image 1. ¿Qué quieres mostrar?
🔹 Comparaciones
🔹 Relaciones
🔹 Distribuciones
🔹 Composición o proporciones

2. ¿Cuántas variables tienes?
¿Una sola? ¿Dos? ¿Un conjunto complejo?

3. ¿Importa el tiempo?
¿Son datos estáticos o evolucionan en el tiempo?

🖼 Imagen: Cédric Scherer
Aug 6 8 tweets 3 min read
🔥¿Seguro que tus resultados “NO son significativos”? Quizá lo único que falta es potencia🔥
La potencia de una prueba mide si tienes suficiente evidencia para darte una oportunidad justa de cambiar de opinión.
Más potencia = más protección contra conclusiones erróneas. ¿CÓMO?👇 Image 🔍 La potencia estadística es la probabilidad de detectar un efecto genuino cuando realmente existe.
Si hay algo ahí, ¿tienes lo que necesitas para darte cuenta?

👉Se calcula: Potencia = 1 - β,
con β la probabilidad de cometer un error tipo II (no detectar un efecto que existe). Image
Aug 5 4 tweets 2 min read
👀 ¿Estás haciendo las preguntas correctas? Porque la estadística no soluciona estudios con preguntas tontas.💥
Sí, puedes aplicar fórmulas complejas, tener modelos brillantes, usar IA y… fracasar estrepitosamente.

¿Por qué? Te lo cuento...👇🧵

#stats #analytics #datascience Image 💥 Porque un buen análisis no empieza con datos, sino con una buena pregunta.
👉 No basta con responder bien. Hay que preguntar bien.
👉 No es solo usar datos. Hay que resolver los problemas correctos.
👉 Antes de hacer análisis, asegúrate de que tu pregunta no sea una trampa. Image
Aug 3 10 tweets 4 min read
📌 El p-valor es uno de los elementos más malinterpretados de la estadística. Y aunque lo usamos a diario… muchos no entienden bien qué significa ni cómo se debe usar.

Y eso tiene consecuencias: decisiones mal tomadas, resultados sobreinterpretados y modelos que no funcionan.😱 Image 💥 El p-valor es el elemento sorpresa de la estadística.
Un p-valor < nivel significación (e.g. alfa = 0.05) te dice:
🧪 “Oye, si el mundo fuera como tú creías (hipótesis nula + supuestos)… esto que estás viendo sería MUY raro”.

Y ahí es cuando toca replantearse las cosas. Image
Jul 30 7 tweets 3 min read
🔥 Errores estadísticos graves que siguen vivos en 2025 (aunque no lo creas)🔥
Sí, en 2025 podemos generar imágenes hiperrealistas de gatos tocando el piano, pero cuando se trata de análisis de datos, seguimos tropezando con los mismos errores de hace décadas.
Los 5 más comunes👇 Image 🔹 1. ¿Cuál es la !#? pregunta?
El error más común (y el más subestimado) es no tener clara qué tipo de pregunta estás intentando responder:
🧠 Descripción, exploración, inferencia, predicción, causalidad, modelización
👉 Cada una guía el análisis y requiere enfoques distintos. Image
Jul 29 9 tweets 4 min read
👀 Hay una herramienta de IA que me encanta y ahora con las nuevas funciones, es todavía más bestia (y ya sabéis que no suelo decir esto a la ligera).
Es de Google, es GRATIS, y funciona con tus propios documentos, así que no alucina sino que te da respuestas referenciadas.👇 🧠 #NotebookLM sirve no solo para organizar mi información, sino también para interactuar con ella, aprender, crear y gestionar proyectos.
Pero es que además ahora trae algunas NOVEDADES muy interesantes...
#InteligenciaArtificial #GestiónDeInformación #Productividad #GoogleAI Image
Jul 20 7 tweets 3 min read
🚨 Selección de variables automática: mucho cuidado 🚨

Históricamente, la regresión por pasos (stepwise) se ha vendido como un atajo automatizado para quedarnos con “las mejores” variables. Pero cuidado:

#DataScience #stats #ML Image 💣 La regresión por pasos no es la salvación, sino un generador de problemas

👉 Sobreajuste
👉 Estimaciones sesgadas
👉 Errores estándar subestimados
👉 Modelos inestables que cambian con un soplido de datos nuevos Image
Jul 13 6 tweets 3 min read
🕵️ El sesgo de selección es la madre de todos los sesgos.
Porque tu investigación podría estar condenada antes de empezar.

Hoy hablamos del sesgo de selección, ese enemigo silencioso que distorsiona estudios académicos y decisiones de negocio. 👇

#stats #datascience #rstats Image El sesgo de selección ocurre cuando el grupo que analizas no representa realmente a la población de interés.

Ejemplo: preguntar por el nivel educativo solo en bibliotecas. ¿Ves el problema? 📚

👉 ¿Por qué pasa?
👉 ¿Qué provoca?
👉 ¿Cómo evitarlo?

Te lo cuento en este post... Image
Jul 12 5 tweets 2 min read
👀📏 ¿Por qué tus estudios no convencen? El drama de las muestras pequeñas.

Este error se repite cada día en estudios académicos y proyectos empresariales. ¿Por qué ocurre? ¿Por qué es grave? ¿Cómo arreglarlo?

Te lo cuento en este post👇

#stats #datascience #samplesize #rstats Image 👉 ¿Por qué pasa?
❌ Presupuesto escaso
❌ Poco tiempo
❌ Mala planificación
❌ Dificultad para acceder a la población de interés

👉 ¿Por qué es grave?
😱 Pierdes potencia
🤯 Riesgo de conclusiones erróneas
🫣 Imposibles de replicar
😳 Decisiones de negocio mal fundamentadas Image
Jul 9 9 tweets 2 min read
😱 “Mis datos no son normales… ¿Y ahora qué hago?” 💥

💬 Una de las frases más comunes que escucho es:
“Hice la prueba de Shapiro-Wilk y me salió p < 0.05, así que mis datos no son normales. ¿Qué prueba uso ahora?”

📢 CUIDADO. Sigue leyendo... Image Que tus datos no sean perfectamente normales no significa que tengas que abandonar todos los métodos clásicos o correr directamente a una prueba "no paramétrica".

🔑 Lo que realmente necesitas saber:
Jul 1 8 tweets 3 min read
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠

El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵 3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):

🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí? Image
Jun 26 4 tweets 3 min read
⚽📊 ¿Qué hace un data scientist del fútbol?

El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.

#datascience Image En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV Image
Image
Jun 22 11 tweets 3 min read
✨ Elegir la prueba de hipótesis correcta (o el modelo correcto) para una repuesta continua no es solo un "ANOVA vs. Kruskal-Wallis" o "t-test vs Mann-Whitney".

👇 Hay 6 aspectos clave que debes considerar antes de tomar una decisión:🚀

#stats #datascience #analytics #research Image 1️⃣ ¿Qué quieres comparar?

📉 Igualdad de medias
📈 igualdad de medianas (según la distribución de los datos).
💨 Equivalencia estocástica (los grupos son similares en distribución) vs Superioridad estocástica (un grupo tiende a valores mayores que otro).

linkedin.com/posts/rosanafe…
Jun 16 5 tweets 2 min read
📢 ¡Ya puedes descargar GRATIS nuestras guías rápidas de RStudio y R Software en español!
👀 ¿Estás empezando en Data Science con R y no sabes por dónde comenzar?
👉 Tenemos justo lo que necesitas: cheat sheets validadas por RStudio con lo esencial para arrancar con buen pie.👇 Image ✨ Visuales, prácticas y fáciles de imprimir o tener a mano mientras trabajas.
🔹 ¿Qué encontrarás?
✔️ Guía rápida del IDE de RStudio
✔️ Guía rápida de Estadística Descriptiva con R y ggplot2
✔️ Guía rápida del lenguaje R: operadores, funciones básicas, estructuras de datos y más Image
Jun 11 13 tweets 4 min read
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨

¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯

#stats #rstats #DataScience Image 💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇

#Addins #RStudio #Estadística #Programación #analytics
Jun 10 13 tweets 5 min read
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot

📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵

#stats Image ❌ 8 razones para dejar de usar barplots para datos continuos

1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales. Image
Jun 8 14 tweets 2 min read
🔥 Errores que cometes en tus análisis de datos, y que (casi) nadie te ha contado. Excepto @AdrianOlszewski. Mi resumen:

🚨 13 Errores de Comprensión de Conceptos Estadísticos.

#stats #analytics #datascience #rstats #python #research #phd #thesis #pvalue @AdrianOlszewski 1. "La regresión logística no es una regresión". Error! Existe un malentendido del término "regresión" en estadística, que realmente incluye modelos como la regresión logística.