Rosana Ferrero 📈📊🙌 Profile picture
📊 PhD, Statistics + Data Science + Machine Learning + Biology/Ecol 😉 Stats is the grammar of science 🎓 Directora académica y Docente 🏢 Consultora 💙 #RStats
Jul 20 7 tweets 3 min read
🚨 Selección de variables automática: mucho cuidado 🚨

Históricamente, la regresión por pasos (stepwise) se ha vendido como un atajo automatizado para quedarnos con “las mejores” variables. Pero cuidado:

#DataScience #stats #ML Image 💣 La regresión por pasos no es la salvación, sino un generador de problemas

👉 Sobreajuste
👉 Estimaciones sesgadas
👉 Errores estándar subestimados
👉 Modelos inestables que cambian con un soplido de datos nuevos Image
Jul 13 6 tweets 3 min read
🕵️ El sesgo de selección es la madre de todos los sesgos.
Porque tu investigación podría estar condenada antes de empezar.

Hoy hablamos del sesgo de selección, ese enemigo silencioso que distorsiona estudios académicos y decisiones de negocio. 👇

#stats #datascience #rstats Image El sesgo de selección ocurre cuando el grupo que analizas no representa realmente a la población de interés.

Ejemplo: preguntar por el nivel educativo solo en bibliotecas. ¿Ves el problema? 📚

👉 ¿Por qué pasa?
👉 ¿Qué provoca?
👉 ¿Cómo evitarlo?

Te lo cuento en este post... Image
Jul 12 5 tweets 2 min read
👀📏 ¿Por qué tus estudios no convencen? El drama de las muestras pequeñas.

Este error se repite cada día en estudios académicos y proyectos empresariales. ¿Por qué ocurre? ¿Por qué es grave? ¿Cómo arreglarlo?

Te lo cuento en este post👇

#stats #datascience #samplesize #rstats Image 👉 ¿Por qué pasa?
❌ Presupuesto escaso
❌ Poco tiempo
❌ Mala planificación
❌ Dificultad para acceder a la población de interés

👉 ¿Por qué es grave?
😱 Pierdes potencia
🤯 Riesgo de conclusiones erróneas
🫣 Imposibles de replicar
😳 Decisiones de negocio mal fundamentadas Image
Jul 9 9 tweets 2 min read
😱 “Mis datos no son normales… ¿Y ahora qué hago?” 💥

💬 Una de las frases más comunes que escucho es:
“Hice la prueba de Shapiro-Wilk y me salió p < 0.05, así que mis datos no son normales. ¿Qué prueba uso ahora?”

📢 CUIDADO. Sigue leyendo... Image Que tus datos no sean perfectamente normales no significa que tengas que abandonar todos los métodos clásicos o correr directamente a una prueba "no paramétrica".

🔑 Lo que realmente necesitas saber:
Jul 1 8 tweets 3 min read
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠

El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵 3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):

🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí? Image
Jun 26 4 tweets 3 min read
⚽📊 ¿Qué hace un data scientist del fútbol?

El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.

#datascience Image En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV Image
Image
Jun 22 11 tweets 3 min read
✨ Elegir la prueba de hipótesis correcta (o el modelo correcto) para una repuesta continua no es solo un "ANOVA vs. Kruskal-Wallis" o "t-test vs Mann-Whitney".

👇 Hay 6 aspectos clave que debes considerar antes de tomar una decisión:🚀

#stats #datascience #analytics #research Image 1️⃣ ¿Qué quieres comparar?

📉 Igualdad de medias
📈 igualdad de medianas (según la distribución de los datos).
💨 Equivalencia estocástica (los grupos son similares en distribución) vs Superioridad estocástica (un grupo tiende a valores mayores que otro).

linkedin.com/posts/rosanafe…
Jun 16 5 tweets 2 min read
📢 ¡Ya puedes descargar GRATIS nuestras guías rápidas de RStudio y R Software en español!
👀 ¿Estás empezando en Data Science con R y no sabes por dónde comenzar?
👉 Tenemos justo lo que necesitas: cheat sheets validadas por RStudio con lo esencial para arrancar con buen pie.👇 Image ✨ Visuales, prácticas y fáciles de imprimir o tener a mano mientras trabajas.
🔹 ¿Qué encontrarás?
✔️ Guía rápida del IDE de RStudio
✔️ Guía rápida de Estadística Descriptiva con R y ggplot2
✔️ Guía rápida del lenguaje R: operadores, funciones básicas, estructuras de datos y más Image
Jun 11 13 tweets 4 min read
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨

¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯

#stats #rstats #DataScience Image 💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇

#Addins #RStudio #Estadística #Programación #analytics
Jun 10 13 tweets 5 min read
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot

📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵

#stats Image ❌ 8 razones para dejar de usar barplots para datos continuos

1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales. Image
Jun 8 14 tweets 2 min read
🔥 Errores que cometes en tus análisis de datos, y que (casi) nadie te ha contado. Excepto @AdrianOlszewski. Mi resumen:

🚨 13 Errores de Comprensión de Conceptos Estadísticos.

#stats #analytics #datascience #rstats #python #research #phd #thesis #pvalue @AdrianOlszewski 1. "La regresión logística no es una regresión". Error! Existe un malentendido del término "regresión" en estadística, que realmente incluye modelos como la regresión logística.
Jun 2 7 tweets 2 min read
🎯 ¿Quieres que tus clusters realmente representen la estructura de tus datos? Entonces no te olvides de escalar.

💡 Escalar bien tus datos puede cambiar radicalmente los resultados que obtienes. Aquí te explico por qué y cómo hacerlo mejor. 👇

#MachineLearning #DataScience Image 🧠 En el análisis de datos, hay decisiones que parecen “detalles técnicos” pero que cambian radicalmente los resultados. El escalado de características (feature scaling) es una de ellas. ¿Por qué es tan crucial cuando usamos algoritmos como el k-means?

#clustering #ML #KMeans
May 31 13 tweets 7 min read
📊 Errores comunes al analizar e interpretar datos (y cómo evitarlos)
En plena era de los datos, cometer errores al analizarlos puede salir muy caro.

👇🧵 Aquí tienes un repaso de los errores más comunes.

#stats #datascience #analytics #rstats Image 🔍 1. No tener claro el objetivo del estudio
¿Estás describiendo, explicando o prediciendo? No es lo mismo.
Ese objetivo define qué datos necesitas, cómo analizarlos y cómo interpretar los resultados.

+Info: x.com/RosanaFerrero/…
science.org/doi/10.1126/sc… Image
Image
May 30 9 tweets 3 min read
🚨 ¿Todavía haces análisis complejos en hojas de cálculo? ¡🚨
Las hojas de cálculo son omnipresentes, versátiles y familiares, pero cuando se trata de análisis de datos complejos o decisiones críticas… se transforman en una bomba de relojería.💣👇🧵

#rstats #excel #spss #stats Image 💥 La cruda realidad: los errores son la norma, no la excepción
Estudios sistemáticos han demostrado que los errores en hojas de cálculo son tan comunes como invisibles. No hablamos solo de equivocarse al teclear un número. Hablamos de Errores lógicos, Fórmulas, Cambios, etc.! Image
May 28 11 tweets 6 min read
🔍 ¿Qué es la ordenación restringida?
👀 Es una técnica de análisis multivariante que sirve para explorar cómo se relacionan múltiples variables de respuesta (e.g. abundancia de especies) con múltiples variables explicativas (e.g. condiciones ambientales).

Te cuento más 👇🧵 Image 💡A diferencia de la ordenación no restringida (e.g. PCA/CA), aquí forzamos la representación de los datos a que esté condicionada por variables externas. Buscamos los ejes que mejor explican la variación, pero solo dentro del espacio definido por las variables explicativas. Image
May 21 9 tweets 3 min read
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵

#stats #analytics #RStats #ModelDiagnostics #Estadística #DataScience #easystats #performance Image Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇

🧪 Diagnóstico gráfico: lo que todo analista debería revisar: Image
May 15 11 tweets 5 min read
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔

🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵

#DataScience #stats Image 📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos. Image
May 14 7 tweets 2 min read
👀 ¿Te has preguntado qué estadísticos y gráficos usar para cada tipo de variable y estudio?
✨ Tanto la variación como la covariación son esenciales en el análisis de datos.
Aquí te lo resumo de forma sencilla 👇🧵

#stats #dataviz #statistics #analytics #datascience Image La VARIACIÓN se ocupa de la dispersión dentro de una variable
La COVARIACIÓN se centra en las relaciones entre múltiples variables
Utilizar correctamente estas herramientas estadísticas puede enriquecer cualquier análisis de datos y ayudar a obtener conclusiones más robustas.📈🔍
May 13 6 tweets 2 min read
🔥 Las pruebas estadísticas más comunes son TODAS modelos lineales. 🔥

🧠 Por lo tanto, en lugar de utilizar cientos de pruebas diferentes, ¿por qué no usar un modelo que realiza todas tus pruebas en una sola estructura flexible y robusta?

Te lo resumo en este post:👇🧵 Image 🤔 Cuando piensas en ANOVA, t-tests, test de Mann-Whitney o test Chi-cuadrado, crees que estás aplicando métodos diferentes, pero la realidad es que todos son casos especiales del Modelo Lineal.
🌟 3 razones por las que los modelos de regresión lineal deben ser tu primera opción:
May 11 9 tweets 5 min read
🚨Los datos ausentes están por todas partes🚨
👉Los NA pueden invalidar los resultados de tu estudio
👉Muchas funciones automáticas pueden no ser las más óptimas para manejarlos
👉El tratamiento incorrecto de los NA puede llevar a conclusiones erróneas o sesgadas
¿Qué hacer?👇🧵 Image 👀 ¿Qué hacer con los NA? 🤔
1️⃣ Identifica los datos ausentes y comprende por qué faltan:
👉 Errores humanos
👉 Interrupciones en el flujo de datos (como meses sin registro)
👉 Problemas de privacidad
👉 Sesgo: Como cuando ciertos participantes del estudio tienen más NA que otros Image
May 9 14 tweets 3 min read
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo?
¡No entres en pánico! 🧘‍♀️🧠 Un p > 0.05 no es el fin del análisis, sino el inicio de una buena reflexión.

Hoja de ruta🧵👇🏻

#stats #datascience #analytics #inference #pvalue #rstats #research #thesis Image 🔥 1. Evita conclusiones simplistas
No estadísticamente significativo (discernible o detectable) ≠ No hay efecto
👉 El p-valor NO te dice si la hipótesis nula es verdadera. Solo indica la compatibilidad de los datos con esa hipótesis, asumiendo que sea cierta.