👀📏 ¿Por qué tus estudios no convencen? El drama de las muestras pequeñas.
Este error se repite cada día en estudios académicos y proyectos empresariales. ¿Por qué ocurre? ¿Por qué es grave? ¿Cómo arreglarlo?
Te lo cuento en este post👇
#stats #datascience #samplesize #rstats
👉 ¿Por qué pasa?
❌ Presupuesto escaso
❌ Poco tiempo
❌ Mala planificación
❌ Dificultad para acceder a la población de interés
👉 ¿Por qué es grave?
😱 Pierdes potencia
🤯 Riesgo de conclusiones erróneas
🫣 Imposibles de replicar
😳 Decisiones de negocio mal fundamentadas
Jul 9 • 9 tweets • 2 min read
😱 “Mis datos no son normales… ¿Y ahora qué hago?” 💥
💬 Una de las frases más comunes que escucho es:
“Hice la prueba de Shapiro-Wilk y me salió p < 0.05, así que mis datos no son normales. ¿Qué prueba uso ahora?”
📢 CUIDADO. Sigue leyendo...
Que tus datos no sean perfectamente normales no significa que tengas que abandonar todos los métodos clásicos o correr directamente a una prueba "no paramétrica".
🔑 Lo que realmente necesitas saber:
Jul 1 • 8 tweets • 3 min read
🔍 ¿Tu análisis de clustering es fiable? Aprende a validarlo 🧠
El clustering no termina cuando el algoritmo te devuelve unos grupos. ¡Eso es solo el principio! 😉 Antes de sacar conclusiones, asegúrate de que tu agrupación es buena, estable y coherente.👇🧵
3 dimensiones clave de la validación del clustering (los tres mosqueteros🗡️):
🎯 1. CALIDAD del agrupamiento
Evalúa si los grupos formados tienen sentido:
👉 ¿Las observaciones de un mismo grupo son realmente similares?
👉 ¿Los grupos están bien separados entre sí?
Jun 26 • 4 tweets • 3 min read
⚽📊 ¿Qué hace un data scientist del fútbol?
El fútbol ya no se juega solo con los pies... también se juega con datos.
Cada pase, cada sprint, cada decisión táctica deja una huella digital que puede ser analizada, modelizada… y transformada en ventaja competitiva.
#datascience
En esta entrada del blog exploramos el trabajo de quienes analizan el juego más allá de lo que capta el ojo humano:
👉Datos de eventing (eventos con balón)
👉Datos de tracking (posición y orientación de jugadores y balón en cada instante)
👉Métricas avanzadas como xG/xT/VAEP/OBV
Jun 22 • 11 tweets • 3 min read
✨ Elegir la prueba de hipótesis correcta (o el modelo correcto) para una repuesta continua no es solo un "ANOVA vs. Kruskal-Wallis" o "t-test vs Mann-Whitney".
👇 Hay 6 aspectos clave que debes considerar antes de tomar una decisión:🚀
📉 Igualdad de medias
📈 igualdad de medianas (según la distribución de los datos).
💨 Equivalencia estocástica (los grupos son similares en distribución) vs Superioridad estocástica (un grupo tiende a valores mayores que otro).
📢 ¡Ya puedes descargar GRATIS nuestras guías rápidas de RStudio y R Software en español!
👀 ¿Estás empezando en Data Science con R y no sabes por dónde comenzar?
👉 Tenemos justo lo que necesitas: cheat sheets validadas por RStudio con lo esencial para arrancar con buen pie.👇
✨ Visuales, prácticas y fáciles de imprimir o tener a mano mientras trabajas.
🔹 ¿Qué encontrarás?
✔️ Guía rápida del IDE de RStudio
✔️ Guía rápida de Estadística Descriptiva con R y ggplot2
✔️ Guía rápida del lenguaje R: operadores, funciones básicas, estructuras de datos y más
Jun 11 • 13 tweets • 4 min read
🚨 ¿Sabías que puedes utilizar R de forma interactiva sin escribir código? 🚨
¡SÍ! Los Addins de RStudio son como tener un ayudante en tu IDE. 💥 Imagina ejecutar órdenes en R con solo un par de clics, ¡sin siquiera escribir una línea de código! 🎯
#stats #rstats #DataScience
💻 Solo abre el menú Addins y BOOM 💣, puedes hacer un montón de cosas sin complicarte. Aquí te dejo mi lista top de 10 addins imprescindibles que te animarán a comenzar con R sin agobios. 😎👇
😱📊 ¿Sigues usando gráficos de barras (o puntos+líneas) para representar datos continuos?
Es hora de soltar el barbarplot
📸 Mira la imagen: 5 conjuntos de datos muy diferentes dan lugar al mismo gráfico de barras. ¿Cómo puede ser? Te lo cuento en este post 👇🧵
#stats
❌ 8 razones para dejar de usar barplots para datos continuos
1️⃣ Ocultan la distribución de los datos
Diferentes distribuciones pueden dar lugar al mismo gráfico de barras.
Se pierde información clave como la simetría, la presencia de outliers o patrones multimodales.
Jun 8 • 14 tweets • 2 min read
🔥 Errores que cometes en tus análisis de datos, y que (casi) nadie te ha contado. Excepto @AdrianOlszewski. Mi resumen:
🚨 13 Errores de Comprensión de Conceptos Estadísticos.
#stats #analytics #datascience #rstats #python #research #phd #thesis #pvalue
@AdrianOlszewski 1. "La regresión logística no es una regresión". Error! Existe un malentendido del término "regresión" en estadística, que realmente incluye modelos como la regresión logística.
Jun 2 • 7 tweets • 2 min read
🎯 ¿Quieres que tus clusters realmente representen la estructura de tus datos? Entonces no te olvides de escalar.
💡 Escalar bien tus datos puede cambiar radicalmente los resultados que obtienes. Aquí te explico por qué y cómo hacerlo mejor. 👇
#MachineLearning #DataScience
🧠 En el análisis de datos, hay decisiones que parecen “detalles técnicos” pero que cambian radicalmente los resultados. El escalado de características (feature scaling) es una de ellas. ¿Por qué es tan crucial cuando usamos algoritmos como el k-means?
#clustering #ML #KMeans
May 31 • 13 tweets • 7 min read
📊 Errores comunes al analizar e interpretar datos (y cómo evitarlos)
En plena era de los datos, cometer errores al analizarlos puede salir muy caro.
👇🧵 Aquí tienes un repaso de los errores más comunes.
#stats #datascience #analytics #rstats
🔍 1. No tener claro el objetivo del estudio
¿Estás describiendo, explicando o prediciendo? No es lo mismo.
Ese objetivo define qué datos necesitas, cómo analizarlos y cómo interpretar los resultados.
🚨 ¿Todavía haces análisis complejos en hojas de cálculo? ¡🚨
Las hojas de cálculo son omnipresentes, versátiles y familiares, pero cuando se trata de análisis de datos complejos o decisiones críticas… se transforman en una bomba de relojería.💣👇🧵
#rstats #excel #spss #stats
💥 La cruda realidad: los errores son la norma, no la excepción
Estudios sistemáticos han demostrado que los errores en hojas de cálculo son tan comunes como invisibles. No hablamos solo de equivocarse al teclear un número. Hablamos de Errores lógicos, Fórmulas, Cambios, etc.!
May 28 • 11 tweets • 6 min read
🔍 ¿Qué es la ordenación restringida?
👀 Es una técnica de análisis multivariante que sirve para explorar cómo se relacionan múltiples variables de respuesta (e.g. abundancia de especies) con múltiples variables explicativas (e.g. condiciones ambientales).
Te cuento más 👇🧵
💡A diferencia de la ordenación no restringida (e.g. PCA/CA), aquí forzamos la representación de los datos a que esté condicionada por variables externas. Buscamos los ejes que mejor explican la variación, pero solo dentro del espacio definido por las variables explicativas.
May 21 • 9 tweets • 3 min read
📊 ¿Cómo evalúas y diagnosticas tu modelo de regresión?
💡 Comprender cómo se comportan los residuos es clave para interpretar si el modelo se ajusta correctamente a los datos.👇🧵
#stats #analytics #RStats #ModelDiagnostics #Estadística #DataScience #easystats #performance
Y aquí es donde entra el paquete 📦 {performance} de #RStats, que te permite realizar un diagnóstico completo, visual y eficiente en cuestión de segundos. 👇
🧪 Diagnóstico gráfico: lo que todo analista debería revisar:
May 15 • 11 tweets • 5 min read
🎯 ¿CUÁNTO ES SUFICIENTE? El tamaño de muestra ideal explicado fácil y rápido 🚀
Cuando diseñas un experimento o estudio, surge la GRAN PREGUNTA: ¿Cuántos sujetos o muestras necesito? 🤔
🔍En este post veremos por qué y cómo calcular el tamaño de muestra👇🧵
#DataScience #stats
📉 Demasiado pequeño: Podrías pasar por alto un efecto importante. Resultados poco confiables o "ruido".
💸 Demasiado grande: Desperdicias recursos y esfuerzo
🏆 El tamaño justo (como Ricitos de oro): Para detectar efectos relevantes sin malgastar recursos.
May 14 • 7 tweets • 2 min read
👀 ¿Te has preguntado qué estadísticos y gráficos usar para cada tipo de variable y estudio?
✨ Tanto la variación como la covariación son esenciales en el análisis de datos.
Aquí te lo resumo de forma sencilla 👇🧵
#stats #dataviz #statistics #analytics #datascience
La VARIACIÓN se ocupa de la dispersión dentro de una variable
La COVARIACIÓN se centra en las relaciones entre múltiples variables
Utilizar correctamente estas herramientas estadísticas puede enriquecer cualquier análisis de datos y ayudar a obtener conclusiones más robustas.📈🔍
May 13 • 6 tweets • 2 min read
🔥 Las pruebas estadísticas más comunes son TODAS modelos lineales. 🔥
🧠 Por lo tanto, en lugar de utilizar cientos de pruebas diferentes, ¿por qué no usar un modelo que realiza todas tus pruebas en una sola estructura flexible y robusta?
Te lo resumo en este post:👇🧵
🤔 Cuando piensas en ANOVA, t-tests, test de Mann-Whitney o test Chi-cuadrado, crees que estás aplicando métodos diferentes, pero la realidad es que todos son casos especiales del Modelo Lineal.
🌟 3 razones por las que los modelos de regresión lineal deben ser tu primera opción:
May 11 • 9 tweets • 5 min read
🚨Los datos ausentes están por todas partes🚨
👉Los NA pueden invalidar los resultados de tu estudio
👉Muchas funciones automáticas pueden no ser las más óptimas para manejarlos
👉El tratamiento incorrecto de los NA puede llevar a conclusiones erróneas o sesgadas
¿Qué hacer?👇🧵
👀 ¿Qué hacer con los NA? 🤔
1️⃣ Identifica los datos ausentes y comprende por qué faltan:
👉 Errores humanos
👉 Interrupciones en el flujo de datos (como meses sin registro)
👉 Problemas de privacidad
👉 Sesgo: Como cuando ciertos participantes del estudio tienen más NA que otros
May 9 • 14 tweets • 3 min read
🌟👀 ¿Qué hacer cuando un resultado NO es estadísticamente significativo?
¡No entres en pánico! 🧘♀️🧠 Un p > 0.05 no es el fin del análisis, sino el inicio de una buena reflexión.
Hoja de ruta🧵👇🏻
#stats #datascience #analytics #inference #pvalue #rstats #research #thesis
🔥 1. Evita conclusiones simplistas
No estadísticamente significativo (discernible o detectable) ≠ No hay efecto
👉 El p-valor NO te dice si la hipótesis nula es verdadera. Solo indica la compatibilidad de los datos con esa hipótesis, asumiendo que sea cierta.