❓¿Qué os parece si hacemos un Calendario de Adviento de Estadística?
🎄Total, la Navidad está llena de gráficos de cuanto hemos gastado en tal o cuál cosa... o resúmenes haciendo balance del año que se va.
¿Qué mejor que llegar hasta ella con algunos conceptos aprendidos?
1⃣Empecemos por el origen del término.
La palabra Estadística proviene del término alemán Statistik del latín: status (estado) + icus (relativo a) es decir: “la ciencia del estado” y fue popularizada en el siglo XVIII por el economista alemán Gottfried Achenwall.
2⃣ Pero, ¿Para qué sirve? Os doy mi versión:
💡Partimos de la idea que todo pasa por una razón, una ley para la que no tenemos una fórmula exacta.
👁️Observamos una versión distorsionada de esa ley
🔝La Estadística nos permite aproximarnos a esa realidad a partir de los datos
3⃣ Hablamos su lenguaje. La probabilidad
Existen distintas formas de interpretarla (ver gif) pero siempre debe cumplir los Axiomas de Kolmogorov. Resumiendo:
▪️Lo imposible tiene probabilidad 0, lo seguro 1, el resto en medio
▪️Los sucesos excluyentes suman su probabilidad
4⃣ 1/3 En estadística hablamos de Variables aleatorias
Intuimos que son valores que cambian entre observaciones pero ¿qué son realmente?
👉Una variable aleatoria es una función que relaciona el resultado de un experimento aleatorio con un valor, casi siempre numérico
Ejemplos:
4⃣2/3 Las variables pueden ser de diferentes tipos
▪️Cualitativas: expresan una cualidad: el color de ojos...
▪️Cuantitativas: miden una cantidad: la altura de una persona; el número de abejas en un panal...
👁️ A veces ponemos números (marrón=3) pero siguen sin ser numéricas
4⃣ 3/3 Y dentro de las Cuantitativas tendremos
▪️Continuas si pueden tomar cualquier valor en un intervalo
▪️Discretas si solo pueden tomar ciertos valores
👁️ A veces redondeamos (altura=1.67) o damos valores enteros (edad=45) pero son variables de naturaleza continua
5⃣ ¿Y dónde se miden las variables?
Las medimos en una muestra en representación de un conjunto mucho más amplio, la población.
*Población y muestra* son, posiblemente, las ideas más relevantes dentro de la estadística.
7⃣ Dar la distribución completa de una variable está bien, pero mola resumir y dar los valores clave ¿No?
En una distribución de probabilidad, los valores claves se llaman momentos
El momento más conocido, la esperanza, que identificamos con la media pero hay más. Aquí algunos:
8⃣ Para entender la distribución de una variable también usamos los cuantiles.
El cuantil p o percentil 100*p% es un valor de la variable tal que la probabilidad de estar por debajo de ese valor es p
El más conocido es la mediana (cuantil 0.5 /percentil 50%)
¿Lo visualizas?
8⃣ Añado dos detalles:
▪️Cuando la distribución no es simétrica, los cuantiles nos dan una mejor idea sobre su comportamiento (en el salario, por ejemplo
▪️En el caso de variables discretas la cosa es un poquito más complicada... pero no entraremos en eso hoy.
9⃣ 1/2 Todo lo visto hasta ahora estaría perfecto si conociésemos el comportamiento de la población pero
Y ¿qué hacemos si solo contamos con una muestra?... pues empecemos por hacer una descripción!
La estadística descriptiva puede ser numérica o gráfica.
Hoy la numérica:
9⃣ 2/2 En cuanto a la descriptiva numérica lo habitual es dar:
👉la media de los valores de la variable en la muestra,
👉su varianza
👉los cuartiles (los cuantiles 0.25, 0.5 y 0.75)
Los vemos:
🔟1/2 Pero visualizar siempre está bien así que nada mejor que un buen gráfico.
En los próximos días veremos algunos de los más comunes
Pero cada día hay más tipos y es importante transmitir las bases para no malinterpretarlos Lean a @ljrguezmuniz
🔟2/2 Hoy diagrama de barras. El mejor para una variable discreta
Tendremos una barra por cada categoría, cuya altura puede ser:
📊la frecuencia absoluta (nº de observaciones de esa categoría)
📊la frecuencia relativa (nº de observaciones/ Total)
Pero 👀 la escala importa:
1⃣1⃣ Vamos hoy a por el histograma. Uno de los más comunes para variables continuas
👉También tiene barras pero estas aparecen consecutivas dando sensación de continuidad.
👉Cada barra representa a un intervalo de posibles valores.
👉 Altura proporcional a la frecuencia
1⃣2⃣ 1/2 Otro de los gráficos más socorridos para variables continuas (y digo CONTINUAS) es el diagrama de caja y bigotes o box plot.
El box plot se basa en la representación de los cuartiles y asume que, a partir de determinada distancia de estos los valores son "extraños".
1⃣2⃣ 2/2 👁🗨Elegir aumentar un 50% de la amplitud de la caja para el rango máximo de los bigotes NO es un capricho. Así, desde el centro tenemos 2 veces el ancho de la caja a cada lado.
Esto es, asumimos normalidad y estar a más de 2 desviaciones típicas de la media es "raro".
1⃣3⃣ ¿Y qué pasa si lo que queremos es entender la relación entre dos variables?
Si una es continua y otra discreta podemos usar un BoxPlot de la primera por cada categoría de la segunda.
Pero, si las dos son continuas tenemos las nubes de puntos o diagramas de dispersión:
1⃣4⃣ Ahora imagina que una de esas dos variables es el tiempo y que hemos observado una variable continua en una misma unidad (una persona, una muestra de tejido, una planta) a lo largo de ese tiempo.
En ese caso, lo mejor, un Spaghetti Plot!
Te lo enseño:
• • •
Missing some Tweet in this thread? You can try to
force a refresh
El nombre de está filosofía (porque, sí, podemos entenderla como tal) se lo debemos al reverendo presbiteriano Thomas Bayes (1702-1761) del que ya os conté algunas cosas en este hilo:
En la vida en general, hay un montón de cosas que, si no se empiezan por el principio no hay forma de entenderlas. Pero ¿cuál es el principio en estadística?
Hablamos de los conceptos de Población y muestra. ¿Qué los une? ¿Qué los diferencia?
¿Me dejas que te cuente?
Si nos vamos a la RAE vemos que las primeras acepciones para "población" hacen referencia a aquello que seguramente ya os imaginabais.
Sin embargo, la definición que más nos interesa en este caso es la quinta.
Cuando hablamos de población en estadística nos referimos a un conjunto de elementos sobre los que queremos estudiar una determinada característica.
De hecho, lo que define a una población estará determinado por la investigación que se quiera realizar.
A lo largo de nuestras vidas es posible que nos preguntemos si algo ha variado tras una intervención.
Por ejemplo:
🟣Mejoró mi salario después de cambiar de empresa?
🟣Bajó mi colesterol después de reducir mi consumo de embutido
Una cosilla, si encontráis un gráfico de puntos con una linea que parece indicar que cuando una variable crece la otra también o que cuando una crece la otra decrece: NO MIREIS A LA LINEA Mirad más allá.
Porque a pesar de esa linea, puede que no haya relación
Me explico:
Mirad esta gráfica:
Si miráis a la linea podríais pensar que hay una relación directa entre x e y:
A mayor valor de x mayor valor de y.
Pero fijaos ahora en los puntos, están repartidos bastante al azar ¿no?
El otro día comenzaba a seguir expectante la encuesta de @JCesarPL sobre el significado de un Intervalo de Confianza. Una vez más queda patente que es un concepto que no se termina de entender.
Imaginad la flor más bonita del mundo plantada en vuestro jardín (igual es mucho imaginar... pero viene lo peor)
Un malvado mago que odia la belleza la ha cubierto con un conjuro de invisibilidad aunque no ha conseguido acabar con su intenso aroma.
Para recuperarla vuestra única opción es encontrarla y transplantarla a un lugar libre de magia.
Cada mañana salís al jardín, aspiráis el aroma alrededor de donde debería estar, tomando siempre la misma cantidad de aire (Val ya se que no se puede, pero seguid imaginando porfa)