En la vida en general, hay un montón de cosas que, si no se empiezan por el principio no hay forma de entenderlas. Pero ¿cuál es el principio en estadística?
Hablamos de los conceptos de Población y muestra. ¿Qué los une? ¿Qué los diferencia?
¿Me dejas que te cuente?
Si nos vamos a la RAE vemos que las primeras acepciones para "población" hacen referencia a aquello que seguramente ya os imaginabais.
Sin embargo, la definición que más nos interesa en este caso es la quinta.
Cuando hablamos de población en estadística nos referimos a un conjunto de elementos sobre los que queremos estudiar una determinada característica.
De hecho, lo que define a una población estará determinado por la investigación que se quiera realizar.
Veamos algunos ejemplos
▪️Podemos hablar de “las personas con Diabetes tipo II” para estudiar sobre ellas el efecto de un nuevo fármaco.
▪️O hablar de “las personas menores de 18 años” para estudiar la incidencia de adicción al juego en dicho grupo.
También podemos pensar en poblaciones donde los elementos no son personas
▪️El estudio de una enfermedad en arboles frutales
Incluso podemos hablar de poblaciones en las que no hay elementos
▪️el estudio de la presencia de una bacteria en el sistema de aguas de una ciudad.
Estas poblaciones son relativamente fáciles de imaginar por sus características, pero…
¿cuál seria la población si queremos estudiar si una moneda esta trucada o no?
¿Y si queremos estudiar la proporción de bombillas defectuosas que produce una máquina?
La población en estos casos serían los infinitos lanzamientos o todas las bombillas que salen de esa máquina.
Como veis, hay poblaciones más sencillas que otras a la hora de definirlas y es muy importante definirlas correctamente.
Conectando con la probabilidad, si conociésemos por completo una población conoceríamos su distribución: una normal, una gamma, una Binomial etc. o quizás una nueva distribución desconocida.
Si estuviésemos en esa situación, podríamos establecer a la perfección el valor de todos los parámetros de la distribución, la media, la varianza o los cuantiles, si la variable es continua o la probabilidad de cada categoría, si es discreta.
Sin embargo, ahora viene el gran problema, ¿Podemos medir toda la población? La respuesta suele ser “no” por motivos muy diversos.
En poblaciones infinitas queda bastante claro pero, incluso en poblaciones finitas tampoco suele ser viable.
Pensemos, por ejemplo, en estudiar la resistencia de un lote de 1000 tornillos. Si probamos cuanto cuesta romperlos todos
1. moriremos del aburrimiento 2. Nos quedaremos sin los 1000 tornillos del lote,
y seguramente no es lo más aconsejable ¿no crees?
Recurrimos entonces al concepto de muestra: elementos de la población elegidos de forma inteligente y cuidadosa para que representen a la población general.
Vamos, que nos permitan estimar los parámetros de los que hablábamos hace unos tuits.
A la hora de seleccionar la muestra es importante tener en cuenta dos cuestiones.
La primera es su tamaño y no siempre se cumple la idea de cuanto más azúcar más dulce un buen ejemplo lo podéis encontrar en este hilo de @Picanumeros
El otro aspecto fundamental es lo representativa que sea la muestra de la población.
Si queremos estudiar la probabilidad de enfermedad cardiovascular pero, para ello, elegimos más hombres que mujeres, la estimación será menor que la real, vamos, ¡estará sesgada!
Para elegir la muestra correctamente es necesario tener una población bien definida y recurrir a los métodos de muestreo adecuados.
Algunos de los más conocidos son:
El Muestreo Aleatorio Simple según el cual elegimos a la muestra completamente al azar dentro de la población. Le pones un número a cada elemento, haces un sorteo y coges los seleccionados.
El Muestreo Estratificado que consiste en identificar grupos que se van a comportar de forma diferente dentro de la población y dentro de estos elegimos al azar consiguiendo así que todos los “estratos” estén bien representados.
El Muestreo por Conglomerados parte de una situación en la que tenemos a la población separada en grupos similares entre sí y dentro de cada uno podemos encontrar toda la variabilidad existente.
Existen muchísimos más tipos de muestreo, pero para conocerlos yo consultaría a un experto en diseño como @Picanumeros o @TessaSanMar
Finalmente, queda un caso interesante que da pie a la reflexión en estos tiempos que corren ¿Qué sucede si creemos que podemos medir toda la población? Un caso habitual en la era del BigData.
Imaginemos, por ejemplo, que queremos estudiar la variabilidad de la tasa de desempleo en los municipios españoles, lo cierto es que hoy en día, entidades como el INE nos permiten tener acceso a este tipo de información al completo.
Sin embargo, lo que estos datos nos ofrecen son una foto fija de un proceso medido, posiblemente, con error. David Spiegelhalter en su libro The Art of Statistics, incide en que resulta útil considerar dichas observaciones como una muestra de un proceso aleatorio mayor.
Algo así como un proceso que comprendería los todos valores que podría haber tomado la variable en otras dimensiones en las que podríamos haber medido esa variable bajo las mismas circunstancias. Muy filosófico quizás, pero nada alejado de la realidad.
Este hilo está especialmente dedicado al alumnado del Máster en Bioestadística de la Universitat de Valencia (@MBioesta_UV) que con esto empezamos mañana.
Y para acabar dos agradecimientos especiales! A @Picanumeros por el apoyo y por leérselo entero y ayudarme a mejorarlo y a @juliomulero porque él es el maestro detrás de todos mis hilos! ❤️
• • •
Missing some Tweet in this thread? You can try to
force a refresh
A lo largo de nuestras vidas es posible que nos preguntemos si algo ha variado tras una intervención.
Por ejemplo:
🟣Mejoró mi salario después de cambiar de empresa?
🟣Bajó mi colesterol después de reducir mi consumo de embutido
Una cosilla, si encontráis un gráfico de puntos con una linea que parece indicar que cuando una variable crece la otra también o que cuando una crece la otra decrece: NO MIREIS A LA LINEA Mirad más allá.
Porque a pesar de esa linea, puede que no haya relación
Me explico:
Mirad esta gráfica:
Si miráis a la linea podríais pensar que hay una relación directa entre x e y:
A mayor valor de x mayor valor de y.
Pero fijaos ahora en los puntos, están repartidos bastante al azar ¿no?
El otro día comenzaba a seguir expectante la encuesta de @JCesarPL sobre el significado de un Intervalo de Confianza. Una vez más queda patente que es un concepto que no se termina de entender.
Imaginad la flor más bonita del mundo plantada en vuestro jardín (igual es mucho imaginar... pero viene lo peor)
Un malvado mago que odia la belleza la ha cubierto con un conjuro de invisibilidad aunque no ha conseguido acabar con su intenso aroma.
Para recuperarla vuestra única opción es encontrarla y transplantarla a un lugar libre de magia.
Cada mañana salís al jardín, aspiráis el aroma alrededor de donde debería estar, tomando siempre la misma cantidad de aire (Val ya se que no se puede, pero seguid imaginando porfa)