Nuestro objetivo en las tres situaciones era hacer estimaciones.
Una estimación consiste en acercarnos lo máximo posible a una cantidad real de una población (en este caso, un porcentaje de votantes a un partido) utilizando los datos obtenidos de una muestra de esa población.
La precisión de una estimación depende de dos elementos que se suman entre sí: el sesgo y la varianza.
El sesgo se refiere a errores sistemáticos que podamos estar cometiendo.
La varianza se refiere a la incertidumbre de estar usando una muestra en vez de toda la población.
Como aquí dijimos que las muestras no proporcionaban sesgo, ese término lo podemos eliminar, por lo que la precisión depende sólo de la varianza.
Y la varianza en la estimación de un porcentaje, en una muestra aleatoria simple, tiene una fórmula concreta.
Es esta:
Como podéis ver, hay dos partes:
· La denominada corrección por finitud, donde tenemos en cuenta el porcentaje de la población que hemos conseguido seleccionar para la muestra
· La variabilidad de la propia característica a estudiar, dividida entre el tamaño de muestra (!)
Fijaos que en la segunda parte el tamaño de muestra está en el denominador.
Esto hace que, a medida que aumenta la muestra, este término se va haciendo más pequeñito mucho más rápidamente.
Y como va multiplicando, al final se termina "comiendo" a la corrección por finitud.
(si no os lo creéis, os invito a derivar ambos términos con respecto al tamaño de muestra)
¡Eso es lo que está pasando aquí!
En las opciones a) y b) se sacaba a un 10% de la población, pero como en la opción a) la muestra era más grande, muchos os decantasteis por ella.
Esto tiene parte de cierto, aunque no convierte a la opción a) en la más precisa.
Pero vais bien.
La opción más precisa es la opción c).
En ese caso, se saca sólo a un 0.001% de la población, pero como la muestra es taaan grande en comparación con las otras...
...esa bajísima fracción de muestreo se termina compensando y produciendo una precisión mucho mayor.
Así que, en definitiva, si alguna vez dudáis sobre si un tamaño de muestra es grande o pequeño (sin sesgos de por medio), no contéis con la fracción de muestreo: fijaos directamente en el tamaño de la muestra, sin más...
... con algunos matices.
Diferentes tipos de muestreo pueden dar lugar a varianzas diferentes que pueden ser mayores o menores que la aquí expuesta.
Y, sobretodo, a partir de ciertos tamaños de muestra, la ganancia (marginal) es muy, muy, muy pequeña. Lo expliqué aquí 👇
Si te ha molado la explicación o el quiz (o ambas), no te olvides de darle RT al primer tweet del hilo. Con ese sencillo gesto me estás ayudando muchísimo a seguir haciendo contenido como este 🥹
Y si quieres comentarme qué te ha parecido, mejor!
La encuesta sobre relaciones sociales y afectivas pospandemia que realiza el CIS desde hace un par de años me parece de las más interesantes que realiza esa institución ahora mismo. Los datos son jugosos (véase video adjunto), aunque hay matices muestrales y de cuestionario 👇
Para empezar, está el tema de la falta de respuesta: gente a la que el CIS llama y no cogen el teléfono, y gente que responde pero se deja algunas preguntas sin contestar. En esta encuesta se aplica una ponderación por variables sociodem. básicas (edad, sexo, CCAA), pero claro...
... estamos hablando de preguntas muy personales, que tocan en bastantes casos temas sensibles como la sexualidad. Aparte del sesgo de deseabilidad social (ahora lo comentaré un poco más), habrá gente que rechace responder por X motivos.
Antes de responder a esta cuestión, debemos plantear qué significa "preguntar para las encuestas".
Normalmente nos imaginamos al típico pesado que nos llama por teléfono a la hora de la siesta, o que nos toca a la puerta de casa cuaderno en mano.
Pero esto cada vez pasa menos.
Según datos de ANEIMO, asociación de empresas de estudios de mercado, apenas una cuarta parte de la investigación cuantitativa en España se realiza a través de encuestas telefónicas o presenciales (año 2021) [1].
A principios de siglo, ese porcentaje era superior al 90% [2].
Con esto de las campanadas de Ibai en Twitch, empezamos (como siempre) a ver comparaciones entre la audiencia que tuvo ayer su streaming y la audiencia de las cadenas de televisión en España.
Por desgracia, la comparación encierra algunas trampas. Lo cuento en 11 tweets 👇
Las audiencias de televisión se miden a través de audímetros.
Éstos se asignan al azar en diversos hogares de España (en 2020 fueron 5.720), con un muestreo estratificado por variables demográficas.
👍 Este diseño nos da una muestra probabilística (es decir, totalmente válida).
¿Problemas de los audímetros?
- Los propios hogares autorreportan la información: cuánta gente ve la tele, su edad, género, etc. lo que da lugar a posibles errores de respuesta
- Las personas pueden estar pasando de la tele y viendo otros dispositivos
- Sesgo de aquiesencia
-...
Estos últimos días quizá hayas escuchado que hoy, 15 de noviembre de 2022, llegamos a 8.000 millones de habitantes en el mundo.
¿De dónde ha salido esta cifra? ¿Es cierta? ¿Cómo cuentan a toda la gente en el mundo (si es que lo hacen)?
Hablemos un pelín sobre demografía 👇
La cifra sale del informe World Population Prospects 2022, realizado por la ONU y que salió a la luz el pasado julio.
Este informe nos da mucha información sobre las tendencias en natalidad, fertilidad... pero sobretodo en cuanto a cifras poblacionales. population.un.org/wpp/
En este sentido, el informe contiene las proyecciones (las cuales son descargables, por cierto) de la población total a nivel mundial (y por regiones) desde 2022 hasta 2100.
Según esas proyecciones, a día 1/1/2023 se estima* que seremos 8009 millones de personas en el mundo.
Cuando ignoras la teoría del muestreo estadístico en la estimación de parámetros poblacionales, te pasan estas cosas: rechazar un plan de muestreo que puede ser metodológicamente válido porque "no automation, no AI, no Machine Learning" 🤦🤦🤦
Poder hacer *de verdad* un muestreo aleatorio simple facilita muchísimo las cuentas, y si además un menor número de muestras te asegura poder etiquetar mejor quién es un bot y quien no, el error ajeno al muestreo es prácticamente cero. Sólo hay varianza (y la puedes estimar).
Aplicar técnicas de Machine Learning (supongo que para detectar los bots en toda la población) te permite reducir la varianza pero puede ser contraproducente si la detección falla por X motivos. Y aquí es peor, porque es un error ajeno al muestreo, mucho más difícil de estimar.