📊⛏ Picanúmeros Profile picture
Jul 30 12 tweets 4 min read Twitter logo Read on Twitter
De acuerdo, pues tal y como prometí ayer, se viene hilo explicando y justificando la respuesta correcta a la consulta de antes de ayer.

¿Vale más coger una gran fracción de la población cuando hacemos una encuesta, o más bien se trata simplemente de coger una muestra grande?

👇
Nuestro objetivo en las tres situaciones era hacer estimaciones.

Una estimación consiste en acercarnos lo máximo posible a una cantidad real de una población (en este caso, un porcentaje de votantes a un partido) utilizando los datos obtenidos de una muestra de esa población. Esquema explicativo sobre lo que significa la población de interés (número limitado de unidades, a veces son tantas que podemos asumir que es infinito) sobre la cual vamos a hacer el estudio, seleccionando una muestra de la misma, y así obtener un promedio que será una estimación muestral (cifra que puede obtenerse a partir de la muestra) de un parámetro poblacional (cifra que puede obtenerse a partir de la población).
La precisión de una estimación depende de dos elementos que se suman entre sí: el sesgo y la varianza.

El sesgo se refiere a errores sistemáticos que podamos estar cometiendo.

La varianza se refiere a la incertidumbre de estar usando una muestra en vez de toda la población.
Fórmula que dice "Error igual a sesgo al cuadrado más varianza"
Esquema mostrando cuatro situaciones: poco sesgo y poca varianza (puntos cerca del objetivo muy juntos entre sí), mucho sesgo y poca varianza (puntos muy juntos entre sí pero lejos del objetivo), poco sesgo y mucha varianza (puntos muy alejados entre sí pero en torno al objetivo) y mucho sesgo y mucha varianza (puntos muy alejados entre sí y alejados del objetivo).
Como aquí dijimos que las muestras no proporcionaban sesgo, ese término lo podemos eliminar, por lo que la precisión depende sólo de la varianza.

Y la varianza en la estimación de un porcentaje, en una muestra aleatoria simple, tiene una fórmula concreta.

Es esta: Fórmula que dice "varianza igual a uno menos muestra dividido entre la población, todo multiplicado por 0,25 dividido entre la muestra". Abajo se aclara: "El 0,25 es exclusivo de este ejemplo, se debe al 50% de porcentaje de voto, si fuese otro porcentaje el número sería diferente".
Como podéis ver, hay dos partes:

· La denominada corrección por finitud, donde tenemos en cuenta el porcentaje de la población que hemos conseguido seleccionar para la muestra
· La variabilidad de la propia característica a estudiar, dividida entre el tamaño de muestra (!) Misma fórmula de antes, pero para el primer término (uno menos muestra dividido entre población) tenemos un texto aclaratorio: "Porcentaje de la población que hemos extraído", y debajo del segundo término (0,25 entre muestra) tenemos otro texto: "Variabilidad de la característica dividida entre tamaño de muestra".
Fijaos que en la segunda parte el tamaño de muestra está en el denominador.

Esto hace que, a medida que aumenta la muestra, este término se va haciendo más pequeñito mucho más rápidamente.

Y como va multiplicando, al final se termina "comiendo" a la corrección por finitud.
(si no os lo creéis, os invito a derivar ambos términos con respecto al tamaño de muestra)
¡Eso es lo que está pasando aquí!

En las opciones a) y b) se sacaba a un 10% de la población, pero como en la opción a) la muestra era más grande, muchos os decantasteis por ella.

Esto tiene parte de cierto, aunque no convierte a la opción a) en la más precisa.

Pero vais bien.
La opción más precisa es la opción c).

En ese caso, se saca sólo a un 0.001% de la población, pero como la muestra es taaan grande en comparación con las otras...

...esa bajísima fracción de muestreo se termina compensando y produciendo una precisión mucho mayor. Varianza situación A: 0,00056. Varianza situación B: 0,00753. Varianza situación C: 0,000083.
Así que, en definitiva, si alguna vez dudáis sobre si un tamaño de muestra es grande o pequeño (sin sesgos de por medio), no contéis con la fracción de muestreo: fijaos directamente en el tamaño de la muestra, sin más...

... con algunos matices.
Diferentes tipos de muestreo pueden dar lugar a varianzas diferentes que pueden ser mayores o menores que la aquí expuesta.

Y, sobretodo, a partir de ciertos tamaños de muestra, la ganancia (marginal) es muy, muy, muy pequeña. Lo expliqué aquí 👇
Si te ha molado la explicación o el quiz (o ambas), no te olvides de darle RT al primer tweet del hilo. Con ese sencillo gesto me estás ayudando muchísimo a seguir haciendo contenido como este 🥹

Y si quieres comentarme qué te ha parecido, mejor!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 📊⛏ Picanúmeros

📊⛏ Picanúmeros Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @Picanumeros

Apr 13
La encuesta sobre relaciones sociales y afectivas pospandemia que realiza el CIS desde hace un par de años me parece de las más interesantes que realiza esa institución ahora mismo. Los datos son jugosos (véase video adjunto), aunque hay matices muestrales y de cuestionario 👇
Para empezar, está el tema de la falta de respuesta: gente a la que el CIS llama y no cogen el teléfono, y gente que responde pero se deja algunas preguntas sin contestar. En esta encuesta se aplica una ponderación por variables sociodem. básicas (edad, sexo, CCAA), pero claro...
... estamos hablando de preguntas muy personales, que tocan en bastantes casos temas sensibles como la sexualidad. Aparte del sesgo de deseabilidad social (ahora lo comentaré un poco más), habrá gente que rechace responder por X motivos.
Read 20 tweets
Jan 3
A pesar de que esta pregunta tiene un trasfondo de "negacionismo de las encuestas", lo cierto es que es interesante:

¿Por qué a mí nunca me preguntan en las encuestas, si hacen tantísimas?

Spoiler: la probabilidad es más baja de lo que (posiblemente) crees 👇🧵
Antes de responder a esta cuestión, debemos plantear qué significa "preguntar para las encuestas".

Normalmente nos imaginamos al típico pesado que nos llama por teléfono a la hora de la siesta, o que nos toca a la puerta de casa cuaderno en mano.

Pero esto cada vez pasa menos.
Según datos de ANEIMO, asociación de empresas de estudios de mercado, apenas una cuarta parte de la investigación cuantitativa en España se realiza a través de encuestas telefónicas o presenciales (año 2021) [1].

A principios de siglo, ese porcentaje era superior al 90% [2].
Read 26 tweets
Jan 1
Con esto de las campanadas de Ibai en Twitch, empezamos (como siempre) a ver comparaciones entre la audiencia que tuvo ayer su streaming y la audiencia de las cadenas de televisión en España.

Por desgracia, la comparación encierra algunas trampas. Lo cuento en 11 tweets 👇
Las audiencias de televisión se miden a través de audímetros.

Éstos se asignan al azar en diversos hogares de España (en 2020 fueron 5.720), con un muestreo estratificado por variables demográficas.
👍 Este diseño nos da una muestra probabilística (es decir, totalmente válida).
¿Problemas de los audímetros?

- Los propios hogares autorreportan la información: cuánta gente ve la tele, su edad, género, etc. lo que da lugar a posibles errores de respuesta
- Las personas pueden estar pasando de la tele y viendo otros dispositivos
- Sesgo de aquiesencia
-...
Read 12 tweets
Nov 15, 2022
Estos últimos días quizá hayas escuchado que hoy, 15 de noviembre de 2022, llegamos a 8.000 millones de habitantes en el mundo.

¿De dónde ha salido esta cifra? ¿Es cierta? ¿Cómo cuentan a toda la gente en el mundo (si es que lo hacen)?

Hablemos un pelín sobre demografía 👇 Imagen en blanco y negro de...
La cifra sale del informe World Population Prospects 2022, realizado por la ONU y que salió a la luz el pasado julio.

Este informe nos da mucha información sobre las tendencias en natalidad, fertilidad... pero sobretodo en cuanto a cifras poblacionales.
population.un.org/wpp/
En este sentido, el informe contiene las proyecciones (las cuales son descargables, por cierto) de la población total a nivel mundial (y por regiones) desde 2022 hasta 2100.

Según esas proyecciones, a día 1/1/2023 se estima* que seremos 8009 millones de personas en el mundo.
Read 19 tweets
Jul 17, 2022
Cuando ignoras la teoría del muestreo estadístico en la estimación de parámetros poblacionales, te pasan estas cosas: rechazar un plan de muestreo que puede ser metodológicamente válido porque "no automation, no AI, no Machine Learning" 🤦🤦🤦
Poder hacer *de verdad* un muestreo aleatorio simple facilita muchísimo las cuentas, y si además un menor número de muestras te asegura poder etiquetar mejor quién es un bot y quien no, el error ajeno al muestreo es prácticamente cero. Sólo hay varianza (y la puedes estimar).
Aplicar técnicas de Machine Learning (supongo que para detectar los bots en toda la población) te permite reducir la varianza pero puede ser contraproducente si la detección falla por X motivos. Y aquí es peor, porque es un error ajeno al muestreo, mucho más difícil de estimar.
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(