Julio Mulero Profile picture
De mi padre y de mi madre. De ciencias y de letras. Cartagenero. Profesor de Matemáticas en la @UA_Universidad. Miembro de @DimatesUA.

Nov 12, 2021, 29 tweets

Según la @RAEinforma, “inferir” es deducir algo o sacarlo como conclusión de otra cosa y, precisamente, este es uno de los objetivos de la estadística.

Los primeros pasos de la media muestral en inferencia (tratando de evitar el rigor exagerado) es la siguiente…

Abro hilo ⬇️

Imagina, por ejemplo, que quieres conocer la media de una variable medida sobre cierta población.

La estatura, por ejemplo, de los habitantes de una ciudad con un millón de personas.

Si dicha media fuera conocida, ¿para qué calentarse la cabeza?

Pero, por desgracia, no dispones del millón de estaturas. Es más, no tienes ni tiempo, ni ganas, ni dinero, para hacer el correspondiente censo.

Lo único que puedes hacer es preguntar a unos cuantos individuos, reunir la información de, qué sé yo, 10, 15, 45, 100, 1000 personas (una “pequeña” muestra, al fin y al cabo) y, a partir de esa información, intentar sacar alguna conclusión acerca de la media del conjunto total.

Supón que eliges aleatoriamente 45 individuos de tu ciudad y reúnes sus estaturas (178, 162, 183, etc.) en centímetros.

Esta será, en esta ocasión, TU muestra. Si quieres, puedes construir un histograma de dichas estaturas.

Date cuenta que, en tu muestra, el mínimo es 167.5; el máximo, 172.17; la primera estatura que anotaste, 170.32; la media del máximo y el mínimo, 169.83; y, la media total, 169.91.

¿Será alguno de estos valores lo bastante bueno para estimar la media de toda la población?

Pero, cuidado, esta es tu muestra circunstancialmente. El universo, dios, o la madre naturaleza, te dio esos 45 datos.

Si realizas una nueva selección, de nuevo de forma aleatoria, podrías haber obtenido otra muestra. U otra. U otra…

Y cada una de ellas habría tenido su propio mínimo, máximo, primer elemento, media de mínimo y máximo y media total.

Es caprichoso el azar…

En cualquier caso, no perdamos de vista lo que queremos: “aproximarnos” a la media de las estaturas de la población completa a partir de la muestra.

Y de esto se encarga la #inferencia estadística. De extraer conclusiones sobre la población a partir de la muestra.

A la inferencia estadística pertenecen herramientas tales como la estimación puntual, la estimación por intervalos de confianza y los contrastes de hipótesis.

El primer paso es, generalmente, tener una estimación (puntual) de la “cosa” que deseamos conocer.

Si queremos conocer “de forma aproximada” la media de la población, necesitamos disponer de alguna expresión que permita obtener un valor suficientemente “fiable” a partir de la muestra. Y así poder decir:

Ok, vale, ese valor no lo sé, pero seguramente se parezca a este otro.

El valor desconocido se suele llamar parámetro y su aproximación en la muestra (x_1,x_2,…,x_n) es lo que se conoce como estimador o estadístico.

Nuestro parámetro, por ejemplo, es la media poblacional. Ahora bien, ¿qué expresión (o estimador) será la más adecuada?

En la imagen se puede el resultado de los estimadores sobre una muestra de cinco datos:

T1: Primer elemento.
T2: Máximo.
T3: Mínimo.
T4: Media del máximo y el mínimo.
T5: Media muestral.

¿Cuál proporcionará una mejor “aproximación a la media poblacional desconocida?

¿Será más “fiable” el mínimo de la muestra? ¿El máximo? ¿El primer dato? ¿La media del mínimo y el máximo? ¿La media de todos los datos de la muestra?

Estos son solo cinco posibles estimadores (podríamos considerar cualquier otro). Y, ojo, no todos funcionan igual de bien.

Pero déjame que hagamos un #experimento (con trampa incluida) para ver lo que ocurre con estos cinco posibles estimadores de la media poblacional.

Supongamos que conocemos la población al completo, el millón de estaturas. Y, no me llames tramposo, que el que avisa no es traidor.

La trampa es que, si conocemos todos los datos, el parámetro ya no sería desconocido. Pero veamos lo que ocurre.

Supongamos que este es el histograma completo y que la media de las estaturas es 170 cm.

Usando Python (o cualquier otro software), podemos extraer 100 muestras (a sabiendas que la media real es 170); y anotar, por ejemplo, el mínimo, máximo, media de ambos, primer elemento y media de cada una de las muestras...

Y lo que se observa es ciertamente interesante.

De hecho, si quieres, podemos incluso pintar los histogramas de los valores obtenidos considerando los cinco estimadores.

Lo que parece claro es que los mínimos y los máximos se alejan a la izquierda y a la derecha, respectivamente, de 170 cm.

Por tanto, podríamos descartarlos directamente. Sin darle muchas vueltas. Bye.

Diferente será el caso del primer elemento, la media del mínimo y el máximo y la media de los 45 datos que parece que se moverán en el entorno de 170 cm (la media real).

Y, efectivamente, es así.

En términos estadísticos, los estimadores “primer elemento”, “media del mínimo y el máximo” y “media muestral” son insesgados para la media poblacional.

Es decir, considerados como variables, sus distribuciones se ubican en los alrededores de dicha media.

Pero, ¿y entre los tres? ¿Deberíamos quedarnos con alguno de ellos?

Bueno, si te fijas, los valores de la media muestral están (hablando globalmente) más cercanos a la media poblacional.

Hay, lo que se llama, menor dispersión en torno a la media poblacional.

Lógicamente, puede haber alguna muestra en la que la media del mínimo y el máximo (o el primer elemento) esté más cerca de la media real que la media muestral, pero no es la regla general.

Pero la varianza de la media muestral es menor que las de los otros dos estimadores.

De hecho, en una población en donde los datos se distribuyen según una distribución normal, la media muestral es el conocido como estimador insesgado de mínima varianza.

Es decir, en nuestro caso, cualquier otro estimador insesgado para la media tendrá varianza mayor.

Pero aún hay una cosa más…

Las muestras que estamos considerando son de 45 datos. ¿Por qué? Pues porque me ha dado a mí la gana.

Está claro que podríamos considerar muestras más pequeñas o más grandes.

Lo bueno de este experimento es que podemos extraer todas las muestras que queramos, así que...

Tomamos 10000 muestras de 10 datos; 10000, de 20 datos;… y calculamos estos valores. Lo que ocurre es lógico, pero también sorprendente.

Los histogramas de las 10000 medias muestrales van estando cada vez más concentrados en torno a la media real,

¡mientras que los de las 10000 medias del valor mínimo y máximo y los de los 10000 primeros elementos siempre mantienen el mismo aspecto!

En términos estadísticos, la media muestral es consistente para la media poblacional.

En resumen, todas estas propiedades (y más) confieren a la media muestral la importancia que tiene y la convierten generalmente en el estimador más adecuado para la media poblacional.

Y hasta aquí va bien por hoy.

Si te ha resultado de interés o utilidad, te agradecería que compartas este contenido. ¡Muchas gracias!

Todo el texto y las imágenes (muchas de ellas construidas con Python) podrán ser próximamente consultadas en mi blog:

elultimoversodefermat.wordpress.com

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling