Julio Mulero Profile picture
Nov 12, 2021 29 tweets 11 min read Read on X
Según la @RAEinforma, “inferir” es deducir algo o sacarlo como conclusión de otra cosa y, precisamente, este es uno de los objetivos de la estadística.

Los primeros pasos de la media muestral en inferencia (tratando de evitar el rigor exagerado) es la siguiente…

Abro hilo ⬇️
Imagina, por ejemplo, que quieres conocer la media de una variable medida sobre cierta población.

La estatura, por ejemplo, de los habitantes de una ciudad con un millón de personas.
Si dicha media fuera conocida, ¿para qué calentarse la cabeza?

Pero, por desgracia, no dispones del millón de estaturas. Es más, no tienes ni tiempo, ni ganas, ni dinero, para hacer el correspondiente censo.
Lo único que puedes hacer es preguntar a unos cuantos individuos, reunir la información de, qué sé yo, 10, 15, 45, 100, 1000 personas (una “pequeña” muestra, al fin y al cabo) y, a partir de esa información, intentar sacar alguna conclusión acerca de la media del conjunto total.
Supón que eliges aleatoriamente 45 individuos de tu ciudad y reúnes sus estaturas (178, 162, 183, etc.) en centímetros.

Esta será, en esta ocasión, TU muestra. Si quieres, puedes construir un histograma de dichas estaturas.
Date cuenta que, en tu muestra, el mínimo es 167.5; el máximo, 172.17; la primera estatura que anotaste, 170.32; la media del máximo y el mínimo, 169.83; y, la media total, 169.91.

¿Será alguno de estos valores lo bastante bueno para estimar la media de toda la población?
Pero, cuidado, esta es tu muestra circunstancialmente. El universo, dios, o la madre naturaleza, te dio esos 45 datos.

Si realizas una nueva selección, de nuevo de forma aleatoria, podrías haber obtenido otra muestra. U otra. U otra…
Y cada una de ellas habría tenido su propio mínimo, máximo, primer elemento, media de mínimo y máximo y media total.

Es caprichoso el azar…
En cualquier caso, no perdamos de vista lo que queremos: “aproximarnos” a la media de las estaturas de la población completa a partir de la muestra.

Y de esto se encarga la #inferencia estadística. De extraer conclusiones sobre la población a partir de la muestra.
A la inferencia estadística pertenecen herramientas tales como la estimación puntual, la estimación por intervalos de confianza y los contrastes de hipótesis.

El primer paso es, generalmente, tener una estimación (puntual) de la “cosa” que deseamos conocer.
Si queremos conocer “de forma aproximada” la media de la población, necesitamos disponer de alguna expresión que permita obtener un valor suficientemente “fiable” a partir de la muestra. Y así poder decir:

Ok, vale, ese valor no lo sé, pero seguramente se parezca a este otro.
El valor desconocido se suele llamar parámetro y su aproximación en la muestra (x_1,x_2,…,x_n) es lo que se conoce como estimador o estadístico.

Nuestro parámetro, por ejemplo, es la media poblacional. Ahora bien, ¿qué expresión (o estimador) será la más adecuada?
En la imagen se puede el resultado de los estimadores sobre una muestra de cinco datos:

T1: Primer elemento.
T2: Máximo.
T3: Mínimo.
T4: Media del máximo y el mínimo.
T5: Media muestral.

¿Cuál proporcionará una mejor “aproximación a la media poblacional desconocida?
¿Será más “fiable” el mínimo de la muestra? ¿El máximo? ¿El primer dato? ¿La media del mínimo y el máximo? ¿La media de todos los datos de la muestra?

Estos son solo cinco posibles estimadores (podríamos considerar cualquier otro). Y, ojo, no todos funcionan igual de bien.
Pero déjame que hagamos un #experimento (con trampa incluida) para ver lo que ocurre con estos cinco posibles estimadores de la media poblacional.

Supongamos que conocemos la población al completo, el millón de estaturas. Y, no me llames tramposo, que el que avisa no es traidor.
La trampa es que, si conocemos todos los datos, el parámetro ya no sería desconocido. Pero veamos lo que ocurre.

Supongamos que este es el histograma completo y que la media de las estaturas es 170 cm.
Usando Python (o cualquier otro software), podemos extraer 100 muestras (a sabiendas que la media real es 170); y anotar, por ejemplo, el mínimo, máximo, media de ambos, primer elemento y media de cada una de las muestras...

Y lo que se observa es ciertamente interesante.
De hecho, si quieres, podemos incluso pintar los histogramas de los valores obtenidos considerando los cinco estimadores.
Lo que parece claro es que los mínimos y los máximos se alejan a la izquierda y a la derecha, respectivamente, de 170 cm.

Por tanto, podríamos descartarlos directamente. Sin darle muchas vueltas. Bye.
Diferente será el caso del primer elemento, la media del mínimo y el máximo y la media de los 45 datos que parece que se moverán en el entorno de 170 cm (la media real).

Y, efectivamente, es así.
En términos estadísticos, los estimadores “primer elemento”, “media del mínimo y el máximo” y “media muestral” son insesgados para la media poblacional.

Es decir, considerados como variables, sus distribuciones se ubican en los alrededores de dicha media.
Pero, ¿y entre los tres? ¿Deberíamos quedarnos con alguno de ellos?

Bueno, si te fijas, los valores de la media muestral están (hablando globalmente) más cercanos a la media poblacional.

Hay, lo que se llama, menor dispersión en torno a la media poblacional.
Lógicamente, puede haber alguna muestra en la que la media del mínimo y el máximo (o el primer elemento) esté más cerca de la media real que la media muestral, pero no es la regla general.

Pero la varianza de la media muestral es menor que las de los otros dos estimadores.
De hecho, en una población en donde los datos se distribuyen según una distribución normal, la media muestral es el conocido como estimador insesgado de mínima varianza.

Es decir, en nuestro caso, cualquier otro estimador insesgado para la media tendrá varianza mayor.
Pero aún hay una cosa más…

Las muestras que estamos considerando son de 45 datos. ¿Por qué? Pues porque me ha dado a mí la gana.

Está claro que podríamos considerar muestras más pequeñas o más grandes.
Lo bueno de este experimento es que podemos extraer todas las muestras que queramos, así que...

Tomamos 10000 muestras de 10 datos; 10000, de 20 datos;… y calculamos estos valores. Lo que ocurre es lógico, pero también sorprendente.
Los histogramas de las 10000 medias muestrales van estando cada vez más concentrados en torno a la media real,

¡mientras que los de las 10000 medias del valor mínimo y máximo y los de los 10000 primeros elementos siempre mantienen el mismo aspecto!
En términos estadísticos, la media muestral es consistente para la media poblacional.

En resumen, todas estas propiedades (y más) confieren a la media muestral la importancia que tiene y la convierten generalmente en el estimador más adecuado para la media poblacional.
Y hasta aquí va bien por hoy.

Si te ha resultado de interés o utilidad, te agradecería que compartas este contenido. ¡Muchas gracias!

Todo el texto y las imágenes (muchas de ellas construidas con Python) podrán ser próximamente consultadas en mi blog:

elultimoversodefermat.wordpress.com

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Julio Mulero

Julio Mulero Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @juliomulero

Mar 25, 2023
Yo sé que tú sabes resolver un sistema de ecuaciones lineales (compatible determinado, por supuesto).

Por ejemplo, este con dos ecuaciones y dos incógnitas:

x+2y = 4
-x+4y = 6

Lo que no tengo tan claro es cómo resolverías uno con cientos de ecuaciones e incógnitas ⬇️
¡Imagínate ponerte con aquello de igualación, reducción o sustitución! Ya puedes organizarte bien...

O incluso aplicando el método de Gauss o la regla de Cramer... ¡Puede llevarte años (literalmente)!

¡Incluso a un ordenador!
Hay otros métodos que se conocen como "iterativos" que, en lugar de calcular la solución de forma exacta, lo hacen de forma aproximada.

Y son iterativos porque se basan en la repetición de una operación concreta un número adecuado de veces.
Read 16 tweets
Dec 20, 2021
En muchos lenguajes de programación la instrucción a^b indica “a elevado a b”. La potencia de toda la vida, vaya. Así ocurre en R, por ejemplo.

Sin embargo, en Python, esto se escribe como a**b (dos asteriscos).

Hasta aquí, pues vale. ¡Pero sigue leyendo!⬇️⬇️
Hoy, en clase, una alumna me preguntó algo en lo que no había caído antes:

- Julio, pero entonces ¿qué resultado devuelve a^b en Python? Porque no da error. ¡Da un número!
Ahí he pensado “¿en serio?¿Y no da error? No sé, a saber…”.

Medio sorprendido, medio escéptico, le he respondido:

- Ahora no te lo sé decir, lo miro y os lo comento en las historias de Instagram (julio.mulero, por cierto).
Read 21 tweets
Dec 10, 2020
10 de diciembre de 1934. Seis jóvenes se reúnen en el Café Capoulade (París). Sobre la mesa, un objetivo: revitalizar las matemáticas.

Así "nació" #Bourbaki, uno de los matemáticos más influyentes y polémicos del siglo XX.

Dentro HILO ⬇️⬇️

#EnHebrasMatemáticas
Lo que allí se habló fue el germen de una revolución en las matemáticas.

Tanto es así que, en la década de los 70, las pizarras de nuestras aulas se rindieron a los conjuntos, anillos, aplicaciones… ¿Alguien lo recuerda?

El juicio sobre su idoneidad se deja como ejercicio.
A fin de entender por qué ese giro hacia los cimientos abstractos de las matemáticas que, a juicio de muchos/as, complicaron en demasía la enseñanza de las matemáticas, tenemos que entender quiénes eran, qué pretendían hacer, y quién o qué fue Bourbaki.

¡Allá vamos!
Read 48 tweets
Nov 26, 2020
Imagina que deseas estudiar si alguna variable presenta diferencias en ciertos grupos de individuos, animales, plantas o cosas. Este es el origen del análisis de la varianza (o ANOVA).

¿No dicen que “las diferencias siempre suman”? Pues déjame que te cuente...

Dentro HILO ⬇️⬇️
Imagina que deseas realizar un estudio de ciertas especies de pájaros 🦉🦜🐦 que son de similar naturaleza y comparten un medio común:

el malviz pardo, el cuelliamarillo común y el towhee.

Cada una de ellas conforma una población diferente.
Una característica de interés es su canto, ya que cada especie presenta sus particularidades y debes analizar, por ejemplo, su duración (en segundos).

No sin dificultades has obtenido tres conjuntos de datos: doce datos de malvices; nueve, de cuelliamarillos; y once, de towhees.
Read 38 tweets
Nov 12, 2020
#TalDíaComoHoy, pero de 1927, nació Yutaka #Taniyama.

Sus ideas, materializadas en la Conjetura de Taniyama-Shimura, jugó un papel importante en la demostración del Último Teorema de Fermat por parte de Andrew Wiles.

Sin embargo, él nunca llegó a verlo...

⤵️⤵️
Yutaka nació en Kisai, en la prefectura de Saitama (Japón), al norte de Tokyo.

Su nombre, en realidad, era Toyo, pero muchos le llamaban Yutaka por ser una lectura más común del carácter 豊.
Yutaka era una persona sencilla, no demasiado preocupado por los aspectos superfluos y materiales de la vida.

Estudió en la Universidad de Tokyo y allí conoció a Goro #Shimura, junto con quien estableció su famosa conjetura sobre las curvas elípticas.
Read 12 tweets
Nov 8, 2020
#TalDíaComoHoy, pero en 1868, nació Felix #Hausdorff.

Se le debe el concepto de espacio topológico en sentido moderno, si bien lo que Hausdorff llamó “espacio topológico” actualmente se conoce como “espacio de Hausdorff” (algo más restrictivo).

⤵️⤵️
En un espacio topológico los entornos de un punto miden, en cierta manera, el grado de proximidad del resto de puntos del espacio.

En este sentido, un espacio es de Hausdorff si dos puntos distintos tienen siempre entornos disjuntos.
Para quienes hemos estudiado matemáticas este concepto es muy familiar.

Sin embargo, y como casi siempre, solemos ignorar su historia personal.
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(