Según la @RAEinforma, “inferir” es deducir algo o sacarlo como conclusión de otra cosa y, precisamente, este es uno de los objetivos de la estadística.
Los primeros pasos de la media muestral en inferencia (tratando de evitar el rigor exagerado) es la siguiente…
Abro hilo ⬇️
Imagina, por ejemplo, que quieres conocer la media de una variable medida sobre cierta población.
La estatura, por ejemplo, de los habitantes de una ciudad con un millón de personas.
Si dicha media fuera conocida, ¿para qué calentarse la cabeza?
Pero, por desgracia, no dispones del millón de estaturas. Es más, no tienes ni tiempo, ni ganas, ni dinero, para hacer el correspondiente censo.
Lo único que puedes hacer es preguntar a unos cuantos individuos, reunir la información de, qué sé yo, 10, 15, 45, 100, 1000 personas (una “pequeña” muestra, al fin y al cabo) y, a partir de esa información, intentar sacar alguna conclusión acerca de la media del conjunto total.
Supón que eliges aleatoriamente 45 individuos de tu ciudad y reúnes sus estaturas (178, 162, 183, etc.) en centímetros.
Esta será, en esta ocasión, TU muestra. Si quieres, puedes construir un histograma de dichas estaturas.
Date cuenta que, en tu muestra, el mínimo es 167.5; el máximo, 172.17; la primera estatura que anotaste, 170.32; la media del máximo y el mínimo, 169.83; y, la media total, 169.91.
¿Será alguno de estos valores lo bastante bueno para estimar la media de toda la población?
Pero, cuidado, esta es tu muestra circunstancialmente. El universo, dios, o la madre naturaleza, te dio esos 45 datos.
Si realizas una nueva selección, de nuevo de forma aleatoria, podrías haber obtenido otra muestra. U otra. U otra…
Y cada una de ellas habría tenido su propio mínimo, máximo, primer elemento, media de mínimo y máximo y media total.
Es caprichoso el azar…
En cualquier caso, no perdamos de vista lo que queremos: “aproximarnos” a la media de las estaturas de la población completa a partir de la muestra.
Y de esto se encarga la #inferencia estadística. De extraer conclusiones sobre la población a partir de la muestra.
A la inferencia estadística pertenecen herramientas tales como la estimación puntual, la estimación por intervalos de confianza y los contrastes de hipótesis.
El primer paso es, generalmente, tener una estimación (puntual) de la “cosa” que deseamos conocer.
Si queremos conocer “de forma aproximada” la media de la población, necesitamos disponer de alguna expresión que permita obtener un valor suficientemente “fiable” a partir de la muestra. Y así poder decir:
Ok, vale, ese valor no lo sé, pero seguramente se parezca a este otro.
El valor desconocido se suele llamar parámetro y su aproximación en la muestra (x_1,x_2,…,x_n) es lo que se conoce como estimador o estadístico.
Nuestro parámetro, por ejemplo, es la media poblacional. Ahora bien, ¿qué expresión (o estimador) será la más adecuada?
En la imagen se puede el resultado de los estimadores sobre una muestra de cinco datos:
T1: Primer elemento.
T2: Máximo.
T3: Mínimo.
T4: Media del máximo y el mínimo.
T5: Media muestral.
¿Cuál proporcionará una mejor “aproximación a la media poblacional desconocida?
¿Será más “fiable” el mínimo de la muestra? ¿El máximo? ¿El primer dato? ¿La media del mínimo y el máximo? ¿La media de todos los datos de la muestra?
Estos son solo cinco posibles estimadores (podríamos considerar cualquier otro). Y, ojo, no todos funcionan igual de bien.
Pero déjame que hagamos un #experimento (con trampa incluida) para ver lo que ocurre con estos cinco posibles estimadores de la media poblacional.
Supongamos que conocemos la población al completo, el millón de estaturas. Y, no me llames tramposo, que el que avisa no es traidor.
La trampa es que, si conocemos todos los datos, el parámetro ya no sería desconocido. Pero veamos lo que ocurre.
Supongamos que este es el histograma completo y que la media de las estaturas es 170 cm.
Usando Python (o cualquier otro software), podemos extraer 100 muestras (a sabiendas que la media real es 170); y anotar, por ejemplo, el mínimo, máximo, media de ambos, primer elemento y media de cada una de las muestras...
Y lo que se observa es ciertamente interesante.
De hecho, si quieres, podemos incluso pintar los histogramas de los valores obtenidos considerando los cinco estimadores.
Lo que parece claro es que los mínimos y los máximos se alejan a la izquierda y a la derecha, respectivamente, de 170 cm.
Por tanto, podríamos descartarlos directamente. Sin darle muchas vueltas. Bye.
Diferente será el caso del primer elemento, la media del mínimo y el máximo y la media de los 45 datos que parece que se moverán en el entorno de 170 cm (la media real).
Y, efectivamente, es así.
En términos estadísticos, los estimadores “primer elemento”, “media del mínimo y el máximo” y “media muestral” son insesgados para la media poblacional.
Es decir, considerados como variables, sus distribuciones se ubican en los alrededores de dicha media.
Pero, ¿y entre los tres? ¿Deberíamos quedarnos con alguno de ellos?
Bueno, si te fijas, los valores de la media muestral están (hablando globalmente) más cercanos a la media poblacional.
Hay, lo que se llama, menor dispersión en torno a la media poblacional.
Lógicamente, puede haber alguna muestra en la que la media del mínimo y el máximo (o el primer elemento) esté más cerca de la media real que la media muestral, pero no es la regla general.
Pero la varianza de la media muestral es menor que las de los otros dos estimadores.
De hecho, en una población en donde los datos se distribuyen según una distribución normal, la media muestral es el conocido como estimador insesgado de mínima varianza.
Es decir, en nuestro caso, cualquier otro estimador insesgado para la media tendrá varianza mayor.
Pero aún hay una cosa más…
Las muestras que estamos considerando son de 45 datos. ¿Por qué? Pues porque me ha dado a mí la gana.
Está claro que podríamos considerar muestras más pequeñas o más grandes.
Lo bueno de este experimento es que podemos extraer todas las muestras que queramos, así que...
Tomamos 10000 muestras de 10 datos; 10000, de 20 datos;… y calculamos estos valores. Lo que ocurre es lógico, pero también sorprendente.
Los histogramas de las 10000 medias muestrales van estando cada vez más concentrados en torno a la media real,
¡mientras que los de las 10000 medias del valor mínimo y máximo y los de los 10000 primeros elementos siempre mantienen el mismo aspecto!
En términos estadísticos, la media muestral es consistente para la media poblacional.
En resumen, todas estas propiedades (y más) confieren a la media muestral la importancia que tiene y la convierten generalmente en el estimador más adecuado para la media poblacional.
Y hasta aquí va bien por hoy.
Si te ha resultado de interés o utilidad, te agradecería que compartas este contenido. ¡Muchas gracias!
Todo el texto y las imágenes (muchas de ellas construidas con Python) podrán ser próximamente consultadas en mi blog:
Lo que allí se habló fue el germen de una revolución en las matemáticas.
Tanto es así que, en la década de los 70, las pizarras de nuestras aulas se rindieron a los conjuntos, anillos, aplicaciones… ¿Alguien lo recuerda?
El juicio sobre su idoneidad se deja como ejercicio.
A fin de entender por qué ese giro hacia los cimientos abstractos de las matemáticas que, a juicio de muchos/as, complicaron en demasía la enseñanza de las matemáticas, tenemos que entender quiénes eran, qué pretendían hacer, y quién o qué fue Bourbaki.
Imagina que deseas estudiar si alguna variable presenta diferencias en ciertos grupos de individuos, animales, plantas o cosas. Este es el origen del análisis de la varianza (o ANOVA).
¿No dicen que “las diferencias siempre suman”? Pues déjame que te cuente...
Dentro HILO ⬇️⬇️
Imagina que deseas realizar un estudio de ciertas especies de pájaros 🦉🦜🐦 que son de similar naturaleza y comparten un medio común:
el malviz pardo, el cuelliamarillo común y el towhee.
Cada una de ellas conforma una población diferente.
Una característica de interés es su canto, ya que cada especie presenta sus particularidades y debes analizar, por ejemplo, su duración (en segundos).
No sin dificultades has obtenido tres conjuntos de datos: doce datos de malvices; nueve, de cuelliamarillos; y once, de towhees.
Sus ideas, materializadas en la Conjetura de Taniyama-Shimura, jugó un papel importante en la demostración del Último Teorema de Fermat por parte de Andrew Wiles.
Sin embargo, él nunca llegó a verlo...
⤵️⤵️
Yutaka nació en Kisai, en la prefectura de Saitama (Japón), al norte de Tokyo.
Su nombre, en realidad, era Toyo, pero muchos le llamaban Yutaka por ser una lectura más común del carácter 豊.
Yutaka era una persona sencilla, no demasiado preocupado por los aspectos superfluos y materiales de la vida.
Estudió en la Universidad de Tokyo y allí conoció a Goro #Shimura, junto con quien estableció su famosa conjetura sobre las curvas elípticas.
Se le debe el concepto de espacio topológico en sentido moderno, si bien lo que Hausdorff llamó “espacio topológico” actualmente se conoce como “espacio de Hausdorff” (algo más restrictivo).
⤵️⤵️
En un espacio topológico los entornos de un punto miden, en cierta manera, el grado de proximidad del resto de puntos del espacio.
En este sentido, un espacio es de Hausdorff si dos puntos distintos tienen siempre entornos disjuntos.
Para quienes hemos estudiado matemáticas este concepto es muy familiar.
Sin embargo, y como casi siempre, solemos ignorar su historia personal.
Si hay una pregunta clave en combinatoria es ¿cuántos/as…? La combinatoria trata de contar el número de configuraciones distintas que se pueden formar con los elementos de un conjunto. Así, criterios como el orden y la posibilidad de repetición son cruciales.
Dentro hilo ⬇️⬇️
Por ejemplo, dado un conjunto de siete letras distintas...
¿De cuántas formas se pueden ordenar? ¿Cuántas palabras de cuatro letras se pueden formar (tengan o no sentido)? ¿De cuántas formas se pueden escoger tres de ellas?
A fin de encontrar respuestas, debemos prestar atención a:
a) Los elementos de que disponemos.
b) Los elementos que debe contener cada grupo.
c) La posibilidad (o no) de repetir elementos.
d) La importancia o indiferencia en cuanto al orden en que aparecen los elementos.
Según la @RAEinforma, “interpolar” es “poner algo entre otras cosas” o “calcular el valor aproximado de una magnitud en un intervalo cuando se conocen algunos de los valores que toma a uno y otro lado de dicho intervalo”.
A pesar de que “la historia de las fórmulas de interpolación es complicada y muy discutida” (#Bell), esta comienza con los matemáticos babilónicos y sus esfuerzos a fin de completar los huecos de las tablas exponenciales.
De hecho, según Bell, la #interpolación puede ser considerada como un estímulo en los siglos XVII y XVIII para la evolución independiente de las operaciones fundamentales de la teoría clásica de las diferencias finitas, aplicadas principalmente en #astronomía y #mecánica.