Imagina que deseas estudiar si alguna variable presenta diferencias en ciertos grupos de individuos, animales, plantas o cosas. Este es el origen del análisis de la varianza (o ANOVA).
¿No dicen que “las diferencias siempre suman”? Pues déjame que te cuente...
Dentro HILO ⬇️⬇️
Imagina que deseas realizar un estudio de ciertas especies de pájaros 🦉🦜🐦 que son de similar naturaleza y comparten un medio común:
el malviz pardo, el cuelliamarillo común y el towhee.
Cada una de ellas conforma una población diferente.
Una característica de interés es su canto, ya que cada especie presenta sus particularidades y debes analizar, por ejemplo, su duración (en segundos).
No sin dificultades has obtenido tres conjuntos de datos: doce datos de malvices; nueve, de cuelliamarillos; y once, de towhees.
La pregunta surge de manera natural:
¿Se puede afirmar, a la luz de los datos observados, que la duración del canto de las diferentes especies es la misma?
O, equivalentemente, ¿existen diferencias entre las tres especies en base a dichos datos?
Quizás se te haya ocurrido calcular la media de cada uno de los tres conjuntos, y compararlas…
O, tal vez, se te haya pasado por la cabeza construir los histogramas de los tres conjuntos de datos…
Por cierto, los tres presentan una parte central más elevada que los extremos…
Qué forma tan curiosa, ¿no?
O, mejor todavía, puede que hayas pensado dibujar los tres diagramas de caja (y bigotes)… Grosso modo, esta es la representación de los datos en términos de sus cuartiles: mediana, primer y tercer cuartil, y demás.
¿Parece que los cuelliamarillos son verdaderos cantores, eh? 🎶
Sí, ya sé que se observan ciertas diferencias, pero esas medias y representaciones gráficas no son más que las de TU “muestra”… ¿Cómo pretendes generalizarlo? ¡No me seas político!
Puestos a inferir, hagámoslo bien.
La duración media del canto de los malvices, por ejemplo, es de 0.67 segundos.
Si la duración del canto de uno de ellos es de 1.05 (como efectivamente es), podemos escribir:
1.05=0.67+0.38,
es decir, su media más (o menos) una perturbación propia del dato concreto.
De hecho, esto lo podemos hacer con todos los datos de los malvices:
Así, cada canto/dato de los malvices queda caracterizado por la media de su grupo y una cantidad que depende del canto/dato concreto.
Lo mismo podemos hacer para los cuelliamarillos y los towhees.
Date cuenta que cada uno de los treintaidós datos comparte con su grupo un sumando (no cantan igual los niños que los adultos), pero también es resultado de sus características propias (no cantas igual que Beyoncé).
Ahora bien, ¿cuál de las dos componentes tiene mayor protagonismo en la variabilidad de los datos: las medias grupales o las perturbaciones dentro de los grupos?
Si las responsables fueran las medias grupales, entonces podremos decir que hay diferencias.
Una medida de la variabilidad total del conjunto de datos (SCT) es la suma total de los cuadrados de las diferencias de las observaciones y su media.
Esta cantidad está relacionada con una medida de dispersión archiconocida denominada #varianza.
Observa que cuanto más lejanos a la media sean los datos, mayor será esta suma.
No en vano, la estimación de la varianza muestral se obtiene dividiendo dicha suma por el número total de datos menos uno.
A fin de calcularla, observa en primer lugar que tus datos conforman un conjunto de treintaidós valores cuya media es, aproximadamente, 1.16.
La suma de los cuadrados de cada dato menos 1.16 es, aproximadamente, SCT=8.04.
Curiosamente, SCT se puede descomponer en dos sumandos (SCT=SCE+SCD): la variabilidad “inter-grupos” (SCE) y la variabilidad “intra-grupos” (SCD).
Lo mejor de todo es que ambos sumandos se relacionan con las dos partes en que dividimos los datos (media grupal y perturbaciones).
Observa estas dos situaciones hipotéticas:
Si fuera SCE=7 y SCD=1.04, la variabilidad inter-grupos sería la principal responsable de la magnitud de la variabilidad total.
Si, por el contrario, fuera SCE=1.04 y SCD=7, la responsable sería la variabilidad intra-grupos.
Entonces… ¿Cómo calcular SCE y SCD?
Observa que, una vez obtenida la variabilidad total (SCT), es suficiente con calcular una de ellas (SCE ó SCD).
Por ejemplo, si computamos SCE, entonces SCD=SCT-SCE.
El cálculo de SCE, for instance, es sencillo y se realiza a partir de las medias grupales y la media global.
La variabilidad inter-grupos (SCE) no es más que la suma de los cuadrados de las diferencias de las medias grupales y la media global, por el tamaño de cada grupo.
Cuanto más alejadas de la media global estén las medias de cada grupo, mayor será SCE.
En este caso, SCT (8.04) es igual a SCE (7.32) más una cantidad (0.72) que, tal y como se puede comprobar, representa la variabilidad de las perturbaciones (intra-grupos).
Dado que SCE=7.32 es un valor mucho más grande que SCD=0.72, parece que la mayor carga de variabilidad se debe a las diferencias entre los distintos grupos.
Pero, ¿es suficiente la distancia entre SCE y SCD para afirmar que existen diferencias en la duración del canto?
A fin de alcanzar una conclusión válida en términos probabilísticos (la única salida puesto que nunca conoceremos todas las duraciones de todos los cantos de todas las aves de todos los tiempos), debemos acudir al contraste conocido como ANOVA y propuesto por R.A. Fisher.
En primer lugar, debemos comprobar que cada una de las de las muestras, una por población, cumple tres propiedades.
Y solo contamos con la complicidad de nuestros datos. Deben sincerarse. Deben cantar sobre su origen a partir de gráficos y otros procedimientos estadísticos.
1
Las muestras de las tres especies de aves son independientes (es decir, los valores en cada muestra no dependen de los valores de las otras dos).
2
Las poblaciones de las que procede cada grupo son normales (es decir, la variable “duración del canto” restringida a cada una de las tres especies sigue una distribución normal).
3
Todas las poblaciones tienen la misma varianza. Esto quiere decir que, de alguna manera, las tres curvas normales son similares (homocedasticidad). No son iguales, lo sé. Pero la diferencia no debe ser significativa (recurrente palabra en estadística).
Estas cuestiones se pueden estudiar, y así es recomendable hacerlo, mediante el estudio de las perturbaciones (o residuos) que pueden ser calculadas como la observación correspondiente menos la media de su grupo (o especie). Algunos gráficos útiles se pueden ver en la animación.
Su comprobación debe llevarse a cabo no solo mediante ilustraciones, sino también con pruebas estadísticas llamadas contrastes de hipótesis.
¿Me creéis si os digo que las tres condiciones se cumplen? ¡Por el amor de Fisher!
La conclusión final llegará en función del análisis del cociente de SCE y SCD entre sus respectivos grados de libertad k y l (lo llamaremos F).
Si F=(SCE/k)/(SCD/l) es muy grande, será porque la variabilidad inter-grupos es grande en comparación con la intra-grupos.
Los grados de libertad k de SCE es el número de grupos (3) menos 1, es decir, 2. De esta forma, 7.32/2=3.66.
Los grados de libertad l de SCD es el número total de datos (32) menos el número de grupos (3), es decir, 29. Así, 0.72/29=0.02.
De esta forma, F=3.66/0.02=183.
La pregunta es obligada: ¿es F=183 lo suficientemente grande para afirmar que el numerador es mucho más grande que el denominador?
¡Necesitamos alguna referencia para poder realizar una comparación! ¿150? ¿5? ¿230?
El límite entre lo pequeño y lo grande (valor crítico) se obtiene a partir de la distribución F de Snedecor (o F de Fisher-Snedecor), pero antes debemos escoger un nivel de significación α que representa la prob de falsos positivos.
Tradicionalmente, α=0.01 ó 0.05. Sea α=0.05.
La búsqueda se realiza en las tablas de la distribución F de Snedecor que, por ejemplo, con α=0.05, dos grados de libertad en el numerador y veintinueve, en el denominador, devuelve un valor crítico R=3.33.
Un valor de F mayor que 3.33 puede ser considerado “grande”.
Si el sentido del valor crítico es compararlo con el valor de F, ¡comparemos!
Dado que F=183>R=3.33, podemos sospechar que, en términos de las tres poblaciones, EXISTEN DIFERENCIAS entre las duraciones medias de los cantos de las tres especies.
Todos estos cálculos suelen recogerse en una tabla en la que también aparece el p-valor. Esta cantidad permite alcanzar la misma conclusión, pero ya hablaremos de él en otra ocasión porque hay mucho que decir.
Por ejemplo, aquí puedes ver cómo se muestra en R.
A partir de este procedimiento, que se conoce como ANOVA de un factor, podemos “detectar” diferencias entre variables tales como
el rendimiento de ciertos árboles,
la efectividad de ciertos tratamientos, o
los resultados de ciertos métodos de enseñanza.
...
Los numerosos campos de aplicación en ciencias experimentales o sociales la convierten en una de las herramientas más utilizadas en la investigación científica.
De hecho, Fisher la desarrolló mientras trabajaba en Rothamsted, una estación agrícola experimental.
Si has leído hasta aquí, muchísimas gracias. Mi única intención fue introducir las ideas sobre las que se asienta el ANOVA. Porque las diferencias suman.
Todo el texto y las animaciones, junto con un script de R, están disponibles en mi blog:
Sus ideas, materializadas en la Conjetura de Taniyama-Shimura, jugó un papel importante en la demostración del Último Teorema de Fermat por parte de Andrew Wiles.
Sin embargo, él nunca llegó a verlo...
⤵️⤵️
Yutaka nació en Kisai, en la prefectura de Saitama (Japón), al norte de Tokyo.
Su nombre, en realidad, era Toyo, pero muchos le llamaban Yutaka por ser una lectura más común del carácter 豊.
Yutaka era una persona sencilla, no demasiado preocupado por los aspectos superfluos y materiales de la vida.
Estudió en la Universidad de Tokyo y allí conoció a Goro #Shimura, junto con quien estableció su famosa conjetura sobre las curvas elípticas.
Se le debe el concepto de espacio topológico en sentido moderno, si bien lo que Hausdorff llamó “espacio topológico” actualmente se conoce como “espacio de Hausdorff” (algo más restrictivo).
⤵️⤵️
En un espacio topológico los entornos de un punto miden, en cierta manera, el grado de proximidad del resto de puntos del espacio.
En este sentido, un espacio es de Hausdorff si dos puntos distintos tienen siempre entornos disjuntos.
Para quienes hemos estudiado matemáticas este concepto es muy familiar.
Sin embargo, y como casi siempre, solemos ignorar su historia personal.
Si hay una pregunta clave en combinatoria es ¿cuántos/as…? La combinatoria trata de contar el número de configuraciones distintas que se pueden formar con los elementos de un conjunto. Así, criterios como el orden y la posibilidad de repetición son cruciales.
Dentro hilo ⬇️⬇️
Por ejemplo, dado un conjunto de siete letras distintas...
¿De cuántas formas se pueden ordenar? ¿Cuántas palabras de cuatro letras se pueden formar (tengan o no sentido)? ¿De cuántas formas se pueden escoger tres de ellas?
A fin de encontrar respuestas, debemos prestar atención a:
a) Los elementos de que disponemos.
b) Los elementos que debe contener cada grupo.
c) La posibilidad (o no) de repetir elementos.
d) La importancia o indiferencia en cuanto al orden en que aparecen los elementos.
Según la @RAEinforma, “interpolar” es “poner algo entre otras cosas” o “calcular el valor aproximado de una magnitud en un intervalo cuando se conocen algunos de los valores que toma a uno y otro lado de dicho intervalo”.
A pesar de que “la historia de las fórmulas de interpolación es complicada y muy discutida” (#Bell), esta comienza con los matemáticos babilónicos y sus esfuerzos a fin de completar los huecos de las tablas exponenciales.
De hecho, según Bell, la #interpolación puede ser considerada como un estímulo en los siglos XVII y XVIII para la evolución independiente de las operaciones fundamentales de la teoría clásica de las diferencias finitas, aplicadas principalmente en #astronomía y #mecánica.
Pere Puig i Adam, matemático e ingeniero, nació el 12 de mayo de 1900 en Barcelona. Desde el año 2000, coincidiendo con la fecha de su nacimiento, la @fespm_es celebra el Día Escolar de las Matemáticas.
He aquí su "Decálogo de la Didáctica de la Matemática".
1. No adoptar una didáctica rígida, sino amoldarla en cada caso al alumno, observándole constantemente.
2. No olvidar el origen de las matemáticas ni los procesos históricos de su evolución.
El modelo #SIR fue propuesto por Kermack y McKendrick (1927, 1933). Bajo este modelo, cada individuo de una población (en un principio, homogénea) va pasando por tres compartimentos: susceptibles, infectados y recuperados.
La curva de los infectados (en rojo) en LA #CURVA.
El coeficiente de transmisión representa, a grosso modo, a cuántos contagia cada uno de los infectados, es decir, de él depende el apuntamiento de la curva.
Cuanto más alto sea dicho coeficiente, más explosiva es la enfermedad.
Piénsalo bien: el coeficiente de transmisión está en nuestras manos. Si seguimos saliendo de casa, seremos cómplices de ese bicho infame.
Nuestro sistema sanitario tiene una capacidad. Cuando el número de enfermos la supera, el desastre está asegurado.