Tweet

Julio Mulero

26 Nov, 38 tweets, 14 min read

Imagina que deseas estudiar si alguna variable presenta diferencias en ciertos grupos de individuos, animales, plantas o cosas. Este es el origen del análisis de la varianza (o ANOVA).

¿No dicen que “las diferencias siempre suman”? Pues déjame que te cuente...

Dentro HILO ⬇️⬇️

Imagina que deseas realizar un estudio de ciertas especies de pájaros 🦉🦜🐦 que son de similar naturaleza y comparten un medio común:

el malviz pardo, el cuelliamarillo común y el towhee.

Cada una de ellas conforma una población diferente.

Una característica de interés es su canto, ya que cada especie presenta sus particularidades y debes analizar, por ejemplo, su duración (en segundos).

No sin dificultades has obtenido tres conjuntos de datos: doce datos de malvices; nueve, de cuelliamarillos; y once, de towhees.

La pregunta surge de manera natural:

¿Se puede afirmar, a la luz de los datos observados, que la duración del canto de las diferentes especies es la misma?

O, equivalentemente, ¿existen diferencias entre las tres especies en base a dichos datos?

Quizás se te haya ocurrido calcular la media de cada uno de los tres conjuntos, y compararlas…

O, tal vez, se te haya pasado por la cabeza construir los histogramas de los tres conjuntos de datos…

Por cierto, los tres presentan una parte central más elevada que los extremos…

Qué forma tan curiosa, ¿no?

O, mejor todavía, puede que hayas pensado dibujar los tres diagramas de caja (y bigotes)… Grosso modo, esta es la representación de los datos en términos de sus cuartiles: mediana, primer y tercer cuartil, y demás.

¿Parece que los cuelliamarillos son verdaderos cantores, eh? 🎶

Sí, ya sé que se observan ciertas diferencias, pero esas medias y representaciones gráficas no son más que las de TU “muestra”… ¿Cómo pretendes generalizarlo? ¡No me seas político!

Puestos a inferir, hagámoslo bien.

La duración media del canto de los malvices, por ejemplo, es de 0.67 segundos.

Si la duración del canto de uno de ellos es de 1.05 (como efectivamente es), podemos escribir:

1.05=0.67+0.38,

es decir, su media más (o menos) una perturbación propia del dato concreto.

De hecho, esto lo podemos hacer con todos los datos de los malvices:

1.05=0.67+1.38
0.93=0.67+0.26
…
0.48=0.67-0.19
0.39=0.67-0.28

Así, cada canto/dato de los malvices queda caracterizado por la media de su grupo y una cantidad que depende del canto/dato concreto.

Lo mismo podemos hacer para los cuelliamarillos y los towhees.

Date cuenta que cada uno de los treintaidós datos comparte con su grupo un sumando (no cantan igual los niños que los adultos), pero también es resultado de sus características propias (no cantas igual que Beyoncé).

Ahora bien, ¿cuál de las dos componentes tiene mayor protagonismo en la variabilidad de los datos: las medias grupales o las perturbaciones dentro de los grupos?

Si las responsables fueran las medias grupales, entonces podremos decir que hay diferencias.

Una medida de la variabilidad total del conjunto de datos (SCT) es la suma total de los cuadrados de las diferencias de las observaciones y su media.

Esta cantidad está relacionada con una medida de dispersión archiconocida denominada #varianza.

Observa que cuanto más lejanos a la media sean los datos, mayor será esta suma.

No en vano, la estimación de la varianza muestral se obtiene dividiendo dicha suma por el número total de datos menos uno.

A fin de calcularla, observa en primer lugar que tus datos conforman un conjunto de treintaidós valores cuya media es, aproximadamente, 1.16.

La suma de los cuadrados de cada dato menos 1.16 es, aproximadamente, SCT=8.04.

Curiosamente, SCT se puede descomponer en dos sumandos (SCT=SCE+SCD): la variabilidad “inter-grupos” (SCE) y la variabilidad “intra-grupos” (SCD).

Lo mejor de todo es que ambos sumandos se relacionan con las dos partes en que dividimos los datos (media grupal y perturbaciones).

Observa estas dos situaciones hipotéticas:

Si fuera SCE=7 y SCD=1.04, la variabilidad inter-grupos sería la principal responsable de la magnitud de la variabilidad total.

Si, por el contrario, fuera SCE=1.04 y SCD=7, la responsable sería la variabilidad intra-grupos.

Entonces… ¿Cómo calcular SCE y SCD?

Observa que, una vez obtenida la variabilidad total (SCT), es suficiente con calcular una de ellas (SCE ó SCD).

Por ejemplo, si computamos SCE, entonces SCD=SCT-SCE.

El cálculo de SCE, for instance, es sencillo y se realiza a partir de las medias grupales y la media global.

La variabilidad inter-grupos (SCE) no es más que la suma de los cuadrados de las diferencias de las medias grupales y la media global, por el tamaño de cada grupo.

Cuanto más alejadas de la media global estén las medias de cada grupo, mayor será SCE.

En este caso, SCT (8.04) es igual a SCE (7.32) más una cantidad (0.72) que, tal y como se puede comprobar, representa la variabilidad de las perturbaciones (intra-grupos).

Dado que SCE=7.32 es un valor mucho más grande que SCD=0.72, parece que la mayor carga de variabilidad se debe a las diferencias entre los distintos grupos.

Pero, ¿es suficiente la distancia entre SCE y SCD para afirmar que existen diferencias en la duración del canto?

A fin de alcanzar una conclusión válida en términos probabilísticos (la única salida puesto que nunca conoceremos todas las duraciones de todos los cantos de todas las aves de todos los tiempos), debemos acudir al contraste conocido como ANOVA y propuesto por R.A. Fisher.

En primer lugar, debemos comprobar que cada una de las de las muestras, una por población, cumple tres propiedades.

Y solo contamos con la complicidad de nuestros datos. Deben sincerarse. Deben cantar sobre su origen a partir de gráficos y otros procedimientos estadísticos.

1

Las muestras de las tres especies de aves son independientes (es decir, los valores en cada muestra no dependen de los valores de las otras dos).

2

Las poblaciones de las que procede cada grupo son normales (es decir, la variable “duración del canto” restringida a cada una de las tres especies sigue una distribución normal).

3

Todas las poblaciones tienen la misma varianza. Esto quiere decir que, de alguna manera, las tres curvas normales son similares (homocedasticidad). No son iguales, lo sé. Pero la diferencia no debe ser significativa (recurrente palabra en estadística).

Estas cuestiones se pueden estudiar, y así es recomendable hacerlo, mediante el estudio de las perturbaciones (o residuos) que pueden ser calculadas como la observación correspondiente menos la media de su grupo (o especie). Algunos gráficos útiles se pueden ver en la animación.

Su comprobación debe llevarse a cabo no solo mediante ilustraciones, sino también con pruebas estadísticas llamadas contrastes de hipótesis.

¿Me creéis si os digo que las tres condiciones se cumplen? ¡Por el amor de Fisher!

La conclusión final llegará en función del análisis del cociente de SCE y SCD entre sus respectivos grados de libertad k y l (lo llamaremos F).

Si F=(SCE/k)/(SCD/l) es muy grande, será porque la variabilidad inter-grupos es grande en comparación con la intra-grupos.

Los grados de libertad k de SCE es el número de grupos (3) menos 1, es decir, 2. De esta forma, 7.32/2=3.66.

Los grados de libertad l de SCD es el número total de datos (32) menos el número de grupos (3), es decir, 29. Así, 0.72/29=0.02.

De esta forma, F=3.66/0.02=183.

La pregunta es obligada: ¿es F=183 lo suficientemente grande para afirmar que el numerador es mucho más grande que el denominador?

¡Necesitamos alguna referencia para poder realizar una comparación! ¿150? ¿5? ¿230?

El límite entre lo pequeño y lo grande (valor crítico) se obtiene a partir de la distribución F de Snedecor (o F de Fisher-Snedecor), pero antes debemos escoger un nivel de significación α que representa la prob de falsos positivos.

Tradicionalmente, α=0.01 ó 0.05. Sea α=0.05.

La búsqueda se realiza en las tablas de la distribución F de Snedecor que, por ejemplo, con α=0.05, dos grados de libertad en el numerador y veintinueve, en el denominador, devuelve un valor crítico R=3.33.

Un valor de F mayor que 3.33 puede ser considerado “grande”.

Si el sentido del valor crítico es compararlo con el valor de F, ¡comparemos!

Dado que F=183>R=3.33, podemos sospechar que, en términos de las tres poblaciones, EXISTEN DIFERENCIAS entre las duraciones medias de los cantos de las tres especies.

Todos estos cálculos suelen recogerse en una tabla en la que también aparece el p-valor. Esta cantidad permite alcanzar la misma conclusión, pero ya hablaremos de él en otra ocasión porque hay mucho que decir.

Por ejemplo, aquí puedes ver cómo se muestra en R.

A partir de este procedimiento, que se conoce como ANOVA de un factor, podemos “detectar” diferencias entre variables tales como

el rendimiento de ciertos árboles,
la efectividad de ciertos tratamientos, o
los resultados de ciertos métodos de enseñanza.
...

Los numerosos campos de aplicación en ciencias experimentales o sociales la convierten en una de las herramientas más utilizadas en la investigación científica.

De hecho, Fisher la desarrolló mientras trabajaba en Rothamsted, una estación agrícola experimental.

Si has leído hasta aquí, muchísimas gracias. Mi única intención fue introducir las ideas sobre las que se asienta el ANOVA. Porque las diferencias suman.

Todo el texto y las animaciones, junto con un script de R, están disponibles en mi blog:

elultimoversodefermat.wordpress.com/2020/11/26/ano…

• • •

Missing some Tweet in this thread? You can try to force a refresh

Share this page!

Julio Mulero

Try unrolling a thread yourself!

More from @juliomulero

Julio Mulero

Julio Mulero

Julio Mulero

Julio Mulero

Julio Mulero

Julio Mulero

Did Thread Reader help you today?

Like this author's thread?