Bueno, pues aunque al principio me daba miedo meterme en el fregao, voy a dedicar un hilo a hablar de este tuit que ha sido tan criticado. Aviso: voy a hablar de estadística (frecuentista y Bayesiana ❤️) y de psicología. No me meto para nada en economía.
Parece que una serie de personas han tomado la figura que aparece en ese tuit y han decidido que un ajuste de R^2 = 0.14 es “una birria”, y que quien sostenga lo contrario “no sabe nada de estadística”. Esto sí que me parece un error y es lo que voy a comentar.
Empiezo con aclaraciones, y que se os meta bien en la mollera. 1. Vamos a ver, en ningún momento voy a entrar *en el contenido* de ese análisis: no tengo ni pajolera idea de economía. Solo voy a hablar de lo que sé un poco más: estadística y psicología.
2. Tampoco entraré en la ideología de cada una/o. La mía, probablemente en las antípodas de Juan Ramón Rallo. Pero es que eso es irrelevante, vamos a hablar de estadística (y al final de psicología del razonamiento). ¿Se entiende?
3. Mis intenciones son claras, pero las repito porque esto es Twitter: NO estoy defendiendo a Rallo. NO estoy afirmando que tiene razón. Voy a argumentar que esa crítica en concreto no tiene fundamento. Y aprovecho para hablar de estadística y psicología porque mola 😍. Empiezo.
La afirmación que ha disparado mis alarmas es esta, dicha de manera más o menos educada:
“Un ajuste de R^2 = 0.14 es muy bajo, no permite concluir nada”.
O mejor: “la R^2 es muy baja, el efecto no existe. ”
¿Son ciertas estas afirmaciones?
Lo primero de todo: ¿qué significa eso de R^2? Es un estadístico que representa el grado de ajuste a los datos de un modelo, en este caso, una línea recta. También se interpreta como “el tamaño del efecto”, o magnitud de la asociación entre dos variables. es.wikipedia.org/wiki/Coeficien…
Este valor va de -1 a 1. Si R^2 es muy grande o muy pequeño, indica que las dos variables están muy fuertemente correlacionadas (positiva o negativamente). Un valor cercano a cero indicaría que no están asociadas.
Además R^2 se interpreta a veces como la proporción de varianza de la variable dependiente que queda explicada por el modelo. En este caso, sería un 14% de la varianza total.
Una vez hemos entendido qué es el tamaño del efecto, seguimos. Una R^2 de 0.14, ¿nos parece mucho o poco? Algunos se han lanzado a afirmar que es un efecto despreciable, demasiado pequeño para tomarlo en serio. Es verdad que está más cerca de 0 que de 1.
Sin embargo, aquí vienen los peros, y me sorprende* que alguna gente ignore de esta manera los matices.
(*no)
(1) Un tamaño del efecto nunca se interpreta de manera aislada, como estáis haciendo algunos. Necesitamos el contexto. Un efecto pequeño observado en una situación experimental altamente controlada puede ser decepcionante.
Decepcionante, porque probablemente ese efecto “en la vida real”, sujeta a mil influencias descontroladas, quedaría diluido, sería indetectable.
Ahora bien, en un estudio descriptivo de campo, sin control de variables, ver un tamaño del efecto pequeño pero consistente es muy informativo. ¡Cómo será de importante el efecto que “sobrevive” a la presencia de factores incontrolados!
(2) Un efecto pequeño en magnitud no tiene por qué ser insignificante en importancia práctica. Imagina un tratamiento para una enfermedad mortal que cura al 10% de los que la toman. ¡Vaya una birria, sólo un 10%! ¿La tomarías?
Yo ni lo pensaría. Claro que sí, porque la alternativa podría ser morir.
O pensad otro ejemplo menos dramático: un diseño para un motor de automóvil que se hace papilla al arrancarlo una de cada 1000 veces. Es un efecto nimio. Pero ese motor no lo compro yo ni loco. 😅
¿Lo entendéis? El contexto puede hacer que un efecto pequeño sea importante.
(3) A veces los efectos pequeños, como en estos ejemplos, se vuelven importantes por el efecto acumulativo. Tomar el sol durante 10 minutos seguidos no incrementa sustancialmente tu probabilidad de desarrollar un cáncer de piel.
Pero si esa misma exposición la repito miles de veces, seguro que aumento mi riesgo de manera apreciable, por puro efecto acumulado. Esto todo el mundo lo entiende, ¿verdad? ¿Te negarías a tomar el sol 10 minutos por miedo a desarrollar mutaciones?
(4) Otras veces la importancia práctica de un efecto no viene de su tamaño directamente, sino de otros factores como su consistencia. La historia de la física está llena de efectos minúsculos pero regulares que han llevado a descubrimientos fundamentales.
(5) Bueno, pero si R^2 = 0.14, entonces “sólo” explicamos un 14% de la varianza, ¡queda mucho por explicar!
Sí, pero ojo: en la práctica, es casi imposible obtener una R^2 de valor máximo teórico (1 ó -1). ¿Por qué?
Porque trabajamos con datos reales, con ruido. Hay varios motivos por los que el estadístico de ajuste tiene un límite por debajo del teórico. Por ej., cuando las distribuciones de las dos variables son extrañas o muy diferentes entre sí...
...O cuando, como seguramente es el caso en este estudio, hay terceras variables que no hemos contemplado en esa figura que explican una parte de la varianza, dejando sólo una parte para nuestro modelo. R^2=1 es una utopía en la investigación real.
Seguimos. ¿Es 0.14 un valor demasiado pequeño para tomarlo en serio? Ya vais viendo que la respuesta es “depende”. Pero bueno, en cualquier caso, es un estadístico del tamaño del efecto “estandarizado”. Lo podemos “traducir” para ver mejor de qué estamos hablando.
Una R^2 de 0.14 se corresponde con un coeficiente de correlación de Pearson de 0.37, o con una d de Cohen de 0.80.
Podéis usar esta calculadora para hacer las conversiones. escal.site
Una d de 0.80 es esto que veis en la imagen: dos distribuciones que se solapan, pero que son claramente diferentes (una tiene una media mayor que la otra).
Por ponerlo en contexto, os paso algunos datos:
-La diferencia de estatura entre hombres y mujeres tiene un tamaño de d=1.42, o sea, una correlación de 0.58, o una R^2 de 0.33. Es un efecto enorme (se puede ver a simple vista), pero la R^2 es < 0.50 y sigue habiendo muchas mujeres más altas que muchos hombres.
-La fiabilidad test-retest de un instrumento psicométrico (o sea, el grado de acuerdo entre dos pasaciones sucesivas del mismo test) se considera buena con una r entre 0.4 y 0.70 (R^2 entre 0.16 y 0.49). ¡Estamos hablando de correlacionar una cosa consigo misma!
De hecho, si no me creéis a mí, tal vez le creáis a Cohen. Existen tablas (decididas por convención, eso sí) donde se clasifican los efectos como pequeño, mediano o grande. Una R^2 = 0.14 se corresponde con un efecto MEDIANO, ni siquiera pequeño.
Vamos, que yo me conformo perfectamente con ver efectos de ese rango en la mayoría de situaciones, siempre que sean consistentes, se repliquen bien, etc.
Aclaro que yo personalmente huyo de interpretaciones “ritualísticas” como la de esta tabla, precisamente por lo que he dicho antes, porque el contexto importa, pero bueno, aun así es un estándar que la gente aplica y que es comúnmente aceptado.
Igual el problema es que mucha gente que andaba criticando está acostumbrada a ciencias como la física, o a campos como la ingeniería, donde se suelen ver efectos más grandes que en ciencias sociales.
Tened en cuenta las limitaciones de las ciencias sociales. Examinamos datos muy ruidosos, generalmente sin control de variables estricto (quienes trabajen fuera del laboratorio), con teorías de 💩, mediciones muy imprecisas...
Lo reconozco, tenemos mil problemas.
En ese contexto, es normal ver publicados efectos pequeños.
¿Cuál sería el tamaño del efecto “promedio” en ciencias sociales? Pues mira, también hay estudios para estimarlo.
En psicología, por ejemplo, aunque varía enormemente por áreas, hay estimaciones que dicen que efectos alrededor de 0.30-0.40 son prevalentes. frontiersin.org/articles/10.33…
¿Y en otras ciencias? Por comparar con algo que conozcamos todas/os, los meta-análisis indican que muchas medicinas de uso popular tienen rango de efectos de tamaño similar (mediano). bmcmedicine.biomedcentral.com/articles/10.11…
Continuamos. Creo que queda claro que en ciencias sociales, un efecto de R^2=0.14 no es despreciable.
¿Significa esto que aceptamos barco y que Rallo tiene razón? ¡NO! Vamos a ver qué se podría haber criticado del estudio, en vez de su tamaño del efecto...
(1)Todos los modelos estadísticos tienen supuestos. ¿Los cumplen estos datos? Si no es así, el análisis no se sostiene. En este caso, sin leerme el paper de donde está sacado, no lo puedo juzgar. Pero sé que es importante, y esto sí es una crítica válida.
(2)Siguiendo con este mismo razonamiento, hay quien, sólo mirando la figura, dice “no se puede ajustar un modelo lineal, los datos siguen una tendencia cuadrática”. Lo siento, pero en este caso me bajo del tren. ¿Por qué?
Un modelo lineal (línea recta) tiene menos parámetros que un modelo cuadrático. Por lo tanto, tiene más facilidad para ajustar **cualquier set de datos**.
Es decir, que salvo que me enseñes una figura como esta (con una "u" clarísima), NO te voy a comprar de buenas a primeras que la relación entre dos variables es cuadrática. Por mucho que “a ojo” me digas que “hay tendencia”.
El motivo es el que he dicho: el ajuste cuadrático (o cúbico, o...) tiene más facilidad de ajustarse a los datos. Es lo que se conoce como “overfitting”. Mejor prueba primero el modelo sencillo (línea recta), luego ya veremos.
(3)Seguimos criticando. Desde luego me llama la atención cómo se ha hecho la selección de países en esa figura. Habría que leer el paper. Podría ser un caso de “cherry picking” (escoger la evidencia que me conviene, callarme la otra).
(4) La crítica más básica de todas: que la mera idea de hacer este análisis podría no tener sentido, desde el punto de vista teórico o conceptual. Ahí no me meto: no conozco de economía.
Pero vamos, que si mañana me enseñáis un gráfico con una correlación altísima entre talla de zapato y habilidad de cantar saetas, os diré que no concluye nada. A pesar la R^2 = 0.999. Porque la idea en sí no ofrece un mecanismo causal obvio.
(5) Y es que una cosa es encontrar una correlación fuerte, y otra sacar conclusiones causales. Ya sabéis, correlación no equivale a causalidad, y la gente no se suicida ahogándose en la piscina cada vez que ve una peli de Nicholas Cage:
(6) Decía que los tamaños del efecto no se interpretan en el vacío, sino que hace falta contexto. Una de las piezas de información importantes es la N del estudio, su tamaño muestral.
Las muestras pequeñas producen estimaciones con más fluctuaciones, menos precisas. Si tengo una caja con 100 bolas rojas y 100 bolas azules, y extraigo las bolas de dos en dos, no es raro que a menudo saque 2 bolas del mismo color. Si extrajese de 10 en 10, sería más raro.
En este caso, la N es de 29 casos (países). ¿Es suficiente? Pues veamos:
La curva de potencia me dice que con N=30 (15 por grupo) podemos detectar efectos medianos con una probabilidad de 0.25. Una porquería.
O sea, que parece que el estudio no tiene muy buena potencia para detectar efectos en el rango medio. Si queréis saber más sobre este tipo de gráficos de potencia, leed este hilo:
(7) Otra información importante para entender el tamaño del efecto es el p-valor. Lo que nos dice es cómo de sorprendentes serían los datos que hemos encontrado (u otros más extremos) si se hubieran producido por azar.
En este caso, la correlación de la figura tan criticada (r= -0.378) tiene una p de 0.043. Justito por debajo del umbral de significación habitual en ciencias sociales, 0.05. Es decir, el resultado es significativo, pero tan justito que me haría sospechar.
¿Significa esto que el efecto “existe”? No necesariamente. Los p-valores funcionan como herramienta de control de error a largo plazo. Si el efecto no existe y repetimos el estudio 100 veces, 5 de ellas producirán resultado significativo por azar. No podemos descartarlo.
Podemos afinar un poco más cambiando de enfoque. En vez de examinar el p-valor, vamos a optar por la perspectiva Bayesiana, calculando lo que se llama un Bayes Factor.
El BF me dice cómo de probables son los datos dada la hipótesis de que existe el efecto, con respecto a la hipótesis del azar.
En este caso, el BF es de 1.62, muy cerca de 1. Esto significa que, con tan poquitos datos, NO tenemos evidencia suficiente como para afirmar que el efecto existe. Necesitamos más información.
La ventaja del Bayes Factor es que, cuando hay pocos datos, me dice que carecemos de evidencia, en vez de darme un p-valor significativo que luego tenga que desechar por falta de fiabilidad. ¡Viva Bayes! 😁
Y con esto termino de hablar de estadística, para hablar de otra cosa, mi otra pasión, la psicología del razonamiento. ¿Qué está pasando para que gente muy formada e inteligente de pronto se lance a repetir un mantra (“R^=0.14 es ridículo”) sin cuestionarlo?
Sospecho que se trata de un ejemplo de “razonamiento motivado”, un tipo de sesgo cognitivo. En este artículo hablé de ello: ctxt.es/es/20190410/Po…
Básicamente, el sesgo consiste en que no tratamos la evidencia de forma objetiva, sino en función de si encaja o no con nuestras ideas preconcebidas.
O sea: si los datos me dan la razón, los acepto sin más escrutinio. Si me llevan la contraria, buscaré mil y una maneras de descartarlos (la fuente no es fiable, la R^2 es muy pequeña...).
Y esto nos pasa a TODOS. Es la forma en la que funciona nuestro sistema cognitivo, y es muy humano. No me creo que nadie esté libre de sesgo. Ni los de izquierdas, ni los de derechas.
Entonces, ¿no hay salida? ¿no es posible basar nuestras ideas políticas, económicas, o lo que fuera, en la evidencia? Bueno, no hace falta ir tan lejos. Lo que hay que hacer es conocer que somos falibles, aceptarlo, e intentar ponerle freno.
Si lo piensas bien, es perfectamente lógico entender que, incluso cuando estás en lo cierto, va a haber datos, estudios y argumentos que NO te dan la razón. Y no pasa nada.
Incluso hay afirmaciones que hoy sabemos incorrectas, pero para las cuales hay observaciones puntuales o estudios que las apoyan. Esto es normal cuando estudias fenómenos ruidosos más allá de las leyes de Newton. Es el pan nuestro de cada día en ciencias sociales.
Espero que no me malinterprete mucha gente. Este no es un hilo ideológico, ni económico. Es un hilo sobre estadística y psicología. Que es lo único que me importa ahora mismo.
Aquí he metido la pata por un despiste. La r va de -1 a 1. La R2 no, lógicamente, porque es su cuadrado. Solo puede tomar valores de 0 a 1.
Ojo, aquí hay un error: escribí el hilo hablando de la r de Pearson, y luego traduje a R^2 (que es la r al cuadrado) y olvidé cambiar esto, aquí y en un tuit previo de este hilo.
No: R^2 va de 0 a 1, lógicamente. No tiene valores negativos.
• • •
Missing some Tweet in this thread? You can try to
force a refresh
¿Por qué tengo que aplicar los modelos "prefabricados" que vienen con el SPSS tras comprobar supuestos que ni siquiera entiendo?
¿Por qué no construir desde cero un modelo que capture el proceso que genera los datos en mi experimento?
¿Por qué no aprovechar la flexibilidad para incorporar los supuestos que tengan que ver con mi estudio, de forma transparente?
Está claro que con las nuevas herramientas y conocimientos lo tenemos más fácil que nunca para hacer ciencia creíble, reproducible.
Pero no es menos cierto que algunos "hábitos arraigados" que se transmiten entre generaciones son terribles bajo ese punto de vista.
"Con n=30 ya vale para ver el efecto".
"Uuuy, ese efecto está a puntito de salir, métele 5 sujetos más".
"Vaya, parece que no sale. Probemos con este otro análisis, o metiendo X como covariable".
"Mete todas las variables en una matriz y a ver qué sale. Que hablen los datos".
Y puedo seguir:
"Este dato está más de tres desviaciones típicas por encima de la media, lo quitamos".
"El efecto no era el esperado pero podemos contarlo así para que parezca buscado".
¡Hola locos de la estadística!
¿Cómo decidir el tamaño muestral de tu estudio?
¿Cómo saber si un artículo que estás leyendo, en el que examinan 20 participantes, tiene una muestra suficiente?
¡Quédate en este hilo, que te lo cuento! ⬇️⬇️⬇️
Por si acaso, aquí tienes la información en el blog, como parte del curso de estadesteca MAL.
En este hilo me voy a limitar a resumir los puntos clave, así que visita el link para ampliar información. fernandoblancopsy.com/2021/01/04/cur…
Antes de empezar hay que refrescar tres conceptos súper importantes en estadística: tamaño muestral, tamaño del efecto, y potencia estadística.
¿Te suenan? ¿Los tienes controlados?
Está hablándose estos días de si realmente es buena idea que las cuentas de divulgadores comenten burradas como el terraplanismo, los peligros del 5G o las bondades de inyectarse lejía. El argumento es: “si hablas de ello, lo estás difundiendo”. 1/n
...Y yo estaba pensando en si entro en el jardín o no, y como estoy de vacaciones y hace calor he decidido que por qué no meter los pies en un buen charco. Así que aquí va mi opinión. 2/n
Como opinión que es, no pretendo elevarla a la categoría de verdad revelada. La cuento porque me da la gana y entiendo que otros no la compartan. Ni siquiera pretendo tener razón, así que ahorraos los debates. Y aviso de que últimamente tengo el block fácil. 3/n
A cuenta de todos los bulos y noticias falsas que están circulando estos días, el otro día me estuvieron preguntando sobre la psicología que hay detrás de los bulos. ¿Qué hace que nos los traguemos con patatas? Resumo algunas ideas en este hilo.
¿Hay una receta de la “fake news perfecta”? La verdad es que las mejores noticias falsas son las que se fabrican específicamente para su público (de ahí que los datos privados sean mercancía tan valiosa para los intoxicadores)...
...Pero sí hay algunos ingredientes que son esenciales para que un bulo enganche y se viralice. El primero de ellos, que es esencial, es atacar directamente a nuestras emociones más primarias: miedo, asco, ira.
El proceso de la enseñanza online. Acostumbraos, que es el futuro:
+Hola, ¿se me oye?
-Sí, perfectamente.
-No oigo nada.
-Apaga la cámara, que la conexión es lenta.
+¿Estamos todos conectados?
-No, espera.
-Sí.
-Yo no.
-Yo sí.
+¿Quién falta?
-¿Se me oye?
-Sí, espera, ¿es esto Geometría V?
+No, es Psicología Básica II, te has equivocado de aula virtual.
-Jaja qué payaso.
-No se oye nada.
+¿Pero me véis?
-Yo sí.
-Yo no.
-Te veo borroso.
+¿PERO ME VÉIS?
-Sí.
-No.
-Instálate el códec PerfectView 3.6, requiere hacer downgrade de la versión 4. Va fino, fino. Hazme caso, que soy informático 👌
-Que no te oigo.
-Es que yo tengo Mac. ¿No podemos hacer la presentación para los que usamos Mac?