Gro-Tsen Profile picture
18 Dec, 19 tweets, 3 min read
Je vais essayer de faire un petit peu de vulgarisation sur la difficulté d'interpréter causalement des statistiques de corrélation avec un exemple inventé tout simple. On cherche à savoir si les baguettes magiques étaient mieux avant. •1/19
Pour ça, on a fait des statistiques sur 100 bagues selon trois dimensions:
⁃ l'âge: la baguette est ancienne (A) ou récente (R);
⁃ la complexité: la baguette est simple (S) ou complexe (C);
⁃ si elle fonctionne bien (B) ou mal (M).
Ceci fait donc 2×2×2=8 possibilités. •2/19
Voici les statistiques qu'on a obtenues, sur un échantillon de 100 baguettes tirées au hasard:
⁃ ASM: 10
⁃ ACB: 30
⁃ ACM: 10
⁃ RSB: 10
⁃ RSM: 30
⁃ RCB: 10
(les deux autres possibilités, ASB et RCM, ne sont pas représentées). •3/19
Au vu de ces chiffres, diriez-vous que les baguettes anciennes (A) fonctionnent mieux que les récentes (R)? L'analyse la plus évidente est de se dire qu'il y a 50 baguettes A et 50 R, que sur les 50 A on a 30 qui fonctionnent bien (B), contre 20 pour les R. Donc oui! •4/19
Maintenant, cette analyse ignore complètement le fait qu'il y a des baguettes simples (S) et complexes (C). Or manifestement les baguettes complexes fonctionnent beaucoup mieux que les simples (40 CB sur 50 C contre 10 SB sur 50 S)! •5/19
Donc en fait on peut soupçonner que les baguettes anciennes (A) fonctionnent mieux que les récentes (R) parce qu'elles sont plus souvent complexes (40 AC sur 50 A contre 10 RC sur 10 R). •6/19
Or si on regarde dans chacune des catégories «simple (S)» et «complexe (C)», les baguettes récentes (R) fonctionnent mieux que les anciennes (A). Donc dans chaque catégorie on arrive à la conclusion opposée qu'en agrégeant les données (comme au tweet 4). •7/19
Ce phénomène s'appelle le «paradoxe de Simpson». Maintenant, quelle est la bonne lecture des données? À la vue des statistiques ci-dessus, faut-il dire que les baguettes anciennes fonctionnent mieux que les récentes ou le contraire? Eh bien… ça dépend! •8/19
Manifestement, les baguettes anciennes sont plus souvent complexes que les récentes, or les baguettes complexes marchent beaucoup mieux que les simples. Maintenant, la question qui se pose est: sont-elles complexes parce qu'anciennes, ou le contraire? •9/19
Et ça, mes données ne le disent pas du tout. Une lecture possible: «on a toujours fabriqué environ 80% de baguettes simples (S) et 20% de complexes (C), mais parmi les anciennes (A), la grande majorité des S a été perdues, de toute façon elles marchaient toujours mal … •10/19
… alors que les complexes, elles, on les a toujours gardées; il faut donc faire des statistiques pour S et C séparément, et on voit que les baguettes récentes (R) marchent mieux!» On dit alors que la complexité est une variable «confondante», … •11/19
… et il est alors logique de chercher à corriger ce facteur confondant dans le phénomène qu'on cherche à mesurer. •12/19
Mais une autre lecture possible est: «les baguettes anciennes sont (et étaient dès l'origine) plus souvent complexes (C) que simples (S), et c'est JUSTEMENT pour cette raison qu'elles sont meilleures». Chercher à «corriger» le biais rendrait l'analyse aberrante: … •13/19
… certes, on a un petit peu fait des progrès dans chaque catégorie de baguettes, mais globalement les baguettes récentes marchent moins bien que les anciennes parce qu'elles sont plus souvent simples. On parle alors de variables en collision. •14/19
Et la morale de l'histoire, c'est surtout qu'il n'y a pas une «bonne» analyse: l'interprétation «correcte» dépend de notre compréhension d'un lien causal, qui n'est lui-même pas déductible des données, et qui n'a même pas forcément de sens évident. •15/19
Une autre façon de le dire, c'est que quand on dit «X est plus Truc que Y», on sous-entend implicitement que certaines choses restent constantes: ce sont les variables «contrôlées». Mais le choix de ces variables contrôlées modifie énormément le sens de la phrase. •16/19
Ici j'ai choisi un exemple simplissime où les variables sont discrètes (booléennes: oui/non — marche bien on mal, ancien ou récent, simple ou complexe), mais évidemment les mêmes phénomènes se produisent avec des variables continues, juste plus difficiles à illustrer. •17/19
On se doute bien que quand on a affaire à des phénomènes complexes où les liens causaux ne sont pas du tout clairs, où les données sont en plus bruitées, cela rend immensément difficile de répondre à des questions du type «est-ce que X améliore Y?». •18/19
C'est aussi là l'intérêt de mener des études randomisées plutôt qu'observationnelles: si on peut imposer la valeur de certaines variables, en tirant au hasard, on évite de subir des corrélations dont on ignorera le lien causal et qu'on ne saura pas s'il faut corriger. •19/19

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Gro-Tsen

Gro-Tsen Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @gro_tsen

18 Dec
Le mec grâce auquel on a confiné 67M de Français pendant des mois parce qu'il était impensable que les gens réagissent comme des adultes explique maintenant que «c'est à vous de voir où vous voulez placer le curseur» pour Noël. 😒
Bordel, s'il y a UN moment où j'étais partisan de mesures strictes, c'était pour les fêtes de fin d'année (‌‌), mais comme le président de la République se fait pincer à faire des repas à N>6, on va nous expliquer qu'en fait c'est normal.
Et/ou parce que les Français trouvent plus important de pouvoir se retrouver deux soirs dans l'année à fêter en grands groupes que de ne pas être enfermés chez eux pendant des mois.
Read 4 tweets
17 Dec
Typography ∩ map porn: a map of Europe by dominant quotation mark styles: jakubmarian.com/map-of-quotati… (red: «x»; yellow: “x”; brown: „x“; green: „x”; blue: ”x”). I didn't realize there were so many.
I have to say, while I find all of «x», »x«, “x”, ‘x’ and „x“ (or even ‹x›, ›x‹ and ‚x‘ if anyone wants to use that), as well as "x" and 'x', equally fine, my sense of symmetry is greatly disturbed by styles such as „x” and ”x”. But it's a free world!¹

1. Restrictions apply.
At any rate, this certainly explains why Unicode characters for quotes (U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK and so on) are NOT mirrored when used right-to-left, unlike parentheses.
Read 4 tweets
16 Dec
I really wish journalists would differentiate a «lockdown», where people are forbidden from leaving their homes (or a short radius around them) or moving around freely, and closure of businesses, which in my mind isn't a «lockdown».

[Screenshot from bbc.com/news/world-eur…‌] Image
(I'm not enthusiastic about closure of non-essential businesses either, but at least I think they don't reach the level of drasticness as putting tens of millions of people effectively in prison for months, which is hard to justify even to save maybe tens of thousands of lives.)
Of course, it's hard to find reliable info on what various countries have done, because apparently the only aggregate data source on stay-at-home orders is ourworldindata.org/grapher/stay-a… — which is so bad in its categories that it's essentially useless.
Read 5 tweets
11 Dec
🧵 A comparison between hydroxychloroquine and lockdowns. ⤵️

Recently I compared lockdown proponents with crackpots who believe 5G causes covid: I admit I shouldn't have written this. But the comparison with HCQ proponents, on the other hand, works very well. Thread: •1/36
Ⓐ So, first, in both cases we have something which is supposed to work against covid for a simple and not completely idiotic reason (i.e., the idea is, at least, worth considering!). •2/36
In the case of hydroxychloroquine (“HCQ” henceafter), the theory is that HCQ could serve as a zinc ionophore, transporting Zn²⁺ into the cytoplasm where it serves to inhibit viral ARN-replicase. •3/36
Read 36 tweets
10 Dec
A claim has been brought to my attention that covid has cut life expectancy in England and Wales by a year. I think this is EXTRAORDINARILY misleading, so it deserves some clarification. •1/9 theguardian.com/world/2020/dec…
The thing is, life expectancy (at birth, or at any other age) is a bizarre notion. It is obtained by taking observed death rates by age at a given time (generally averaged over several years), assuming these rates stay constant, and computing expectancy from that. •2/9
So it's a concept which basically embeds the assumption that death rates hold constant over time. Which isn't true, of course. When they vary slowly (e.g., due to medical progress), it still makes sense. But in the face of an extraordinary even like covid? •3/9
Read 9 tweets
8 Dec
I should probably write a preventive thread about this, because I feel I'm going to get a few comments of the kind “more than 60% in place <X> have been infected by covid, and infections are still taking place! this proves that herd immunity DOES NOT WORK! ChEcKmAtE!!!”. •1/24
So yes, I've claimed a number of times, and I still do, that the trivial estimation of the collective immunity threshold given by the formula 1 − 1/R, which gives 60% for R=2.5, is pessimistic (but that it's hard to figure out the true value). •2/24
This is essentially because the reasoning behind this formula assumes a homogeneous population (everyone is equally likely to get infected) with perfect mixing (everyone is equally likely to infect anyone) and deviations from this lower the threshold. •3/24
Read 24 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!