Profile picture
, 22 tweets, 4 min read Read on Twitter
Avec quand même presque 60% des répondants qui pensent ne pas avoir les idées très claires sur les tests statistiques, ça vaut sans doute le coup que je fasse un petit thread explicatif, donc c'est parti pour les hypothèses nulles, et les p-value !
Déjà : quel est le but d'un test statistique ?
Imaginons qu'on a un jeu de données, par exemple, on a mesuré plusieurs jours consécutifs la position d'une grenouille sur une échelle, et l'hydrométrie ambiante, et on veut savoir si oui ou non, la grenouille prédit la météo.
(je prends un exemple complètement fictif, mais ce qui est important ici, c'est qu'on va avoir des données qui sont assez chahutées, où il n'y a pas nécessairement un résultat très clair qui va sortir immédiatement : la grenouille ne fera pas toujours la même chose)
Ce qu'on veut savoir au final c'est : "est-ce que la grenouille prédit la météo ?"
Une chose qu'on peut regarder, c'est déjà : "est-ce que les données qu'on a accumulées sont compatibles avec le fait que la grenouille prédit la météo ?"
C'est là que les tests statistiques vont servir : un test statistique permet de formuler une hypothèse, et de donner un critère quantitatif qui permet de conclure (compte tenu d'un jeu de données) si l'on peut ou non rejeter cette hypothèse.
Un élément très important du test statistique est donc le choix de l'hypothèse dite "nulle" (pas parce qu'elle ne sert à rien, mais parce que c'est l'hypothèse "par défaut", donc l'hypothèse "numéro 0"), qu'on note H0.
Dans le cas de la grenouille, une hypothèse H0 raisonnable est de dire "les données que j'ai obtenues sont dues au hasard" (i.e. "la grenouille ne prédit pas la météo"), et on va ensuite chercher à voir si les données que l'on a permettent ou non de rejeter cette hypothèse.
(dans l'exemple que je donne ici, le choix de H0 fait que le test statistique revient à se demander "est-ce qu'il est crédible de considérer que les données qu'on a obtenues sont due au hasard ou non", ça n'est pas nécessairement toujours le cas)
Maintenant qu'on a défini une hypothèse H0, on va pouvoir calculer la valeur p : c'est-à-dire, la probabilité que l'on a de trouver des résultats identiques à ceux que l'on a obtenus, si on considère que l'hypothèse H0 est vraie.
Et on va définir un seuil arbitraire (par exemple p=5%), en dessous duquel on va considérer qu'il est raisonnable de rejeter H0.
Si on trouve une valeur de p inférieure à ce seuil, alors on peut dire que ce seuil correspond à "la probabilité que l'on a de faire une erreur, si on rejette l'hypothèse H0, alors qu'en fait elle était vraie".
Une chose très importante à noter, c'est que le test n'est pas symétrique : si on trouve p < au seuil, on peut rejeter H0, mais si on trouve p > au seuil, la seule chose que l'on peut dire c'est "on ne peut pas rejeter H0", ce qui ne veut pas dire que H0 est valide !
Pour revenir à l'exemple de la grenouille, on a l'hypothèse H0 "les données sont dues au hasard", et on va prendre un seuil de 5%.
Si on trouve p<5%, alors on peut dire "il est raisonnable de penser que la grenouille prédit la météo parce qu'on n'a que 5% de chances de trouver les mêmes résultats que ceux qu'on a obtenus si les résultats étaient dus au hasard".
En revanche, on ne peut absolument pas dire "il n'y a que 5% de chances que nos résultats soient dus au hasard", ou bien "il n'y a que 5% de chance qu'on se trompe en disant que la grenouille prédit la météo".
Et si on trouve p>5%, la seule chose que l'on peut dire c'est : "nos données ne nous permettent pas d'affirmer que la grenouille prédit la météo compte tenu du seuil arbitraire que l'on s'est fixé". Mais pas "nos données prouvent que la grenouille ne prédit pas la météo".
Si on formalise un peu, la valeur p c'est donc : P(x|H0) la probabilité que l'on a d'observer des résultats x identiques à ceux que l'on a obtenus, si on suppose que H0 est vraie.
C'est donc aussi "la probabilité de se tromper si on rejette H0 alors qu'en fait elle était vraie".
Or ce qui nous intéresse en général, c'est plutôt P(H0|x), c'est-à-dire "la probabilité que l'hypothèse H0 soit vraie, compte tenu des résultats x que l'on a obtenus".
Or la valeur p ne dit rien là dessus.
Pour la grenouille, ce que je veux savoir c'est "est-ce que la grenouille prédit la météo ?", mais ce que je vais pouvoir calculer c'est "quelle est la probabilité d'avoir les mêmes résultats que ceux que j'ai obtenus, si je fais l'hypothèse que la grenouille ne prédit rien".
Pour finir, la notion de "résultat statistiquement significatif" est une notion arbitraire : elle dépend complètement du seuil choisi pour rejeter ou non une hypothèse nulle avec un test statistique (par exemple le seuil de 5% que j'ai pris au dessus).
(à noter que ce seuil qui permet de déterminer si un résultat est "statistiquement significatif" ou non, dépend en général des communautés scientifiques, pour le Boson de Higgs par exemple, les résultats ont été obtenus "à trois sigma" c'est-à-dire avec p < 0,27%)
(petit erratum : pour le Boson de Higgs, les derniers résultats publiés sont à 5 sigma en fait, c'est-à-dire p < 5,7×10^−7 fr.wikipedia.org/wiki/Boson_de_…)
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Antoine
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!