Je vous propose un petit exercice de pensée critique.
Imaginons que vous n'ayez absolument aucune idée apriori de la fiabilité de ce train.
Vous l'empruntez 15 fois,
et il arrive en retard 15 fois.
Quel est a votre avis la proportion habituelle de train en retard ?
Cet exercice est inspiré de l'excellente vidéo de @TroncheBiais sur la "Généralisation Abusive".
En s'entrainant un peu a manier les statistiques il me semble qu'il est possible de quantifier a quel point une généralisation est "abusive" ou pas.
_______________________________________
Voici ci-dessous quelques réflexions sur cette difficile question.
Le chiffre recherché est le pourcentage réel de trains qui arrive en retard en moyenne ces dernières année.
Ce chiffre est donc compris entre 0% et 100%.
Mais ce chiffre on ne le connais pas, on ne peut que essayer de le deviner.
Ou plus exactement on peut essayer d'estimer de façon subjective notre degré de croyance sur la proportion de train en retard, en se basant uniquement sur nos observations personnelles.
Pour chaque chiffre possible j'ai une croyance personnelle sur sa plausibilité. (vous être pas obligé d'avoir les mêmes)
Sur les graphs ci dessous, les hauteurs des courbes représentent mes plausibilités subjectives.
Très haut, c'est probable
Très bas c'est improbable
0) Mon Apriori (avant le premier trajet)
Ici on imagine qu'on a aucun apriori sur la proportion de train en retard.
Ca peut tout aussi bien être 0%, 12%, 99%, 100%.
Je représente ca par une courbe plate.
On appelle ca un apriori non-informatif.
1) Mon 1er train arrive en retard.
C'est donc impossible que 0% des trains arrivent en retard.
Je modifie un peu mon apriori.
Ma distribution de crédence est maintenant linéaire.
2) 2 trains = 2 retard
C'est toujours possible que 50% des trains arrivent en retard, j'aurais juste pas eu de chance.
Je modifie encore un peu ma distribution de crédence.
(en fait c'est juste le carré de la précédente)
3) 15 train = 15 retard
A chaque train que je prends je met a jour mes crédences.
Il me suffit de multiplier ma crédence précédente par la fonction linéaire que on a vu au premier train.
Maintenant j'ai réellement des raisons de penser que tous les trains arrivent en retard.
Pour les plus matheux d'entre vous, il s'agit tout simplement d'une fonction BETA(0 ; 15)
Bref, avec 15 retard sur 15 trajet, je suis plutôt justifié a penser que TOUS leurs trains arrivent en retard.
Ce n'est pas vraiment abusif de "généraliser" mes 15 resultats en une règle générale.
Mais en vérité si il s'agit de notre monde a nous (et non plus un monde fictif dont on ne sait rien) , j'ai bien évidemment un apriori très fort.
J'ai déjà pris le train souvent, mes proches aussi, je suis les infos, etc.
Ce n'est pas une courbe plate. 😁👆
Je peux même faire quelques recherches pour avoir une opinion encore plus forte : toutes les statistiques de retards de la SNCF sont rendu publique chaque année. data.gouv.fr/fr/datasets/re…
Malgré ma confiance toute relative en la fiabilité des données officielles, je pense malgré tout que la proportion des trains SNCF en retard (>5mn) se situe aux alentours de 15%.
La distribution est très étroite car il y a ici beaucoup de données (~15000 trains/jours !)
Si maintenant je prends 15 fois le train, et que j'ai 15 retard, j'en conclue que j'ai VRAIMENT pas eu de bol, pas que 100% des trains SNCF ont des retard.
Ma crédence se contente de se déplacer un peu!.
Ces 15 retards me remettent un peu en question.
CONCLUSION :
Conclure que 100% des trains arrive en retard au prétexte que j'ai eu 15 retard sur 15 trajet n'est pas une généralisation abusive en soi.
Ca dépends fortement de l'apriori.
Ce n'est une généralisation abusive que si on avait un apriori fort.
Où @konbinitechno illustre parfaitement le biais qu'il souhaite dénoncer.
La courbe avec montagnes et vallées est très marquante et assez pédagogique pour illustrer l'effet de sur-confiance que on a lorsqu'on commence a maitriser un sujet
Mais ... l'étude dont il est question n'a jamais montré une telle courbe, et cet effet si cher aux journalistes n'existe probablement pas (ou au moins est bien plus faible que ce qu'ils prétendent d'habitude)
L'effet réel mesuré dans cette étude est principalement la combinaison d'un classique effet de sur-confiance général (pas que des débutants) ajouté a un simple régression vers la moyenne.
En tout cas il n'y a pas de quoi tracer des montagnes et des vallée
Voici un thread sur une fascinante et touchante histoire de réseaux sociaux.
- du maquillage
- Des débats sur le réalisme scientifique
- De l'action
- Des rebondissements
- Une fin inatendue
⬇️⬇️⬇️
Une jeune fille a posté une vidéo sur Tiktok (puis repostée sur twitter) où elle demande sincèrement d'oú viennent les maths, comment on en est venu à cette idée, comment on sait que cest vrai.
Pleins de gens ont expliqués en quoi la banalisation du viol est problématique. Je me permettrait de soulever un autre point, moins grave, mais tellement révélateur :
➡️L'attitude cool et socialement valorisée qui consiste a se comporter comme un connard
Hier j'avais proposé une petite énigme mathématique d'apparence innocente.
C'était bien sur une métaphore de l'actualité sur la Chloroquine, et des débats autours des essais clinique a la recherche d'un traitement au COVID19.
⬇️⬇️⬇️ Thread ⬇️⬇️⬇️
J'avais proposé un sondage pour récolter vos réponses
Les resultats sont très intéressants.
Certain d'entre vous ont reconnu la référence a la situation réelle, mais je pense que la plupart ont malgré tout sincèrement répondu a l'énoncé exacte.