Thomas Delclite Profile picture
Méthodologue à Statbel, enseignant vacataire à l'Université de Lille, administrateur de la fédération BE Larp, et créateur de jeu à l'occasion.

Mar 25, 2022, 24 tweets

Petit thread sur l'usage des intervalles de confiance dans les sondages politiques. Ici en utilisant le dernier sondage en rolling de l'IFOP pour les présidentielles françaises 👇

#Presidentielle2022 #Sondage #stats

La présentation de ce sondage inclue une notice méthodologique avec un intervalle de confiance générique à utiliser. Celui-ci est exact, même s'il faut faire l'impasse sur la méthode de quota utilisée ici.

Mais il ne contient pas les intervalles de confiance pour chaque résultat. J'ai cherché à les ajouter à partir des données fournies leur notice méthodologique et les conclusions sont assez différentes. Première conclusion : ce n'est pas facile...

Dans les tweets suivants, j'ai édité les PDF en ajoutant les intervalles de confiance là où je savais les mettre, je vous explique les résultats, puis la méthode.

Pour les résultats globaux (Intention de vote au premier tour par candidat•e), l'intervalle de confiance ne modifie pas les conclusions intuitives, même si aucune évolution par rapport au précédent rolling n'est statistiquement significative.

C'est autre chose pour les résultats par âge, sexe et autres catégories socio-professionnelles. On obtient souvent des intervalles de confiance qui font passer le pourcentage du simple au double. Toute comparaison, entre candidat•e ou d'un rolling à l'autre, est impossible ici.

Pour Fabien Roussel, par exemple, 4% des niveaux de diplôme 2ème et 3ème cycle voteraient pour lui, + ou - 3,6 points... Soit 95% de chances que le vrai taux soit entre 0,4% et 7,6%, quelle interprétation fournir ici ?

De même, pour Jean-Luc Mélenchon, 22 % des 18-24 ans voteraient pour lui, + ou - 7,8 points... Dire du coup qu'il s'agit de la catégorie d'âge votant le plus pour lui est peut être valide, mais n'est pas possible avec ce rolling.

Je précise que cela ne provient pas d'une variabilité des électorats. Les intervalles de confiance tiennent compte uniquement de la taille de l'échantillon. C'est d'ailleurs précisé dans la méthodologie, mais uniquement pour 1500 répondant•e•s à un sondage aléatoire simple.

Or, pour les résultats globaux, si 1500 personnes ont répondu, seules 1382 sont inscrites sur les listes électorales. Et de celles-ci, seules 1103 se prononcent pour le premier tour. On est donc plus vraiment à l'intervalle de confiance pour n=1500.

Mais en plus, lorsqu'on découpe la population par catégorie socio professionnelle, cela descend encore. Je suis parti des chiffres de l'INSEE pour retrouver la répartition de ces 1103 personnes.

Cela fait 113 personnes entre 18 et 24 ans. Nécessairement, l'intervalle de confiance devient très élevé pour cette taille d'échantillon. Quel est l'intérêt alors à ce découpage ? Et surtout, pourquoi insister sur l'évolution journalière ?

Et encore, c'est sans doute pire pour les 18-24 ans, car je dois supposer ici que le fait de se prononcer à l'élection ne dépend pas des catégories socio-professionnelles. C'est évidemment le cas, mais les chiffres ne sont pas fournis ici.

Je n'ai créé les images que pour les résultats globaux et pour les deux premiers candidats F. Roussel et JL Mélenchon, mais les conclusions sont identiques pour les autres. Par exemple, 34% des catégories aisées voteraient pour E. Macron, +/- 8 points...

Pour résumer, en dehors même des critiques possibles sur les méthodes de sondage utilisées ici (et il y en a), la présentation d'un unique calcul d'intervalle de confiance occulte la faible pertinence de beaucoup des résultats présentés.

Aussi, même si l'IFOP fournit une notice méthodologique, beaucoup de points restent imprécis, et les chiffres ne sont pas tous présents. Dès lors, je ne sais pas bien comment la commission des sondages peut vérifier les résultats présentés.

Dernier point surprenant et intéressant selon moi : ce sondage inclue toutes les personnes inscrites sur liste électorale ayant une intention à donner, quand bien même la personne ne compte pas aller voter.

C'est, je crois, totalement à l'inverse de beaucoup d'autres instituts de sondage. Bien ? Pas bien ? Aucun avis, mais cela est étrange car deux questions sur la certitude du vote sont posées, sans être utilisées.

Et le document précise qu'en ajoutant ce critère, on passerait de 1103 à 827 personnes. Ce qu'il y a de sûr, c'est qu'avec ce critère, la taille de l'échantillon diminuerait encore, et les intervalles de confiance seraient plus larges.

Quelques sources pour vérifier tout cela :
📡 les résultats IFOP : ifop.com/wp-content/upl…
(contient tous les résultats chiffrés)

🛠 la notice méthodologique : commission-des-sondages.fr/notices/files/…
(contient le détail sur la participation, et les données de redressement)

Une petite demande à @IfopOpinion pour finir : pourriez-vous fournir ces intervalles de confiance dans votre notice méthodologique, par simplicité ? Par ailleurs, si vous remarquez une erreur de ma part, n’hésitez pas, je corrigerai mes calculs.

@IfopOpinion Poke @HauteTristan comme promis. Bonne lecture !

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling