Rechercher un rapport, une publication, un expert...
L'Institut Montaigne propose une plateforme d'Expressions consacrée au débat et à l’actualité. Il offre un espace de décryptages et de dialogues pour valoriser le débat contradictoire et l'émergence de voix nouvelles.
12/02/2021

Présidentielle 2022 : comment lire les sondages avec attention ?

Présidentielle 2022 : comment lire les sondages avec attention ?
 Bruno Cautrès
Auteur
Chercheur au CNRS et au CEVIPOF

La récente publication de deux sondages d’intentions de vote pour l’élection présidentielle de 2022 marque le tout début d’une longue séquence qui verra le nombre de ces sondages s’accélérer très vite dans les semaines qui arrivent. Ces deux sondages (l’un réalisé par l’institut Harris Interactive, l’autre par IPSOS) donnent des résultats pour les deux tours de la prochaine présidentielle, mais il faut noter que l’institut de sondage Harris Interactive n’a publié officiellement que les résultats du premier tour, les résultats de second tour de ce sondage ayant fait l’objet d’une publication par les réseaux sociaux. 

Les données collectées dans ces deux sondages vont au-delà des simples intentions de vote et permettent également de disposer d’informations particulièrement intéressantes et précieuses sur la probabilité de participer à ce scrutin, la certitude du choix des électeurs ou encore (pour l’enquête IPSOS) les opinions sur celui ou celle qui "pourrait faire un bon président(e) de la République". 

Les deux enquêtes testent différents scénarios de candidatures pour la présidentielle de 2022, à gauche comme droite et se basent sur les noms de candidats les plus cités dans le débat public, ceux qui ont manifesté (plus ou moins clairement en fonction des personnalités) leur intention de candidater, ou qui n’ont pas démenti cette intention. Outre Emmanuel Macron et Marine Le Pen, ces deux enquêtes testent, avec quelques différences, les candidatures suivantes : à gauche, les candidatures de Jean-Luc Mélenchon (officiellement candidat de la France insoumise), Anne Hidalgo, Yannick Jadot, Arnaud Montebourg, François Hollande, Eric Piolle ; à droite, les candidatures suivantes : Xavier Bertrand, Valérie Pécresse, Nicolas Dupont Aignan. Les deux instituts incluent dans leurs listes de candidats les noms les plus probables des "petits candidats" : candidatures de l’extrême gauche (Philippe Poutou, Nathalie Arthaud, regroupées dans le cas d’IPSOS comme "candidature d’extrême gauche") ou candidatures indépendantes (Jean Lassalle ou François Asselineau présents dans la liste pour IPSOS mais pas pour Harris Interactive). A noter que le sondage IPSOS demande aux personnes interrogées de déclarer le candidat pour lequel elles auraient “le plus de chances de voter”. 

Quelque soient leurs différences méthodologiques, ces deux sondages aboutissent à trois résultats assez convergents pour le premier tour de la présidentielle : 

  • un coude-à-coude entre Marine Le Pen et Emmanuel Macron, tous les deux qualifiés pour le second tour, avec une légère avance de Marine Len Pen à l’issue du premier tour
     
  • une troisième place sur le podium du premier tour pour Xavier Bertrand, assurée dans tous les cas de figure pour Harris Interactive mais disputée en cas de candidature unique entre le PS et EELV voire rétrogradée en quatrième position selon IPSOS (égalité entre cette candidature unique et celle de Xavier Bertrand si c’est Anne Hidalgo, légère avance pour la candidature unique si c’est Yannick Jadot)
     
  • une non-qualification pour le second tour pour l’ensemble des candidats de la gauche en cas de candidatures trop nombreuses : dans tous les cas de figure Jean-Luc Mélenchon ne se qualifie pas et ne retrouve que la moitié de son score de 2017 ; dans tous les cas de figure pour les candidats du PS et d’EELV s’ils se présentent divisés plutôt de réunis derrière l’un des deux. 

Ce sont les résultats pour le second tour qui ont sans aucun doute le plus marqué les commentateurs : quelques jours après la publication par Harris Interactive des résultats des intentions de vote pour le premier tour, des sources informées des résultats pour le second tour ont publié (sans l’aval de l’institut de sondage) son estimation pour le second tour : 52 % pour Emmanuel Macron et 48 % pour Marine Le Pen. Si des enquêtes d’intentions de vote avaient été publiées depuis plusieurs mois, accordant à la Présidente du RN un score de second tour nettement supérieur à son résultat de second tour de 20171, la diffusion d’une estimation à 48 % a engendré beaucoup de commentaires : se pourrait-il que la troisième candidature de Marine Le Pen à la présidentielle soit celle du "plafond de verre" repoussé très loin, voire brisé ?2 Quelques jours après cette diffusion, le sondage d’intention de vote réalisé par IPSOS accordait à Marine Le Pen 44 % au second tour contre Emmanuel Macron, un score toujours nettement plus élevé que son résultat de 2017 mais plus proche des sondages réalisés depuis 2019.

La diffusion d’une estimation à 48 % a engendré beaucoup de commentaires : se pourrait-il que la troisième candidature de Marine Le Pen à la présidentielle soit celle du "plafond de verre" repoussé très loin, voire brisé ?

La publication de ces deux sondages est une bonne occasion pour rappeler comment commenter un sondage d’intentions de vote et, à travers une série de questions méthodologiques, de savoir ce que nous disent ces deux enquêtes dans la perspective du laps de temps (important encore) qui nous sépare du terme du mandat d’Emmanuel Macron : la présidentielle de 2022 est-elle déjà jouée ? Le scénario du second tour est-il déjà écrit (alors que plusieurs enquêtes ont montré que les Français aspiraient à un nouveau match) ? Les enquêtes disent-elles quelque chose alors même que tout le monde s’accorde à dire que 14 mois avant une élection on ne peut normalement encore rien dire ? Répondre à ces questions passe par un rappel méthodologique important.

Sans tomber dans un "méthodologisme" excessif, il faut impérativement faire l’effort de prendre du recul et de considérer avec sérieux les questions de méthodes car il en va de la bonne information des citoyens. Il s’agit aussi de rendre justice au travail des sondeurs et de traiter avec le plus grand respect et la plus grande égalité les candidatures. 

Du bon usage des sondages d’intentions de vote

La première chose à se rappeler est qu’un sondage au sens statistique du terme est une technique dont l’objectif est de prélever un échantillon auprès d’une population. Le débat public tend à associer le mot de "sondage" aux enquêtes d’opinion, en particulier les enquêtes visant à mesurer la popularité des personnalités politiques ou les intentions de vote. Mais cette équivalence ne recouvre pas toute la diversité et l’étendue des techniques de sondages et obscurcit même un peu la bonne compréhension des questions méthodologiques posées par le recours à ces techniques.

Parmi ces questions méthodologiques, l’une est essentielle : un "sondage" permet d’estimer, par le prélèvement d’un échantillon, une grandeur que l’on suppose exister dans la "population"3. Au plan technique, cette "estimation" est appelée une "statistique" tandis que la grandeur supposée exister dans la "population" est appelée un "paramètre". De nombreuses procédures et techniques statistiques permettent de mesurer l’écart entre le paramètre et son estimation dans un échantillon et de tester des hypothèses relatives à l’ampleur de cet écart. On ne comprendrait rien aux "sondages" si l’on ne tenait pas compte d’un élément fondamental : par définition, il est dans la nature des estimations obtenues par sondage de fluctuer d’un d’échantillon à un autre, même si les protocoles méthodologiques sont les mêmes à chaque fois. À l’image d’une tension artérielle prise régulièrement, les estimations peuvent fluctuer d’un "sondage" à un autre sans que cela ne soit lié à une évolution du "paramètre". A fortiori si la valeur du paramètre évolue au sein de la population. La question est alors celle de l’interprétation de ces fluctuations d’un sondage à l’autre : simples aléas sans signification et sans tendance ou au contraire traduisant une évolution significative de la valeur du paramètre ? Il est essentiel de comprendre que la répétition dans le temps de nombreux échantillons permet d’obtenir des séries statistiques sur lesquelles on peut étudier la distribution des estimations et mieux comprendre leur variation afin de répondre à cette question. Un sondage réalisé sur un échantillon de taille importante permet de rester fidèle à ce principe général et de tirer bénéfice d’une propriété mathématique fondamentale, appelée "théorème limite centrale", la pièce maîtresse de la théorie des sondages et calcul des probabilités. 

La technique de sondage la plus probante est celle des échantillons "aléatoires" : sans entrer dans des considérations techniques, le sondage aléatoire (ou probabiliste) repose, selon les mots de Frédéric Bon sur une "méthode en apparence fort simple, et peu rigoureuse, en réalité très scientifique dans son principe et délicate dans son application : le tirage au sort des individus qui composent l’échantillon"4. Mais cette technique est parfois difficile, voire impossible, à mettre en œuvre : le principal obstacle au sondage aléatoire tient dans la non-disponibilité d’une liste exhaustive des personnes qui composent la population.

Un "sondage" permet d’estimer, par le prélèvement d’un échantillon, une grandeur que l’on suppose exister dans la "population".

À défaut de cette liste (indisponible soit parce qu’elle n’existe pas, soit parce qu’elle n’est pas mise à jour ou fiable, soit qu’elle soit protégée par des conditions d’accès liées au secret statistique), on doit mettre en œuvre des techniques de sondages de remplacement. Le "sondage par quotas" fait partie de ces techniques de remplacement et a acquis aujourd’hui une très grande fiabilité s’il est réalisé dans les règles de l’art. 

De la bonne lecture des résultats des sondages d’intentions de vote

Ce détour méthodologique est un prérequis important pour comprendre deux éléments que les sondeurs professionnels mettent en exergue, à raison. Les instituts de sondages qui publient régulièrement les résultats de sondage d’opinion ou d’intentions de vote ont pris l’habitude (la bonne habitude même), depuis une bonne dizaine d’années, d’accompagner la publication de ces résultats de deux importantes précisions méthodologiques5

D’une part ils indiquent toujours que les intentions de vote que les sondages mesurent ne sont pas des prédictions de ce qui se passera le jour du vote : ce sont effectivement des estimations des paramètres de la population le jour du sondage. On retrouve ici la différence entre une estimation et une prédiction. Cette différence est néanmoins plus complexe qu’on ne le croit et la confusion fréquemment faite entre les deux notions vient du fait que les estimations (les statistiques observées dans le sondage) sont des prédicteurs des paramètres dans la population (le jour du sondage). Si le sondage a été réalisé dans les règles de l’art, les estimations que l’on observe dans l’échantillon permettent de prédire la probabilité qu’ils représentent bien les paramètres de la population. À cet égard, la mise en garde méthodologique faite par les instituts de sondage est tout à fait bienvenue et conforme à la théorie des sondages.

[Les instituts de sondage] indiquent toujours que les intentions de vote que les sondages mesurent ne sont pas des prédictions de ce qui se passera le jour du vote

Les instituts de sondage apportent une seconde précision lorsqu’ils publient les résultats de leurs enquêtes d’intentions de vote : ils rappellent que le calcul statistique de la marge d’erreur et de l’intervalle de confiance sur les pourcentages estimés n’est théoriquement possibles que pour les échantillons "probabilistes", ceux qui ont été extraits par une méthode de tirage au sort aléatoire. En effet, si seule la "chance" (tirage au sort) explique qu’un individu soit sondé, le sondage ne comporte pas (a priori) de biais et seule la taille de l’échantillon permet d’améliorer la précision des estimations. On peut alors procéder aux tests statistiques de manière satisfaisante vis-à-vis de la théorie probabiliste. 

Il se trouve qu’en France, une très large partie des sondages politiques et d’intentions de vote réalisés par les instituts de sondages sont opérés par la "méthode des quotas" et non la stricte méthode aléatoire6, pour des raisons contingentes fortes (la loi française protège le secret statistique et notamment sur les questions politiques et l’on ne peut, sauf rare exception, tirer au sort des individus sur les données du fichier du recensement qui sont, par nature nominatives). Les instituts de sondage gèrent cette situation en rappelant que les estimations d’un sondage se lisent en ayant à l’esprit leur marge d’erreur et que l’on peut, par précaution, s’appuyer sur ce raisonnement même si l’échantillon n’est pas un échantillon aléatoire. 

Les marges d’erreur : un principe de précaution méthodologique fort utile

En suivant ce principe de précaution méthodologique, nous avons calculé les marges d’erreur de plusieurs des estimations livrées par les deux sondages (voir l’annexe : tableaux 1 à 4). Nous ne l’avons fait que pour les candidatures de Marine Le Pen et d’Emmanuel Macron pour le premier comme le second tour. Pour réaliser ces calculs nous avons pris comme base les pourcentages publiés par les deux sondages et nous avons tenu compte des indications fournies par l’un et l’autre à propos des votes exprimés et du nombre d’électeurs se déclarant certains d’aller voter et certains de leur choix. Nous avons calculé ces marges d’erreur avec à chaque fois deux seuils de confiance : une confiance à 95 % et une confiance à 99 %. Cela nous permet de calculer pour chaque pourcentage, ce que l’on appelle "l’intervalle de confiance". L’intervalle de confiance c’est l’intervalle dans lequel se situe la "vraie valeur", celle du paramètre dans la population avec un risque d’erreur de 5 % ou de 1 % selon les seuils de confiance choisis. Plus le risque d’erreur recherché est faible, plus l’intervalle de confiance est étendu : la certitude dans l’estimation se paie au prix d’une moindre précision. 

Prenons un exemple : dans l’enquête IPSOS, Marine Le Pen est en tête du premier tour avec 26 % des suffrages exprimés. On peut être confiant à 95 % que cette valeur est comprise dans la population (ou si l’on répétait à l’infini les échantillons) entre 22.6 % et 29.4 %, ce qui correspond à une marge d’erreur de + ou- 3.4 points de pourcentage. Emmanuel Macon est crédité de 24 %. En appliquant le même raisonnement on peut être confiant à 95 % que ce score est compris entre les deux bornes de l’intervalle de confiance, c’est-à-dire entre 20.7 % et 27.3 % (marge d’erreur de + ou - 3.3 points de pourcentage). Ces deux intervalles de confiance ne se recoupent qu’en partie et l’on voit qu’un "mauvais Emmanuel Macron" (dans la zone basse de son intervalle de confiance) est distancé par une "mauvaise Marine Le Pen" (également dans la zone basse de son intervalle de confiance). En revanche, un "Emmanuel Macron moyen" pourrait rattraper ou passer devant une "mauvaise Marine Le Pen" tandis qu’une "très bonne Marine Le Pen" ne pourrait être vraisemblablement rattrapée par un "très bon Emmanuel Macron" si tous les deux sont dans la partie haute de leurs intervalles de confiance. 

Quant au second tour, et avec une immense prudence, on voit que dans le cas du sondage Harris-Interactive7, le scénario d’un match serré et d’une quasi-égalité entre les deux candidats ne peut être exclu. On laisse ici au lecteur le soin de lire, avec attention, les tableaux de données présentés ici et les documents mis en ligne par les sondeurs. 

Conclusions

En démocratie, la bonne information du citoyen est une donnée non-négociable de la qualité du processus démocratique le plus fondamental : l’élection des dirigeants politiques et la campagne électorale qui l’accompagne. La production de sondages politiques et notamment de sondages d’intentions de vote en période pré-électorale, voire loin de l’élection, contribue à l’information du citoyen sur l’état de l’opinion, comme le font les autres balises grâce auxquelles les citoyens se repèrent dans l’univers complexe du choix électoral : médias, journalistes, réseaux sociaux, production livresque sur la politique (traditionnellement abondante en France). Les partis politiques, les acteurs de la société civile, les leaders d’influence contribuent également à ce processus complexe et foisonnant d’information. C’est incontestablement un signe de bonne vitalité démocratique. 

Les précautions méthodologiques sont néanmoins essentielles à rappeler pour pouvoir bénéficier au mieux de cette production d’information et de données. Un enjeu démocratique important, qui pourrait faire l’objet de davantage d’initiatives en France, est celui de la formation des citoyens au bon usage et à la bonne lecture de cette information et de ces données. C’est toute la problématique de l’autonomie et de l’émancipation des citoyens par rapport aux informations qu’ils reçoivent dont il est ici question. D’importants progrès ont été réalisés en France (et restent à poursuivre) sur toutes ces questions à propos des sondages, tant par les instituts de sondages eux-mêmes que dans le dialogue entre sondeurs, universitaires et spécialistes de la statistiques publique8

Nous espérons avoir œuvrer en ce sens en appelant à prendre tout le recul qu’il convient d’avoir à plus d’un an de l’élection, alors que la liste des candidats comporte encore beaucoup d’inconnues et que les thèmes qui vont structurer l’espace de la compétition électorale n’ont pas encore tous émergé. 

 

 

Copyright : Eric FEFERBERG / POOL / AFP

Tableau 1 : Intentions de vote pour le premier tour avec leurs marges d’erreur : Marine Le Pen

 

Marine Le PenIntervalle de confiance à 95%Intervalle de confiance à 99%
Sondage Harris Interactive26[22.8 ; 29.2][21.8 ; 30.2]
Sondage IPSOS26[22.6 ; 29.4][21.5 ; 30.5]

Tableau 2 : Intentions de vote pour le premier tour avec leurs marges d’erreur : Emmanuel Macron

 

Emmanuel MacronIntervalle de confiance à 95%Intervalle de confiance à 99%
Sondage Harris Interactive24[20.9 ; 27.1][19.9 ; 28.1]
Sondage IPSOS24[20.7 ; 27.3][19.6 ; 28.3]

Tableau 3 : Intentions de vote pour le second tour avec leurs marges d’erreur : Emmanuel Macron

 

Emmanuel MacronIntervalle de confiance à 95%Intervalle de confiance à 99%
Sondage Harris Interactive52[48.1 ; 55.9][46.8 ; 57.2]
Sondage IPSOS56[51.8 ; 60.1][50.3 ; 61.4]

Tableau 4 : Intentions de vote pour le second tour avec leurs marges d’erreur : Marine Le Pen

 

Marine Le PenIntervalle de confiance à 95%Intervalle de confiance à 99%
Sondage Harris Interactive48[44.1 ; 51.9][42.1 ; 53.2]
Sondage IPSOS44[39.8 ; 48.15][38.5 ; 49.5]

1Entre février 2019 et Juillet 2020, six sondages d’intentions de vote pour la présidentielle de 2022 ont été réalisés, accordant à Marine Le Pen, toujours qualifiée au second tour contre Emmanuel Macron, entre 41.5% et 45% des exprimés. Rappelons que Marine Le Pen avait obtenu 33.90% des suffrages exprimés lors du second tour en 2017. 

2Lors de la présidentielle de 2012 Marine Le Pen obtenait 17.90% des exprimés (6 421 426 voix). En 2017 elle se qualifia pour le second tour en ayant obtenu 21.30% des exprimés au premier tour (7 678 491 voix). 

3D’autres questions méthodologiques mériteraient d’être traitées, mais elles sont moins essentielles pour notre propos ici : le mode d'administration des enquêtes par sondages (réalisées aujourd’hui en ligne pour la plupart des sondages politiques) et le redressement ou pondération des résultats bruts obtenus. Les pourcentages publiés par les instituts de sondage sont toujours publiés pondérés, ce qui est une procédure tout à fait normale et habituelle en matière de sondages (pondération sociodémographique et politique).

4On ne peut que recommander à toute personne désireuse de découvrir ce que sont les sondages de lire cet ouvrage daté de 1974 mais toujours d’actualité malgré les évolutions des techniques de sondages depuis : Frédéric Bon. Les sondages peuvent-ils se tromper ? Paris, Calmann-Lévy, 1974, p. 22. On peut aussi conseiller la lecture de : Frédéric Micheau. La prophétie électorale. Les sondages et le vote. Paris, Editions du Cerf, 2018. 

5Ces précisions méthodologiques répondent à l’application de la loi n°2016-508 du 25 avril 2016, qui elle-même apportait plusieurs modifications à la loi du 19 juillet 1977. Le législateur s’est en effet saisi à plusieurs reprises des questions de publication des sondages politiques et électoraux, notamment pendant les périodes de campagne électorale. Sur ces questions, voir la très bonne synthèse de Léo Gerville-Réache. La loi et les sondages électoraux. 49ème Journées de statistique, Mai 2017, Avignon, France. https://hal.archives-ouvertes.fr/hal-01531483.

6Dans les faits, la situation est plus complexe car si les individus sondés sont choisis par la méthode des quotas, les points géographiques dans lesquels ils résident peuvent avoir été tirés au sort. 

7Dans la mesure où les données de second tour n’ont pas été officiellement publiées par l’institut de sondage mais ont été confirmées par lui quant aux pourcentages dévoilés, on a appliqué pour le calcul des marges d’erreur les taux de participation et de certitude de vote des données du premier tour. 

8On peut notamment citer ici le rôle de mon collègue du CEVIPOF, Jean Chiche, qui a œuvré au sein de la Société Française de Statistique, à ces rapprochements. Voir : Jean Chiche, "Un point de vue sur les sondages d’intentions de vote en 2017", VARIANCE.EU, 31/03/2017, http://variances.eu/?p=2105
Avner Bar-Hen, Jean Chiche. Les sondages sont-ils devenus fous ?. Images des Mathématiques, CNRS,
2009, https://hal.archives-ouvertes.fr/hal-00585951. Voir également le dossier consacré aux sondages électoraux dans : Statistique et société, Vol. 1, N° 2 octobre 2013. Enfin, il faut noter l’importante contribution à ces débats de Claire Durand, de l’Université de Montréal. 

Recevez chaque semaine l’actualité de l’Institut Montaigne
Je m'abonne