VU, LU, ENTENDU

#10 Le saviez-vous ? – Les sondages politiques sont-ils fiables ?

16 Mai. 2022

Collecte de données I Le saviez vous ? I Méthodologie

Les sondages politiques sont-ils fiables ?

Les grandes élections suscitent quasi systématiquement des débats sur les sondages, en France comme ailleurs. Les critiques, parfois virulentes, visent les sondages d’opinion mais peuvent s’appliquer plus largement aux études marketing. Philippe Guilbert, qui a commencé sa carrière à l’INSEE avant d’occuper des postes de direction scientifique et de direction générale en sociétés d’études, intervient aujourd’hui comme expert Etudes auprès des organisations professionnelles (SYNTEC Conseil, ESOMAR Professional Standards Committee). Dans ce nouvel opus de notre rubrique Le saviez-Vous, il nous propose son analyse, pour aider à dépasser les polémiques et s’intéresser aux questions méthodologiques de fond.

L’ANALYSE DE PHILIPPE GUILBERT

Les premiers sondages d’opinion scientifiques ont été réalisés dans les années 30 : 1936 aux États-Unis par Gallup, 1938 en France par l’IFOP. Ils ont clairement montré leurs avantages et leur fiabilité par rapport aux « votes de paille », les consultations de lecteurs via coupon-réponse pratiquées pour les élections américaines depuis 1850. Malgré cela, les critiques n’ont pas tardé. Jean Stoetzel, le fondateur de l’IFOP qui avait appliqué en France les méthodes de George Gallup, a mis en garde en 1943 contre le caractère parfois dangereux et abusif de l’enquête d’opinion. D’autres sociologues (Herbert Blumer en 1948, Pierre Bourdieu en 1973) ont poursuivi ces critiques et remis en cause l’existence de l’opinion publique. Ce débat n’a pas empêché les sondages politiques de se développer dans les pays démocratiques pour mieux comprendre, suivre et anticiper les besoins et les attentes des citoyens, à un rythme encore plus soutenu avec la digitalisation des études.

Chaque élection présidentielle voit cependant ressurgir des critiques qui, depuis les années 2000, portent surtout sur la fiabilité des résultats et des méthodes employées.

Des résultats fiables ?

Les sondages sur les intentions de vote ont la particularité de pouvoir être confrontés aux votes réels : l’estimation basée sur un échantillon de taille très réduite par rapport à la population observée (souvent autour de 1000 répondants pour près de 49 millions d’électeurs inscrits à la présidentielle 2022) peut ainsi se révéler plus ou moins proche du décompte officiel des bulletins déposés dans les urnes (plus de 35 millions à chaque tour de la présidentielle 2022). Une intention est une envie ou une résolution d’agir, le passage à l’acte ne se réalise pas toujours, notamment quand il concerne une période éloignée : les sondeurs soulignent souvent que les tendances issues des courbes d’évolution sont plus intéressantes que la seule photographie à l’instant t. Mais ces précautions sont fréquemment oubliées pour ne retenir que les estimations par candidat, inévitablement comparées aux votes réels.

Les sondeurs soulignent les limites des intentions de vote qui peuvent se concrétiser ou pas. Des précautions fréquemment oubliées, les estimations par candidat étant inévitablement comparées aux votes réels.

Depuis une vingtaine d’années, plusieurs élections en Europe et aux États-Unis ont donné lieu à des surprises par rapport aux sondages : présence de Jean-Marie Le Pen au 2e tour présidentiel en 2002, victoire du Brexit et Trump en 2016… Ces cas, marquants en raison des enjeux politiques, économiques et sociaux, sont-ils des exceptions ou est-il justifié d’avancer que « les sondages se trompent toujours » ? L’analyse peut se faire selon différentes grilles : comparaison de l’ordre d’arrivée ou comparaison des pourcentages de votes obtenus (le classement des principaux candidats peut être juste, avec des écarts sur les pourcentages obtenus), prise en compte seulement des derniers sondages publiés deux jours avant élection (délai légal actuel en France) ou prise en compte des sondages publiés dans la semaine de l’élection, voire pendant toute la campagne officielle… Prendre en compte des sondages éloignés du jour de l’élection est moins pertinent puisque les courbes d’intentions de vote montrent souvent de fortes évolutions, avec des phases de dynamique ou de stabilisation selon les cas.

Les sondages éloignés du jour de l’élection ne peuvent être des prédictions puisque les courbes d’intentions de vote montrent souvent de fortes évolutions, avec des phases de dynamique.

En comparant plus de 30.000 sondages aux résultats officiels des élections de 45 pays entre 1940 et 2017, des recherches réunissant universitaires et professionnels ont évalué une erreur absolue moyenne de 2,03 points, cohérente avec les marges d’erreur (1 à 3 points selon la taille d’échantillon et la valeur observée). Les différences importantes sont plutôt rares, 85% des sondages ayant correctement anticipé les résultats de l’élection ! Il faut se méfier des biais cognitifs de mémoire, les surprises laissant davantage de traces que les confirmations. Il faut noter qu’un intervalle de confiance à 95% indique que 5% des estimations peuvent sortir de cet intervalle défini par la marge d’erreur : sur l’ensemble des élections et des candidats testés, quelques estimations seront moins bonnes en raison des lois statistiques.

Sur +30.000 sondages sur les élections de 45 pays de 1940 à 2017, l’erreur absolue moyenne est seulement de 2,03 points, cohérente avec les marges d’erreur.

Par ailleurs, ces comparaisons ne tiennent pas compte des choix électoraux tardifs (les campagnes sur les réseaux sociaux sont particulièrement actives et ciblées lors des derniers jours), et de l’impact potentiel des derniers sondages sur une partie du public : bandwagon (vote conformiste pour suivre l’opinion majoritaire), underdog (soutien à un candidat par sympathie ou compassion), vote utile… La publication du sondage est susceptible, comme bien d’autres événements de la campagne électorale, d’être prise en compte par des électeurs indécis, ce qui perturbe le rapprochement entre estimations et votes réels. Quoi qu’il en soit, cela n’empêche pas de débattre des modes de fabrication des sondages pour les améliorer encore.

La publication du sondage est susceptible, comme d’autres événements de la campagne, d’être prise en compte par des électeurs indécis, ce qui perturbe le rapprochement entre estimations et votes réels.

Des méthodes fiables ?

Si les intentions de vote sont abondamment diffusées, leurs méthodologies et leurs contraintes restent assez méconnues et un manque de transparence est souvent reproché. Pourtant, la réglementation française impose depuis plus de quarante ans (loi du 19 juillet 1977) une transparence sur les sondages politiques bien supérieure à celles des autres pays, sous le contrôle de la Commission des sondages. La révision du 25 avril 2016 est allée encore plus loin en précisant et élargissant son champ d’application (sondages portant sur le débat électoral et pas seulement les intentions de vote), les éléments fournis lors de la publication des sondages, l’accès libre pour tout citoyen aux notices méthodologiques des sondages, aux mises au point et avertissements de la Commission. La transparence sur les questions utilisées (qui permet de vérifier la neutralité de formulation), la collecte et le traitement des données imposée par la loi française rejoint globalement les principes établis par les codes professionnels internationaux ESOMAR (pour l’ensemble des études marketing et opinion) et WAPOR pour les sondages d’opinion.

La réglementation française impose depuis 40 ans une transparence sur les sondages politiques bien supérieure à celles des autres pays, sous le contrôle de la Commission des sondages.

Faut-il aller encore plus loin ? La Commission des sondages indique que « dans un milieu très divers et mouvant où l’évolution rapide des techniques d’information fait naître sans cesse de nouveaux problèmes, un excès de réglementation pourrait provoquer, par sa rigidité et ses contraintes, des effets pernicieux. ». En effet, la technologie et les nouveaux usages digitaux incitent à adapter les pratiques, dans les études comme dans bien d’autres domaines. L’amélioration des méthodes existantes et l’innovation passent par des phases de recherche et de tests qui sortent du cadre de la notice méthodologique publiée par enquête, ce qui peut susciter l’impression d’un manque de transparence.

La campagne présidentielle 2022 a été parfois l’occasion de remettre en question la collecte par Internet des sondages politiques, devenue majoritaire en France comme dans de nombreux pays occidentaux. Or, la surprise des présidentielles françaises 2002 était liée à des sondages téléphoniques, alors que celles de 2016 sur le Brexit au Royaume-Uni et Trump aux États-Unis concernaient à la fois des sondages téléphoniques et par Internet : la migration online des enquêtes n’est donc pas en cause. Bien sûr, les instituts ne changent pas de mode de collecte sans tests préliminaires pour en évaluer l’intérêt, les limites et les précautions nécessaires à prendre. De nombreux tests en parallèle comparant la collecte téléphone et online ont été réalisés dans les années 2000 (notamment ARF en 2008 aux Etats-Unis), et montré des résultats très proches lorsqu’elles sont bien utilisées.

La collecte par Internet a été remis en cause en 2022. Or, la surprise 2002 en France était liée à des sondages téléphoniques. Celles de 2016 sur le Brexit et Trump concernaient à la fois des sondages téléphoniques et par Internet.

Pourquoi une enquête online peut-elle encore susciter la méfiance ? Quatre principaux reproches sont généralement avancés :

« Tout le monde n’a pas Internet ». Chaque mode de collecte comporte des limites (listes rouge/orange et exclusifs Mobile pour le téléphone, digicodes pour le face-à-face à domicile…), prises en compte par les professionnels pour réduire le biais de couverture. Les sondages d’opinion utilisent ainsi toujours le téléphone ou face-à-face dans les pays où l’accès au Web est trop restreint.

« On ne sait pas vraiment qui répond aux enquêtes en ligne ». Contrairement aux enquêtes téléphoniques qui peuvent suivre des protocoles standards depuis plusieurs dizaines d’années, une collecte par Internet recouvre des pratiques très diverses pour recruter et gérer les répondants. Pour clarifier la situation, ESOMAR a mis à jour en mars 2021 ses questions sur les échantillons en ligne et incite chaque fournisseur à répondre aux 37 questions, qu’il s’agisse de panel ou de recrutement par interception (Web, réseaux sociaux…).

« Les participants en ligne ne sont pas représentatifs car volontaires et payés pour répondre ». Par téléphone ou en face-à-face, les enquêteurs ont la lourde tâche de convaincre les personnes contactées de participer à une enquête, généralement sans dédommagement. Les contraintes techniques et légales des enquêtes en ligne conduisent souvent à utiliser des access panels de personnes acceptant de participer aux enquêtes contre des dédommagements très faibles. Les professionnels doivent prendre garde aux potentiels biais, comme ils le font depuis longtemps sur d’autres études par panel (audience…) qui ont des cadeaux ou dédommagements. Ne pas utiliser d’incentive online peut générer des biais importants en surreprésentant les avis extrêmes.

« Avec des inscriptions multiples dans les panels, on peut répondre plusieurs fois aux enquêtes ». Un large éventail d’outils informatiques et statistiques existe pour identifier les doublons et les mauvais répondants, décrit dans la réponse des fournisseurs aux questions ESOMAR sur les échantillons en ligne. Lorsque toutes les précautions sont prises, les risques d’intrusion et l’impact sur les données finales après nettoyage sont très limités. Une attaque massive entrainerait une incohérence des données et évolutions qui alerterait les professionnels expérimentés.

Toute méthodologie de recueil comporte des limites, les études online n’échappant pas à la règle. Mais des procédures et précautions réduisent les biais possibles.

Enfin, les débats récents ont également porté sur la méthode des quotas, largement utilisée en France pour les enquêtes marketing et opinion pour tous les modes de collecte (face-à-face, téléphone, Internet). L’opposition entre échantillon par quotas et par tirage aléatoire a suscité de nombreux échanges depuis des dizaines d’années, la première étant plutôt issue de praticiens alors que les théoriciens préfèrent la seconde pour rester dans le cadre probabiliste classique, et disposer d’intervalles de confiance précis. La digitalisation de la collecte a cependant généralisé les quotas pour les enquêtes en ligne, en France comme ailleurs, faute de pouvoir utiliser une méthode aléatoire puisqu’il n’existe pas de base de sondage universelle et qu’il est interdit de générer aléatoirement des emails (spam).

La statistique publique (INSEE et ses homologues étrangers) continue cependant à fonctionner principalement par recensement ou tirage aléatoire : les enquêtes des instituts privés sont-elles alors peu fiables en raison du mode d’échantillonnage ? Il faut d’abord noter que la réglementation réserve souvent aux seuls organismes statistiques publics l’accès à une base de sondage universelle des ménages, permettant d’utiliser les méthodes aléatoires dans les meilleures conditions possibles. En particulier, les listes d’inscriptions électorales ne sont pas accessibles en France aux instituts privés. Ensuite, les protocoles d’enquêtes publiques les plus rigoureux conduisent à une collecte sur plusieurs semaines ou mois : cela permet d’obtenir des données socio-démographiques détaillées et précises, indispensables pour la définition des quotas et les contrôles de représentativité, mais n’est pas adapté au suivi rapide de l’opinion en période d’élection.

Faut-il revenir alors aux sondages téléphoniques par génération aléatoire de numéros (random digital dialing) ? La controverse est encore vive, notamment avec des académiques et experts anglo-saxons. Des recherches internationales indiquent que la précision des estimations par quotas serait plus variable : le choix des quotas pertinents et l’existence de sources de cadrage récentes peuvent effectivement poser problème. Les instituts refusent ainsi de réaliser des sondages quand les informations de cadrage sont insuffisantes pour garantir la représentativité (pour des primaires par exemple). Néanmoins, les intentions de vote mesurées en France par quotas ne sont globalement pas moins précises que les estimations aléatoires, bien au contraire. Rappelons enfin qu’aucune des deux méthodes n’a empêché des surprises lors d’élections clés : changer seulement de méthode d’échantillonnage ou de mode de collecte ne peut suffire.

Le débat entre quotas et tirage aléatoire existe depuis des dizaines d’années. Néanmoins, les intentions de vote mesurées en France par quotas ne sont globalement pas moins précises que les estimations aléatoires.

Les défis de la mesure de l’opinion

Les surprises électorales des dernières années ont entrainé des analyses en profondeur des méthodes de sondage. D’après les conclusions rendues après le vote du Brexit en 2016, des erreurs d’estimation ont été commises par sous-représentation de certaines populations (+70 ans, partisans conservateurs…), y compris pour les sondages aléatoires téléphoniques. La représentativité de l’échantillon demeure fondamentale, quels que soient les modes de collecte et d’échantillonnage, pour refléter toute la diversité d’une société de plus en plus fragmentée.

Même avec un bon échantillonnage, trois phénomènes compliquent la tâche : l’abstention (participation à l’élection), l’indécision (hésitation entre plusieurs candidats) et la sous-déclaration (le répondant préfère ne pas révéler son vote extrême). Les données des précédentes élections peuvent aider au calage, mais celui-ci est délicat en cas de changement concentré sur des sous-populations. Ces difficultés n’existent pas pour les estimations de résultats le jour de l’élection à 20 heures : les écarts avec les résultats officiels sont minimes car il s’agit de décompte des bulletins réels d’un échantillon de bureaux de vote, des données objectives sur un événement passé et non de données subjectives d’un événement futur comme cela est le cas des intentions de vote.

Enfin, les chiffres d’un sondage peuvent donner lieu à des interprétations différentes. Les intentions de votes d’un sondage présidentiel national américain désignent le vainqueur du « vote populaire », pas obligatoirement le président désigné par les grands électeurs (cf. Trump 2016). En France, seul le spécialiste des sondages du PS en 2002 a vu dans le dernier sondage publié une semaine avant l’élection présidentielle que les courbes Jospin et Le Pen pouvaient se croiser, la présence de l’extrême droite au second tour étant alors impensable pour de nombreux spécialistes… Comme les codes ESOMAR et WAPOR l’indiquent, les commentaires factuels des chiffres doivent être distingués des interprétations, celles-ci variant selon les grilles d’analyse et les référentiels utilisés : une mauvaise interprétation n’implique pas que les chiffres soient erronés.

Les sondages d’opinion ne seront donc pas plus fiables en changeant seulement de méthodes statistiques. Pour rechercher des améliorations à cet outil imparfait, les professionnels croisent les expertises (sciences politiques, psycho-sociologie, statistique, data science…). Ils ont aussi la responsabilité d’apporter des informations clés pendant les campagnes électorales, et doivent privilégier des méthodes robustes statistiquement et pas seulement nouvelles.

Pour améliorer les sondages qui sont des outils imparfaits, les professionnels doivent croisent les expertises (sciences politiques, psycho-sociologie, statistique, data science…). La responsabilité d’apporter des informations clés pendant les campagnes électorales conduit à privilégier des méthodes robustes et pas seulement nouvelles.