Tom Roud: Peut-on quantifier la pertinence d'un sondage ?

Je continue mes interrogations sur les sondages. Après un regard venant de l'étranger, je reviens sur ce fameux "lissage" des courbes, et vous propose un petit exercice quantitatif. Toutes mes excuses à ceux qui en ont marre des sondages, je vous rassure : c'est probablement mon dernier billet sur le sujet ! (mais bon, comme j'ai fait joujou avec quelques simulations, autant les raconter ici).

On peut donc voir à l'oeil nu que les courbes des sondages réels semblent plus lisses que les courbes simulant un sondage fait sur un échantillon aléatoire. L'une des questions que je me suis posée ces derniers temps est de savoir si l'on peut déterminer la "plausibilité" d'une série de sondages. Si les sondages sont un peu truqués, un peu cuisinés, un peu arrangés, ils devraient normalement avoir des propriétés statistiques un peu biaisées. Comme l'a fait très bien remarquer FrédéricLN sur son blog, si tous les sondages se plantent de la même façon et dans la même direction, ce n'est pas qu'il y a erreur, mais un vrai biais. Ce qui a été anormal en 2002 n'est pas que quelques sondages se soient trompés, mais bien qu'aucun sondage n'ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement ... dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores).

L'une des caractéristiques des sondages est, on l'a dit, que la marge d'erreur effective semble beaucoup plus faible que la marge d'erreur statistique normale (les fameux 3 pour cents). Qualitativement, cela se traduit par le fait que les courbes des sondages n'explorent pas assez le domaine autour de leurs valeurs moyennes. Théoriquement, on devrait pouvoir regarder la distribution de résultat autour des valeurs moyennes, et montrer qu'on a une déviation de la distribution gaussienne. Le seul problème est que pour faire cela, il faudrait avoir beaucoup, beaucoup de données pour faire de tels sondages... sur les sondages ;) . J'ai fait le test : même avec une vingtaine de sondages, on est encore assez loin de pouvoir récupérer toute la distribution. En revanche, peut-être est-ce déjà suffisant pour avoir des informations sur des paramètres de la distribution...

Il y a un mois maintenant, IPSOS a mis en place une idée originale : un jour, un sondage. Depuis un mois, tous les jours, je note scrupuleusement le résultat du jour. La méthodologie est la suivante : tous les jours, 300 à 400 personnes sont interrogées, et leurs réponses sont mises en commun avec celles des sondés des deux jours précédents pour faire un échantillon représentatif d'un peu plus de mille personnes. Aujourd'hui, nous avons donc un ensemble de résultats très intéressants à étudier : plus de 23 sondages consécutifs, réalisés dans une période assez courte, avec strictement les mêmes méthodes. Un banc d'essai idéal pour essayer de débusquer les "ajustements" des sondeurs !

A défaut de pouvoir tracer une jolie gaussienne, j'ai essayé de trouver un moyen de comparer l'évolution sur ce mois à une évolution qui serait "typique" d'un sondage. J'ai donc simulé un million de séries de 23 sondages suivant la même méthodologie (3 x 333 personnes donnant une réponse, le résultat au temps t est moyenné avec le résultat au temps t-2 et t-1, et arrondi au demi-point, je garde les résultats à partir de t=2, donc fais en fait 25 sondages), et ai essayé de caractériser certaines propriétés statistiques sur ces sondages, afin de voir si la courbe réelle partageait les caractéristiques "typiques" de sondages simulées. Pour caractériser le lissage des courbes, je me suis plus particulièrement intéressé à la distribution des scores minimaux et maximaux sur la série de sondages. Mon hypothèse est que le score "réel" de Sarkozy est à 53 % (qui est le pic de la distribution, la moyenne étant à 53.15 - ce qui est cohérent). Sauf erreur de ma part (qu'on ne peut jamais exclure, j'en profite pour dire que ceci n'est pas un article scientifique, je n'ai pas les temps de tout vérifier 50 000 fois comme je le ferais pour un vrai article et croyez-moi, j'y ai déjà passé du temps ;) !), la courbe bleue montre la

distribution de scores minimas sur une série de 23 sondages, la courbe verte montre la distribution de scores maximas sur la même série, la courbe rouge est la distribution de résultats du sondage IPSOS. Ce que nous dit la courbe bleue, c'est que statistiquement, sur une série de 23 sondages centrés autour de 53%, 20% ont un score minimum de 50.5, 20% ont un score minimum autour de 50%. C'est bien normal sachant que la marge d'erreur est d'environ 3%. De la même façon, la courbe verte nous dit que dans 20% des séries de 23 sondages, le score du candidat monte à 55.5 ou 56 % (1).
Examinons maintenant la courbe rouge. En réalité, le score minimum de Sarkozy sur la série de 23 sondages est 52%, le score maximum, 54.5 %. On voit très bien sur cette courbe que ces deux scores sont dans les queues de gaussiennes respectives des distributions des scores maxima et minima. Plus précisément, dans mes simulations, seulement 4% des sondages ont un score minimum supérieur ou égal à 52 %, et seulement 15 % des sondages ont un score maximum inférieur ou égal à 54.5%. Cela voudrait dire que le sondage réel est dans une zone statistiquement insignifiante : seulement 0.6% des sondages réels ont des distributions similaires. Si vous préférez, si on refaisait cette série de 23 sondages plusieurs fois, théoriquement, plus de 99% des sondages devraient monter plus haut ou descendre plus bas que ce qui est effectivement observé. Admettons maintenant que je baisse ma tolérance d'un demi-point : dans mes simulations, environ 12% des sondages ont un score minimum supérieur ou égal à 51.5%, 32% des sondages ont un score maximum inférieur ou égal à 55%, cela donne à peu près 4% des sondages avec des écarts maximum-minimum similaires. Cela ne devient pas complètement improbable, mais reste assez faible...

Vous l'aurez noté dans ce petit exercice, ce qui rend la distribution improbable n'est pas tant la distribution individuelle du minimum et du maximum (qui sont

ici en fait assez indépendants), mais le fait que les deux scores minima et maxima soient simultanément respectivement grand et petit. Je me suis donc amusé à représenter dans le graphique ci-contre le nombre de séries de sondages aléatoires donnant à la fois un pourcentage maximum et un pourcentage minimum donné. Sans surprise, on obtient une bosse à peu près gaussienne. La cote d'un point est proportionnelle à la probabilité d'observer un sondage avec un couple maximum, minimum donné. La flèche magenta indique la série actuelle IPSOS. Ce qui est intéressant est qu'on a immédiatement un point de comparaison avec tous les autres sondages : une région à cote zéro est très improbable , tandis que les sondages en haut de la bosse, s'ils sont individuellement relativement improbables (seulement 5% des sondages sont pile au sommet de la bosse avec mon choix d'arrondi) sont collectivement assez probables (par exemple 30% des sondages sont au-dessus de la ligne bleue ciel). On voit très bien que les sondages réels sont ... tout en bas de la bosse, dans une zone assez improbable.

En fait, on retrouve tout simplement l'effet décrit précédemment : l'exploration autour de la valeur moyenne est ridicule - avec un score "réel" d'environ 53%, le sondage descend au minimum à 52% et monte au maximum à 54.5%. Dans une série 23 sondages, 90% de mes simulations explorent l'intervalle 51%-55%, et une bonne fraction des sondages devraient même descendre à 50% et monter à 56%. On a donc en réalité dans le sondage IPSOS une marge d'erreur "effective" de 1 à 2% ici (à comparer avec les 3-4% annoncés sur le site); cela correspondrait à une population effective sondée d'au moins 2500 personnes. On parle beaucoup d'ajustements des scores au premier tour, mais à mon avis on voit très bien sur cet exemple que ces scores de deuxième tour semblent eux aussi très arrangés, malgré l'absence de vote Le Pen. Peut-être les sondeurs ont-ils des super méthodes statistiques qu'ils nous cachent (pourquoi alors annoncer une marge d'erreur de 3% ?): cette série de sondages est complètement conforme à un score de 53% de Sarkozy; ce qui est juste très étrange est cette marge d'erreur complètement rabotée. Peut-être les échantillons ne sont-ils pas assez variés (après tout, peut-être les sondeurs ne sondent-ils réellement que 2500 personnes, toujours les mêmes - cela pourrait expliquer bien des choses...). Peut-être les sondeurs ont-ils aussi un flair extraordinaire qui leur permet de jauger en permanence l'opinion publique réelle. Peu importe; dans tous les cas, pour répondre à la question du titre, pour moi, il est clair qu'on peut estimer la plausibilité de ce genre de séries de sondages et s'apercevoir qu'il manque quelque chose pour expliquer le résultat.

(1) Notez d'ailleurs que les deux distributions ne sont pas complètement symétriques par rapport à 53; j'ai fait pas mal de tests et pense que c'est un effet de la discrétisation.

6 commentaires:

Genev.Tabouis ! a dit…: -----Message d'origine-----
De : genev.tabouis@free.fr [mailto:genev.tabouis@free.fr]
Envoyé : lundi 26 mars 2007 02:58
À : genev.tabouis@free.fr
Objet : Form2Mail

Commentaires : Juste une remarque un peu gênante : la somme des quatre candidats principaux frôle, voir dépasse les 100 % dans certaines de vos projections. Ce n'est probablement pas hyper réaliste; je ne sais pas exactement comment vous faites vos projections polynômiales, mais il est clair que lorsque le temps va augmenter, vous allez amplifier les petites erreurs faites proches du temps 0 ( c'est un effet bien connu lorsqu'on choisit une base de monômes par exemple. Peut-être cela marcherait-il mieux avec une base type polynômes de Lagrange).
------------------------

Bonne remarque : pas moyen d'assujettir les fonctions polynomiales pour respecter une condition du genre "x+y+z+t <= 85%" par exemple, du moins avec l'outil Excel que j'utilise...
Les polynômes utilisés sont du 3eme au 6eme degré, et tiennent donc plus ou moins des micro variations et des tendances les plus récentes.
Merci pour votre visite .
Nouvelles pages en ligne,
Nouvelle présentation
Nouvelles tendances avec erreurs relatives

Merci de votre visite
http://genev.tabouis.free.fr/les_sondages.htm
http://genev.tabouis.free.fr/sondages_extrapolations.htm; 31 mars, 2007 23:49
Anonyme a dit…: Ah non, n'arrete pas les posts sur les sondages...

Un truc que tu pourrais essayer maintenant que tu as toutes les simuls en main : qu'est-ce qui se passe si tu moyennes les resultats d'un sondages par rapport au sondage precedent, comme cela a ete decrit dans l'article precedent. Est-ce que cela suffit a reproduire la distribution IPSOS ?; 01 avril, 2007 02:18
Anonyme a dit…: Bravo !; 01 avril, 2007 03:04
Tom Roud a dit…: @ geneviève : tout le monde ne doit pas comprendre, le mail qui commence par "Commentaires" est de ma main et commentait les "projections" de tendances de sondages qu'on peut trouver sur son site web.

@ blop : merci de ton soutien ;) , mais bon, de toutes façons, je ne trouve plus grand chose d'original à dire, ma religion est faite sur le sujet, et je pense avoir avec ces simuls une idée du degré de tripatouillage.
Sinon, je pourrais essayer effectivement de moyenner, mais c'est assez pervers vu que chaque sondage est lui même une moyenne sur trois jours consécutifs, à dire vrai je ne saurais pas trop avec quels sondages précédents moyenner sans donner artificiellement du poids à des jours particuliers.

@Frédéricln : merci ;); 01 avril, 2007 11:49
Anonyme a dit…: "Ce qui a été anormal en 2002 [est] qu'aucun sondage n'ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement ... dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores)."

Vrai calcul ou pifomètre ? Te connaissant, je dirais "vrai calcul", mais je compte sur toi pour détailler un peu...; 02 avril, 2007 00:49
Tom Roud a dit…: @ Enro : pour répondre rapidement, je dirais un peu des deux.
Quand tu lis l'article du Canard de cette semaine, tu vois clairement le gros problème d'échantillonnage dont parle Claire Durand dans son article : j'imagine que c'était la même chose en 2002 et que les chiffres bruts de Le Pen étaient assez bas. Je ferais d'ailleurs au Canard le même reproche qu'aux autres là-dessus en critiquant les méthodes de redressement et pas le mauvais choix d'échantillon qui est patent. Quant aux questions sur l'élection précédente, c'est manifestement une mauvaise méthode : là encore, le Canard s'étonne que la moitié des sondés de 95 affirmaient avoir voté Mitterrand en 88, mais peut-être est-ce vrai, peut-être par exemple que les bobos et les CSP+ comme on dit, qui sont paraît-il surreprésentés dans les sondages, ont réellement voté en majorité pour Mitterrand en 88.

Après, comme l'échantillonnage est manifestement pourri, chacun a ses méthodes pour donner le bon score, méthodes qui relèvent à la fois du pifomètre et du "wishful thinking". Si Le Pen était à 7% dans les sondages réels, il paraît difficile d'aller le mettre à 16% dans les sondages réels sachant que Jospin devait effectivement être lui aussi à 16% dans ceux-ci - rayer 9% d'un trait de plume, ça fait quand même un peu manipulation politique ! Malgré tout, je me souviens qu'en 2002, un article du Monde avant le premier tour avait évoqué l'hypothèse Le Pen devant Jospin (je me souviens très bien que mes copains s'étaient foutus de ma gueule à l'époque quand je leur avais montré cet article, j'aimerais d'ailleurs bien remettre la main dessus).

En fait, je pense qu'on devrait faire des sondages un peu à la manière des questionnaires de psychologie pour débusquer les pathologies mentales. Par exemple, il paraît que le meilleur moyen de détecter des paranoïaques est de poser des questions du genre :"avez-vous déjà eu des ennemis ?" ou "avez-vous des personnes hostiles dans votre entourage ?". La plupart des gens répondent "parfois", ou "je ne sais pas"; les paranoïaques sont systématiquement dans la dénégation totale. On pourrait faire par exemple un sondage du genre :
" A propos de l'ordre, vous pensez :
- qu'il doit être juste ?
- équilibré entre la gauche et la droite ?
- déterminé par les lois dictées par le ministre de l'Int... euh pardon, par le Président ?
- l'ordre, c'est l'ordre, d'ailleurs "l'ordre est générateur d'harmonie"
"; 02 avril, 2007 04:37