Peut-on quantifier la pertinence d'un sondage ?
Je continue mes interrogations sur les sondages. Après un regard venant de l'étranger, je reviens sur ce fameux "lissage" des courbes, et vous propose un petit exercice quantitatif. Toutes mes excuses à ceux qui en ont marre des sondages, je vous rassure : c'est probablement mon dernier billet sur le sujet ! (mais bon, comme j'ai fait joujou avec quelques simulations, autant les raconter ici).
On peut donc voir à l'oeil nu que les courbes des sondages réels semblent plus lisses que les courbes simulant un sondage fait sur un échantillon aléatoire. L'une des questions que je me suis posée ces derniers temps est de savoir si l'on peut déterminer la "plausibilité" d'une série de sondages. Si les sondages sont un peu truqués, un peu cuisinés, un peu arrangés, ils devraient normalement avoir des propriétés statistiques un peu biaisées. Comme l'a fait très bien remarquer FrédéricLN sur son blog, si tous les sondages se plantent de la même façon et dans la même direction, ce n'est pas qu'il y a erreur, mais un vrai biais. Ce qui a été anormal en 2002 n'est pas que quelques sondages se soient trompés, mais bien qu'aucun sondage n'ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement ... dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores).
L'une des caractéristiques des sondages est, on l'a dit, que la marge d'erreur effective semble beaucoup plus faible que la marge d'erreur statistique normale (les fameux 3 pour cents). Qualitativement, cela se traduit par le fait que les courbes des sondages n'explorent pas assez le domaine autour de leurs valeurs moyennes. Théoriquement, on devrait pouvoir regarder la distribution de résultat autour des valeurs moyennes, et montrer qu'on a une déviation de la distribution gaussienne. Le seul problème est que pour faire cela, il faudrait avoir beaucoup, beaucoup de données pour faire de tels sondages... sur les sondages ;) . J'ai fait le test : même avec une vingtaine de sondages, on est encore assez loin de pouvoir récupérer toute la distribution. En revanche, peut-être est-ce déjà suffisant pour avoir des informations sur des paramètres de la distribution...
Il y a un mois maintenant, IPSOS a mis en place une idée originale : un jour, un sondage. Depuis un mois, tous les jours, je note scrupuleusement le résultat du jour. La méthodologie est la suivante : tous les jours, 300 à 400 personnes sont interrogées, et leurs réponses sont mises en commun avec celles des sondés des deux jours précédents pour faire un échantillon représentatif d'un peu plus de mille personnes. Aujourd'hui, nous avons donc un ensemble de résultats très intéressants à étudier : plus de 23 sondages consécutifs, réalisés dans une période assez courte, avec strictement les mêmes méthodes. Un banc d'essai idéal pour essayer de débusquer les "ajustements" des sondeurs !
A défaut de pouvoir tracer une jolie gaussienne, j'ai essayé de trouver un moyen de comparer l'évolution sur ce mois à une évolution qui serait "typique" d'un sondage. J'ai donc simulé un million de séries de 23 sondages suivant la même méthodologie (3 x 333 personnes donnant une réponse, le résultat au temps t est moyenné avec le résultat au temps t-2 et t-1, et arrondi au demi-point, je garde les résultats à partir de t=2, donc fais en fait 25 sondages), et ai essayé de caractériser certaines propriétés statistiques sur ces sondages, afin de voir si la courbe réelle partageait les caractéristiques "typiques" de sondages simulées. Pour caractériser le lissage des courbes, je me suis plus particulièrement intéressé à la distribution des scores minimaux et maximaux sur la série de sondages. Mon hypothèse est que le score "réel" de Sarkozy est à 53 % (qui est le pic de la distribution, la moyenne étant à 53.15 - ce qui est cohérent). Sauf erreur de ma part (qu'on ne peut jamais exclure, j'en profite pour dire que ceci n'est pas un article scientifique, je n'ai pas les temps de tout vérifier 50 000 fois comme je le ferais pour un vrai article et croyez-moi, j'y ai déjà passé du temps ;) !), la courbe bleue montre la distribution de scores minimas sur une série de 23 sondages, la courbe verte montre la distribution de scores maximas sur la même série, la courbe rouge est la distribution de résultats du sondage IPSOS. Ce que nous dit la courbe bleue, c'est que statistiquement, sur une série de 23 sondages centrés autour de 53%, 20% ont un score minimum de 50.5, 20% ont un score minimum autour de 50%. C'est bien normal sachant que la marge d'erreur est d'environ 3%. De la même façon, la courbe verte nous dit que dans 20% des séries de 23 sondages, le score du candidat monte à 55.5 ou 56 % (1).
Examinons maintenant la courbe rouge. En réalité, le score minimum de Sarkozy sur la série de 23 sondages est 52%, le score maximum, 54.5 %. On voit très bien sur cette courbe que ces deux scores sont dans les queues de gaussiennes respectives des distributions des scores maxima et minima. Plus précisément, dans mes simulations, seulement 4% des sondages ont un score minimum supérieur ou égal à 52 %, et seulement 15 % des sondages ont un score maximum inférieur ou égal à 54.5%. Cela voudrait dire que le sondage réel est dans une zone statistiquement insignifiante : seulement 0.6% des sondages réels ont des distributions similaires. Si vous préférez, si on refaisait cette série de 23 sondages plusieurs fois, théoriquement, plus de 99% des sondages devraient monter plus haut ou descendre plus bas que ce qui est effectivement observé. Admettons maintenant que je baisse ma tolérance d'un demi-point : dans mes simulations, environ 12% des sondages ont un score minimum supérieur ou égal à 51.5%, 32% des sondages ont un score maximum inférieur ou égal à 55%, cela donne à peu près 4% des sondages avec des écarts maximum-minimum similaires. Cela ne devient pas complètement improbable, mais reste assez faible...
Vous l'aurez noté dans ce petit exercice, ce qui rend la distribution improbable n'est pas tant la distribution individuelle du minimum et du maximum (qui sont ici en fait assez indépendants), mais le fait que les deux scores minima et maxima soient simultanément respectivement grand et petit. Je me suis donc amusé à représenter dans le graphique ci-contre le nombre de séries de sondages aléatoires donnant à la fois un pourcentage maximum et un pourcentage minimum donné. Sans surprise, on obtient une bosse à peu près gaussienne. La cote d'un point est proportionnelle à la probabilité d'observer un sondage avec un couple maximum, minimum donné. La flèche magenta indique la série actuelle IPSOS. Ce qui est intéressant est qu'on a immédiatement un point de comparaison avec tous les autres sondages : une région à cote zéro est très improbable , tandis que les sondages en haut de la bosse, s'ils sont individuellement relativement improbables (seulement 5% des sondages sont pile au sommet de la bosse avec mon choix d'arrondi) sont collectivement assez probables (par exemple 30% des sondages sont au-dessus de la ligne bleue ciel). On voit très bien que les sondages réels sont ... tout en bas de la bosse, dans une zone assez improbable.
En fait, on retrouve tout simplement l'effet décrit précédemment : l'exploration autour de la valeur moyenne est ridicule - avec un score "réel" d'environ 53%, le sondage descend au minimum à 52% et monte au maximum à 54.5%. Dans une série 23 sondages, 90% de mes simulations explorent l'intervalle 51%-55%, et une bonne fraction des sondages devraient même descendre à 50% et monter à 56%. On a donc en réalité dans le sondage IPSOS une marge d'erreur "effective" de 1 à 2% ici (à comparer avec les 3-4% annoncés sur le site); cela correspondrait à une population effective sondée d'au moins 2500 personnes. On parle beaucoup d'ajustements des scores au premier tour, mais à mon avis on voit très bien sur cet exemple que ces scores de deuxième tour semblent eux aussi très arrangés, malgré l'absence de vote Le Pen. Peut-être les sondeurs ont-ils des super méthodes statistiques qu'ils nous cachent (pourquoi alors annoncer une marge d'erreur de 3% ?): cette série de sondages est complètement conforme à un score de 53% de Sarkozy; ce qui est juste très étrange est cette marge d'erreur complètement rabotée. Peut-être les échantillons ne sont-ils pas assez variés (après tout, peut-être les sondeurs ne sondent-ils réellement que 2500 personnes, toujours les mêmes - cela pourrait expliquer bien des choses...). Peut-être les sondeurs ont-ils aussi un flair extraordinaire qui leur permet de jauger en permanence l'opinion publique réelle. Peu importe; dans tous les cas, pour répondre à la question du titre, pour moi, il est clair qu'on peut estimer la plausibilité de ce genre de séries de sondages et s'apercevoir qu'il manque quelque chose pour expliquer le résultat.
(1) Notez d'ailleurs que les deux distributions ne sont pas complètement symétriques par rapport à 53; j'ai fait pas mal de tests et pense que c'est un effet de la discrétisation.