Pourquoi faut-il se méfier des statistiques ?

Publié le par Marc Tertre

Pourquoi faut-il se méfier des statistiques ?

« Les faits sont têtus, il est plus facile de s'arranger avec les statistiques. » disait Mark Twain. Le domaine des calculs et des raisonnements statistiques est plein de pièges, d'évidences trompeuses, et même d'arnaques : soyons sur nos gardes, car l'intuition est souvent mauvaise conseillère.

Nous sommes de plus en plus confrontés à des données présentées comme objectives et se présentant sous forme statistique. Que ce soit pour la question du pouvoir d’achat (les prix ont-ils ou non augmentés sensiblement à la création de l’euro ? le pouvoir d'achat des classes laborieuses progresse t il ? ), des questions liés à l’emploi ou aux salaires, mais aussi sur la question des offres de connexions a internet (ou un débit moyen permet d’argumenter sur la qualité de la liaison) des statistiques de toutes sortes nous sont proposé, sous une forme qui peut être trompeuse en utlisant la méconnaissance du public pour des données présentées sous la forme la plus acceptable.

Les acteurs de la grande distribution se sont lancés à leur tour dans cette inflation. Ils nous proposent chacun un site « comparateur » qui permet de constater les différences de prix des différentes enseignes. Mais c’est à ce niveau qu’on peut mesurer ce que ces statistiques peuvent avoir de mensonger. Puisque chaque enseigne proclame fièrement sur son site dédié que le moins cher c’est lui. Auchan, Carrefour et Leclerc se proclament chacun les moins chers sur un échantillon hautement significatif de produits. Pourtant, en toute bonne logique, il ne devrait y avoir qu’un seul vainqueur. C’est que les statistiques sont aussi question d'interprétation, de choix des variables et des questions, et nécessitent de faire attention à plusieurs points que les publicitaires se gardent bien de préciser.

L'objectif de ce billet est de vous donner les quelques points qui permettent de s'y retrouver dans la jungle des statistiques.

Une des premières sources d’erreur ou de possible tromperie concerne la façon dont les valeurs statistiques sont élaborées. De multiples exemples peuvent expliquer une augmentation ou une diminution. Par exemple, en 2008 l’état s’était vanté d’une augmentation importante du salaire moyen des fonctionnaires sans que celui là ne bouge « individuellement ». Comment cela était il possible ? Tout simplement parce que cette année là on a intégré des dizaines de milliers de fonctionnaires peu qualifiés de la fonction publique « nationale » à la fonction publique « territoriale » De même en 1959 a-t-on assisté a l’augmentation importante des surfaces cultivées en France conséquence directe d’une modification sur l’impôt foncier (qui rendait intéressant pour les agriculteurs le fait de déclarer comme « prairie » ce qui était autrefois considéré comme friche)

Ces questions rendent souvent les comparaisons internationales peu opérantes. C’est pour cette raison qu’on a édicté des normes rigoureuses sur la façon de récolter des chiffres. Il est à noter que peu de « pays émergents » respectent ces normes (en particulier la Chine qui, même si elle fait des efforts, ne respecte toujours pas ces normes) L’organisation internationale du travail qui est l’organisme certificateur pour les statistiques relevant de son domaine de compétence déplore par exemple le fait que de nombreux pays refusent de souscrire à ses recommandations.

Un autre point susceptible d’induire en erreur concerne la notion trompeuse de moyenne. C’est pour cela qu’on parle non seulement de moyenne, mais aussi de médiane et d’écart-type. Il se trouve qu’on parle de plusieurs moyennes, qui ont chacune leur spécificité. La moyenne « arithmétique » est la plus connue et la plus simple. Elle consiste à faire la somme d’une suite de valeurs et à la diviser par leur nombre. Elle n’est pas forcément significative si le nombre de valeur est faible, et qu’une des valeurs est très différente des autres. Par exemple, une petite entreprise a 5 salariés payés au salaire minimum, et un patron dont les revenus sont de 50000 € par mois, le salaire moyen est de plus de 10000 €, ce qui n’est pas forcément significatif. On utilise également la moyenne « géométrique » et « harmonique ». Mais on utilise également la notion d’écart type», l’écart moyen entre les valeurs (c’est quand l’écart type est faible qu’une moyenne est significative) L’autre notion très utile est celle de « valeur médiane » La valeur médiane est celle qui concerne 50% des valeurs (dans le cas proposé, la valeur médiane des salaires est le smic) Par exemple, en 2010 le salaire moyen était de 2082 € mensuels et le salaire médian de 1608€ selon l’INSEE

Un autre présupposé trompeur des statistiques concerne les corrélations. Cela concerne toutes les informations qui prétendent établir une relation entre un effet et une cause. Par exemple, il y a bien corrélation (et relation de cause à effet) entre la consommation de tabac et certains cancers. Mais cette relation peut aussi être trompeuse. Il y a une statistique qui montre que les gens qui chaussent des souliers d’une taille supérieure à 45 commettent trois fois plus de meurtres que ceux qui chaussent entre 40 et 42. Cela impliquerait-il que les grands souliers induisent des comportements meurtriers ? Rien n’est moins évident… En fait la corrélation réelle est liée au sexe : il se trouve que les comportements meurtriers se retrouvent principalement dans les individus de sexe masculin. Au début des années 50, on a constaté une corrélation extrêmement élevée entre la consommation de bière sur la côte ouest des USA et la mortalité infantile au Japon. En réalité, ces deux éléments n’avaient bien sûr rien à voir l’un avec l’autre. Sauf que, les deux étaient provoqués par une cause commune : une grosse vague de chaleur qui s’était installée dans le pacifique, causant d’une part de graves problèmes sanitaires dans un Japon exsangue et, entraînant d’autre part une consommation accrue de boissons fraîches aux États-Unis.

Beaucoup d’études scientifiques ou prétendues telles sont victimes de ces interprétations abusives. En effet, on peut trouver dans bien des domaines des corrélations de facteurs qui ne sont liés que par leur cause commune. Certains industriels et communicants n’hésitent d’ailleurs pas à se servir des calculs de corrélation pour mettre en avant des conclusions avantageuses pour leurs produits. C’est notamment le cas dans l’industrie alimentaire qui nous assène régulièrement de nouvelles vérités sur les vertus supposées de certains aliments pour la santé, la longévité, la protection contre le cancer ou les maladies cardio-vasculaires. A force d’erreurs, on en finit parfois par douter des informations contradictoires que l’on reçoit de la communauté scientifique.

La statistique peut être comme la langue d’Esope la meilleure ou la pire des choses. Il convient de se méfier des pièges qu’elle recèle tout en se servant de ses résultats. Il est facile de constater son utilisation orientée par les autorités qui l’utilisent uniquement pour orienter leur choix, mais il est possible également de se servir de la puissance de cet outil pour établir y compris pour nous des faits rigoureusement établi. Le livre de Nico Hirtt signalé dans la bibliographie comporte ce passage lumineux dont la citation me servira de conclusion :

Mais la technologie ne suffit pas. Encore faut-il avoir la volonté d’y recourir et, pour cela, avoir la conviction de l’utilité des statistiques dans notre engagement politique, social ou syndical. A cet égard, l’exemple vient d’en haut. Lorsqu’au milieu du 19è siècle le statisticien belge Adolphe Quételet fut le premier à proposer l’usage des statistiques dans l’étude du comportement humain et de la société, un homme lui apporta son soutien, en dépit des vives critiques des autres contemporains. Cet homme s’appelait Karl Marx.
Quételet estimait que le niveau de développement d’une science pouvait se mesurer à son degré de mathématisation (on retrouvera cette thèse dans les ouvrages philosophiques de Marx et d’Engels). Il avait donc commencé à appliquer les statistiques à l’étude de la criminalité. Dans un ouvrage publié en 1835, “Sur l’homme et sur le développement de ses facultés, ou Essai de physique Sociale”, il explique pourquoi les statistiques l’ont amené à considérer que les conditions sociales jouent un rôle prépondérant dans le devenir de l’homme. Selon lui, c’est la société et non l’individu qui est responsable de la criminalité : “La société prépare le crime et les coupables ne sont que les instruments de son exécution (...) Ce crime est le résultat des circonstances où il s’est trouvé placé”. L’expression de “physique sociale”, qui figure dans le sous-titre de son ouvrage, suggère l’idée que l’observation statistique d’un large groupe d’individus serait similaire à l’observation de certaines lois physiques, comme celles de la thermodynamique. Selon Quételet, cette physique sociale — qu’Auguste Compte rebaptisera “sociologie” quelques années plus tard — devrait selon lui “proposer des lois aussi admirables que celles de la mécanique des objets inanimés”.
Karl Marx, qui découvrit l’œuvre de Quételet par sa traduction anglaise de 1842, en fut fortement influencé. Au coeur du développement de sa théorie économique, pour définir la valeur comme le temps de travail social moyen incorporé dans une marchandise, il utilisa le concept de “producteur moyen”, application directe de la notion d’ “homme moyen” imaginée par Quételet. Dans Le Capital, Marx fit d’ailleurs explicitement référence au statisticien belge

Nico Hirtt Op Cit

Bibliographie :

Deux livres sur l'utilisation "militante" des statistiques

Joseph Klazmann Attention statistiques : comment en déjouer les piéges Editions la Découverte

Nico Hirtt Déchiffrer le monde Contre-manuel de statistiques pour citoyens militants Editions Aden 2007

Un livre de référence sur l'histoire de la discipline statistique

Alain Desrosières, La Politique des grands nombres : Histoire de la raison statistique, Paris, La Découverte, 2000,

Publié dans Sciences, Economie

Commenter cet article