Erreurs de data-visualisation : ne tombez pas dans le piège de la moyenne

Qu’on ne croie pas que la visualisation de données (data visualisation) n’est qu’une affaire de mathématique.
Il y entre aussi beaucoup de psychologie. Il est très facile, lorsqu’on cherche à “démontrer” quelque chose ou à préparer une décision de vouloir “faire parler les chiffres” en forçant la psychologie des lecteurs et en introduisant des biais d’interprétation.

Exemple classique d’erreur de data-visualisation : le piège de la moyenne

Le piège de la moyenne

Vous avez forcément déjà lu des phrases telles que : “l’Européen moyen boit un litre de bière par jour”.

Et vous vous êtes demandé qui était ce mystérieux “Européen moyen” et où vous pourriez le rencontrer.

Evidemment, il n’existe pas. Dans certains pays, les gens boivent plus de vin que de bière. Il y a même des gens qui ne boivent pas d’alcool du tout. Les enfants notamment. 

Ils ne peuvent pas boire, eux, un litre de bière par jour !

Les gens qui profèrent ce genre d’assertion partent en général d’un grand nombre comme “chaque année 109 milliards de litres de bière sont consommés en Europe”. Et ensuite, ils divisent ce chiffre par le nombre de jours par an et le total de la population en Europe.

Ceci fait tout à fait sens, si les données sont normalement distribuées.
Et quand on dit ici “normalement”, c’est au sens d’une distribution “normale” en stastitiques, c’est-à-dire conforme à la loi de Gauss, dite loi normale, en clair une répartition en cloche, comme ci-dessous.

Cette image montre trois distributions normales. Elles ont toute la même moyenne. Et pourtant, elles ne racontent pas du tout la même histoire. Ce que la moyenne ne vous dit pas, ce sont les écarts autour de cette moyenne.

En outre, très souvent, on ne se trouve même pas en face de distribution normale.
Prenez une donnée telle que les revenus.

La notion de “revenu moyen” par exemple laisse entendre à votre cerveau un chiffre magique. La moitié de la population gagne moins que ce chiffre, l’autre moitié gagne plus. Voilà ce que notre oreille entend (à tort) lorsqu’on prononce ce mot et voilà ce que notre cerveau visualise.

Mais c’est faux. Généralement, la plupart des gens gagneront moins que ce chiffre magique. Tout simplement parce que les revenus ne sont pas “normalement” distribués. Le mot “normalement”, encore une fois, n’ayant rien à voir avec une opinion quelconque, mais avec la loi statistique dite “normale”. Leur répartition ne suit pas cette loi.

Ceci est la répartition des revenus aux USA en dollars pour les foyers gagnant jusqu’à 200 000 US$. On note qu’il y a une longue traîne qui fausse la perception de “moyenne” que nous en avons.

Si le revenu moyen augmente, cela peut être parce que la plupart des gens gagne plus. Mais cela peut tout aussi être parce que quelques uns parmi les plus hauts revenus gagnent encore plus.

Les économistes connaissent bien ce problème et ont ajouté une autre valeur pour analyser les choses.
Le  coefficient de GINI  donne des indications sur la distribution des revenus et ce coefficient est désormais au coeur des débats des économistes travaillant sur les revenus.

En travaillant sur les données, vous aurez donc très souvent des cas où l’utilisation de la moyenne pose problème.
Où elle ne raconte pas grand chose.

Comment faire ?

Exprimez les résultats en indiquant les écarts : dites plutôt “l’Européen boit entre 0 et 5 litres de bière par jour, avec un moyenne à 1 litre”.

Utilisez la notion de “médiane”. Parlez plutôt du salaire médian, celui autour duquel se répartissent équitablement les deux moitiés de la population.

source :  schoolofdata

 

 

Ces réflexions sur la data visualization vous intéressent ?
Suivez notre série d’articles sur le sujet.

Et pour cela , abonnez-vous à notre newsletter “En direct des bacs à sable”.
Cette newsletter vous informera de que nous publions ici et de ce qui se publie ailleurs sur ce type de sujets..

Abonnez-vous au plus vite.
Découvrez les trésors des bacs à sable, cliquez sur l’image….

Vous aimerez aussi : 

Cette erreur de data visualisation qu’adorent les publicitaires