Ces erreurs à éviter en visualisation de données

Data visualization : 10 erreurs classiques Risquez-vous de les commettre ?

Risquez-vous de commettre ces 10 erreurs en data visualization ?

Data visualization = statistiques + psychologie

 

Quoi de mieux pour parler statistiques que de commencer par une équation.
La visualisation de données ou data visualization = statistiques + psychologie.

L’objectif de cette discipline étant bien de “faire parler les données”, il s’agit de rendre compréhensible d’un seul coup d’oeil l’information principale contenue dans une série de données.

On la publiera donc sous forme de camemberts, histogrammes, etc.

Résultat : les erreurs que l’on peut commettre dans ce métier seront de deux ordres :

  • mal décrire la réalité stastistique.
  • forcer la psychologie des lecteurs et introduire des biais d’interprétation.

Rien n’empêchant de mixer les deux afin de parvenir au top ten des plus belles boulettes de dataviz, comme on dit dans le métier.

Passons en revue les plus intéressantes.

 

1. Tomber dans le piège de la moyenne

Vous avez forcément déjà lu des phrases telles que : “l’Européen moyen boit un litre de bière par jour”.

Et vous vous êtes demandé qui était ce mystérieux “Européen moyen” et où vous pourriez le rencontrer.

Evidemment, il n’existe pas. Dans certains pays, les gens boivent plus de vin que de bière. Il y a même des gens qui ne boivent pas d’alcool du tout. Les enfants notamment. Ils ne peuvent pas boire, eux, un litre de bière par jour !

Les gens qui profèrent ce genre d’assertion partent en général d’un grand nombre comme “chaque année 109 milliards de litres de bière sont consommés en Europe”. Et ensuite, ils divisent ce chiffre par le nombre de jours par an et le total de la population en Europe.

Ceci fait tout à fait sens, si les données sont normalement distribuée.
Et quand on dit ici “normalement”, c’est au sens d’une distribution “normale” en stastitiques, c’est-à-dire conforme à la loi de Gauss, dite loi normale, en clair une répartition en cloche, comme ci-dessous.

 

https://i0.wp.com/farm9.staticflickr.com/8301/7899098946_4839cc2ed3_b_d.jpg

 

Cette image montre trois distributions normales. Elles ont toute la même moyenne. Et pourtant, elles ne racontent pas du tout la même histoire. Ce que la moyenne ne vous dit pas, ce sont les écarts autour de cette moyenne.

En outre, très souvent, on ne se trouve même pas en face de distribution normale.
Prenez une donnée telle que les revenus.

La notion de “revenu moyen” par exemple laisse entendre à votre cerveau un chiffre magique. La moitié de la population gagne moins que ce chiffre, l’autre moitié gagne plus. Voilà ce que notre oreille entend (à tort) lorsqu’on prononce ce mot et voilà ce que notre cerveau visualise.

Mais c’est faux. Généralement, la plupart des gens gagneront moins que ce chiffre magique. Tout simplement parce que les revenus ne sont pas “normalement” distribués. Le mot “normalement”, encore une fois, n’ayant rien à voir avec une opinion quelconque, mais avec la loi statistique dite “normale”. Leur répartition ne suit pas cette loi.

https://i1.wp.com/farm9.staticflickr.com/8320/7995322063_5c8b05b458_o_d.png

Ceci est la répartition des revenus aux USA en dollars pour les foyers gagnant jusqu’à 200 000 US$. On note qu’il y a une longue traîne qui fausse la perception de “moyenne” que nous en avons.

Si le revenu moyen augmente, cela peut être parce que la plupart des gens gagnent plus. Mais cela peut tout aussi être parce que quelques uns parmi les plus hauts revenus gagnent encore plus.

 

Les économistes connaissent bien ce problème et ont ajouté une autre valeur pour analyser les choses.
Le  coefficient de GINI  donne des indications sur la distribution des revenus et ce coefficient est désormais au coeur des débats des économistes travaillant sur les revenus.

En travaillant sur les données, vous aurez donc très souvent des cas où l’utilisation de la moyenne pose problème.
Où elle ne raconte pas grand chose.

Comment faire ?

Exprimez les résultats en indiquant les écarts : dites plutôt “l’Européen boit entre 0 et 5 litres de bière par jour, avec un moyenne à 1 litre”.

Utilisez la notion de “médiane”. Parlez plutôt du salaire médian, celui autour duquel se répartissent équitablement les deux moitiés de la population.

source :  schoolofdata

 

2. Faire parler une moyenne qui ne dit rien

Sorte de cas particulier du sujet précédent : faire parler une moyenne pour ne rien dire. Ou plutôt, ne pas lui faire dire ce qu’il faut.

Par exemple, analysons le panier moyen mensuel dans un magasin. La première courbe montre que les choses vont bien, puisque ce panier moyen augmente régulièrement, mois par mois.

 

DataHero Average Order Value by Month

 

Pourtant, si on analyse les différents types de moyennes (les paniers moyens par catégories de clients), on se rend compte d’où provient le fait que les choses vont bien.

 

DataHero Average Order Value by Department by Month (1)
Le panier moyen chez les clientes explose et vient combler les trous d’air dans les ventes des autres catégories.

Ne pas voir cela est dommage pour l’entreprise qui ne pourra adapter ses ressources en fonction de la demande et corriger les endroits où apparaissent des difficultés. 

 

3. Créer un camembert absurde 

Il peut être tentant dans la situation ci-dessus de faire la synthèse de ces données en créant un camembert reprenant les différents paniers moyens. Mais quel est le sens d’un tel graphique ? 

Un camembert n’a d’intérêt que s’il représente les différentes parts d’un tout. Mais comment pouvez-vous présenter les différentes parts d’une moyenne ?

La “contribution de chaque département au panier moyen global” que représente ce camembert perd beaucoup plus d’informations qu’il n’en apporte et fait travailler le cerveau du lecteur pour… rien !

 

DataHero Order Value by Department

4. Présenter les camemberts dans le désordre

D’un strict point de vue statistiques, l’ordre dans lequel vous allez présenter les différents acteurs qui se “répartissent” un tout n’a aucune importance.


Si, sur le marché des colas, Coca et Pepsi se taillent la part du lion, suivis par tout un tas de petites marques bien loin derrière, peu importe dans quel ordre vous présentez les données.

Enfin, ça, c’est sans doute ce que vous disait le prof de maths en terminale.

Mais le cerveau des lecteurs à qui vous allez présenter la chose ne “capteront” pas du tout la même information selon l’ordre que vous choisirez pour présenter votre camembert “qui détient telle part de marché”.

 

Hubspot a ainsi identifié deux possibilités pour présenter un camembert “qui parle”.

Option 1: placez le numéro 1 à midi, et étalez la part de camembert qu’il représente dans le sens des aiguilles d’une montre. Placez le numéro 2 à midi (à côté du numéro 1 mais à sa gauche donc) et étalez sa part dans le sens inverse des aiguilles d’une montre. Les suivants, se placent donc au-dessous.

 

charts-tip1_1

 

Option 2:  placez  le numéro 1 à midi et étalez la morceau de camembert qu’il représente dans le sens des aiguilles d’une montre, puis le numéro 2 dans le même sens, et ainsi de suite, par ordre décroissant.

 

charts-tip1_2

 

Regardez ces images et demandez-vous quelle conclusion vous en tirez dans la demi-seconde qui suit le moment où vos yeux se posent sur le graphique.
Immédiatement, vous vous rendrez compte que votre cerveau a besoin de moins d’effort pour interpréter ce que disent les camemberts que hubspot a cochés en vert.

 

 

 

5. Ne pas se méfier des “autres”

 

Oui, il faut se méfier des autres. Nous voulons parler de la catégorie “autres”. Souvent, pour résumer et faciliter la lecture, on va concentrer son analyse sur les principaux acteurs d’une série statistique (par exemple le top ten), sur lesquels on va s’appesantir et puis, comme il faut bien que la somme du tout fasse 100%, on va  résumer ceux qui suivent dans une catégorie “autres”.

 

Le problème survient quand la catégorie “autres” est plus grande que la somme de toutes les précédents.
Par exemple, ci-dessous. Le premier graphique vous laisse penser que le top ten de cette série embrasse toute la population étudiée.

 DataHero Top Ten Subreddits

 

Le second graphique, pourtant, raconte une toute autre histoire. Celle de la théorie de la longue traîne.

 

DataHero Top 10 Subreddits


Or, dans les modèles économiques actuels (et donc dans la data visualization destinée au marketing, par exemple), on est toujours à l’affût des phénomènes de longues traînes. C’est souvent là que se trouvent les profits futurs. Il serait dommage de les perdre en route.

source : Datahero.

 

6. Laisser faire trop de travail au lecteur

Ne jouez pas au “moins je me mouille, mieux je fais mon travail”. 
En matière de data-visualization, il faut que votre travail se voit.  Ne laissez donc pas les données brutes, même si, de façon impressionniste, elles expriment quelque chose. 

N’oubliez pas de bien montrer  les tendances, et comme ici, marquez bien nettement les droites de régression. 

chart_tip5

 

7. Se tromper dans les échelles 

Utiliser des représentations graphiques originales est très bien.
Aller chercher par exemple des bulles pour bien montrer les tailles de deux populations différentes est parfait !

Cependant, si vous voulez montrer que la taille de la population B est deux fois la taille de la population A, c’est la surface de votre bulle n°2 qui doit être le double de la surface de la bulle n°1. 

Or la surface d’un cercle, c’est S=π xr²

On ne double pas la surface d’un cercle A en multipliant par 2 son diamètre !

 

chart-tip6

8. Ne pas construire ses échantillons au hasard.

On a de plus en plus tendance à utiliser des séries statistiques tirées de sources telles que les “sondages” internet (des questionnaires en ligne). 

Problème : la validité statistique de telles séries est nulle si l’échantillon de la population qui répond n’est pas tirée au hasard (ou construite en reconstituant le hasard, selon la méthode des quotas). 

Certes, plus la population qui répond est importante, moins ce biais joue, en raison de la loi des grands nombres. Mais grand nombre veut vraiment dire grand nombre. Et la tendance actuelle, notamment dans le recours à ces pseudo-sondages consiste à considérer que, même petit, le nombre est assez “grand”. Ce qui est forcément biaisé.


9. Confondre corrélation et causalité.

De nombreuses études épidémiologiques montrent que les femmes  suivant les traitements hormonaux (HRT) ont aussi un nombre plus faible de maladies coronariennes. De grands médecins en ont déduit que les traitement hormonaux étaient protecteurs contre les maladies coronariennes.

Alors on a poursuivi l’enquête, raconte cet article de Wikipedia, avec des échantillons au hasard et des tests sur ces échantillons. Et on s’est alors rendu compte du contraire : la prise de HRT augmentait l’incidence des maladies coronariennes. 
En poursuivant l’enquête, on s’est alors aperçu que les femmes qui s’engageaient dans l’hormonothérapie appartenaient plus souvent à des groupes socio-économiques plus élevés, avec un meilleur équilibre alimentaire et les moyens d’avoir une meilleure hygiène de vie. 

En d’autres termes, les phénomènes “prise de HRT” et “survenue d’une maladie coronarienne” avaient eux-mêmes une cause commune, mais n’avaient rien à voir entre eux, comme on pouvait le croire en première lecture. 

Confondre corrélation et causalité est une erreur de logique comme tant d’autres. 

Dès l’instant où l’on a établi une corrélation, il convient d’aller plus loin. Notamment, en ayant recours à des outils statistiques tels que le test de causalité de Granger  ou le test CCM

 

10. Ne pas tenir compte des faux positifs.

Imaginez que vous venez d’installer un système de contrôle hyper-performant dans votre boutique. Il a une précision de 99% pour identifier les vols. 

L’alarme se déclenche. Quelle est la probabilité que la personne qui a déclenché l’alarme ait commis un vol ?

Vous allez répondre spontanément : et ben …99% ! 

C’est tentant, n’est-ce-pas ? Pourtant c’est faux !

Explication.
Dans votre boutique, il y a des gens honnêtes et des voleurs. Supposons qu’il y a 10 000 personnes clients honnêtes et 1 voleur. Chacun d’eux va passer le contrôle. 

L’alarme va donc se déclencher 101 fois. 
100 fois puisque l’alarme a une fiabilité de 99%. Elle va donc se déclencher à tort dans 1% des cas, soit 100 fois.
1 fois puisque l’alarme va détecter le vrai voleur.

La probabilité pour qu’une personne ayant déclenché l’alarme soit un voleur est donc de 1/101 = 0.99%

Surestimer la probabilité d’un événement de ce type est un scénario connu des psychologues. C’est l’erreur d’oubli du contexte base rate fallacy. Elle est à l’origine de la mauvaise interprétation des importants “faux positifs” dans les systèmes de détection de masse (sécurité des aéroports, etc. ).

Il ne suffit pas de prendre en compte les variables d’efficacité concernant l’appareil de détection (le moyen de mesurer). Il faut aussi prendre en compte les caractéristiques de la population globale elle-même. La probabilité que l’événement survienne dépend des deux. Pas uniquement de sa mesure.

Autre exemple : un médecin aura d’autant moins de chances de se tromper en diagnostiquant la grippe chez un de ses patients qu’il aura certes étudié les symptômes de la maladie chez celui-ci, mais qu’il saura également qu’il y a une épidémie de grippe dans la population au moment où il fait ce diagnostic. 

 

 

 

Et vous dans votre entreprise ?

 

Après la lecture de ce petit échantillon d’erreurs classiques, vous sentez-vous totalement à l’abri ?

Ou avez-vous le sentiment que, compte tenu du type de données que vous récoltez et traitez, votre entreprise pourrait être victime d’une erreur de ce type et être amenée à prendre de mauvaises décisions ?

Souhaitez-vous que nous en discutions ?