C’est un physicien, un biologiste et un statisticien qui sont à la chasse au lion. Un lion leur fonce dessus. Le physicien tire… PAN… et il rate, 1m à droite. Le lion est quasiment sur eux, le biologiste tire… PAN… et il rate, 1m à gauche. Et là, le statisticien lève les bras au ciel en signe de victoire : « ON L’A EU !!! »
Il dit.
Le statisticien.
Nan parce que il fait la moyenne entre 1m à droite et 1m à gauche, et ça fait le centre, donc il croit qu’on l’a eu… Parce que c’est un statisticien…
Le statisticien.
Bref, comment éviter de dire n’importe quoi quand il s’agit de moyenne : c’est maintenant, dans ‘Les stats? Même pas mal !’.
Un objectif de la statistique, c’est de résumer des données. Aujourd’hui, j’ai deux groupes de sportifs :
Bon, intuitivement, on a l’impression que le premier groupe est un zeste plus grand. Si je représente chaque taille par une barre verticale, ça confirme, les barres du groupe A sont plus hautes que celles du groupe B.
Mais on aimerait bien être un peu plus précis que « on voit bien que ». Donc on a inventé des indices qui résument plein de nombres, par un nombre qui est à peu près au milieu de tous les autres. On les appelle les indices de centralité. Dans le cas présent, si l’indice de centralité du groupe B est plus petit que celui du groupe A, alors on pourra dire que globalement, dans le groupe B, « ils sont plus petits ».
Alors ça veut dire quoi « au milieu » ? En fait, il y a plusieurs définitions. Une définition, c’est la moyenne.
Je vais aller assez vite, tout le monde connaît, tout simplement parce que c’est ce qui est utilisé pour décider si vous passez dans la classe supérieure ou pas. Donc la moyenne, j’additionne toutes les tailles et je divise par le nombre de tailles et j’obtiens… la moyenne.
Graphiquement, à quoi correspond la moyenne ? Si je représente la moyenne par un trait horizontal et que je coupe (!) tout ce qui est au-dessus (que je vais appeler « le surplus de taille »), ça remplit très exactement ce qui est au-dessous (que je vais appeler « le déficit de taille »).
Retour à notre problème initial, on cherchait un indice capable de résumer un ensemble de nombres, en étant à peu près au milieu. Je vous ai proposé la moyenne. Est-ce que ça marche toujours ? Hélas non. La moyenne a un gros défaut, on dit qu’elle est sensible aux valeurs aberrantes et aux valeurs extrêmes.
Une valeur aberrante est une valeur complètement fausse.
Par exemple, si vous lisez dans votre journal que le PSG a battu l’Olympique de Marseille 98 à 0, vous ne vous dites pas que ça a été un beau match. Vous vous dites : le journaliste s’est planté. C’est une valeur aberrante.
D’un autre côté, une valeur extrême, c’est une vraie valeur, mais qui est très loin des autres.
Par exemple, à la sortie d’une grande école d’ingénieurs dont je tairai le nom, le salaire moyen est de 40 000 euros, ce qui est quand même un beau salaire. Mais si on regarde dans le détail, on se rend compte qu’ils ont à peu près tous un salaire entre 33 000 et 39 000 € sauf un extraterrestre qui a fait son stage dans une start-up de la Silicon Valley et qui a décroché ensuite un salaire de 120 000 €. Ce n'est pas une valeur aberrante, parce qu’il a vraiment touché ce salaire. C’est une valeur extrême.
Alors en théorie, les valeurs aberrantes, il faut les supprimer. Par contre, les valeurs extrêmes il faut les garder. Pourquoi il faut les garder ? Ben parce que ce sont de vraies valeurs. Dans le cas présent, il y a vraiment un étudiant qui a touché 120 000 €. Et plus ou moins tous les ans, un étudiant décroche un jackpot entre 80 000 € et 120 000 €.
Donc il faut virer les valeurs aberrantes, mais ce n’est pas toujours clair si une valeur est aberrante ou extrême. Donc on ne sait pas toujours s’il faut la virer ou pas.
Maintenant, quel est l’impact des valeurs aberrantes ou extrêmes sur la moyenne ? Dans le cas du PSG, la moyenne, c’est 8,5 buts. Autrement, elle est complètement faussée par la valeur aberrante.
PSG, 2019-20204NA981200NA01111NANA20NAMoyenne8,538461538
Dans le cas des salaires des étudiants, c’est guère mieux : les étudiants vont à peu près tous avoir un salaire entre 33 et 39 mille euros, mais ils sont tous en train de chercher des salaires à 40 000… Alors que clairement, à part pour ‘the super chanceux’ qui a un énorme coup de bol, cela ne va pas être possible.
Donc la moyenne, cela représente bien le centre des valeurs, mais pas toujours. Alors on a inventé une autre définition du centre qu’on a appelé « la médiane » :
La médiane, c’est l’observation qui coupe le groupe en 2. La moitié des gens (50%) ont un score au-dessus ; l’autre moitié des gens (50%) ont un score au-dessous.
Prenons un exemple. J’ai 5 personnes, je veux calculer la médiane de leur taille. Pour ça, il faut les classer par ordre de taille, du plus petit au plus grand. La médiane, c’est la taille de l’individu qui est au milieu.
Vous remarquerez que s’il fait un quart de tour à droite, il voit la moitié des gens, la moitié des gens qui sont plus grands que lui. Et s’il fait un quart de tour à gauche, il voit l’autre moitié des gens, c’est-à-dire la moitié qui est plus petite que lui. Au final, la médiane est un indice qui coupe la population en deux ; une moitié est plus grande, une moitié est plus petite.
Ca se voit assez bien graphiquement, si je trace un trait au niveau de la médiane, j’ai autant de monde à gauche qu’à droite.
A noter, quand il y a un nombre d’individus pair, la médiane tombe entre deux individus. Dans ce cas, on choisit la moyenne des deux individus qui encadrent la médiane.
Au passage, vous aurez remarqué, c’est rigolo : la médiane coupe la population en deux verticalement, alors que la moyenne coupe la population en deux horizontalement.
Retour à mes valeurs aberrantes et extrêmes. Si je reprends les deux exemples, les buts au football et les salaires : la moyenne des buts est 8,5 mais la médiane est de 1. C’est beaucoup plus conforme à ce que vous risquez de voir si vous allez à un match du PSG.
PSG, 2019-20204NA981200NA01111NANA20NAMoyenne8,538461538Médiane1
Quant aux salaires, la médiane est de 36000. Désolé, chers étudiants, à part un ou deux extra-terrestres, mais c’est plutôt ce salaire qu’il vous faut viser.
Salaire3536363735373736363334343538120383935373636Moyenne40Médiane36
Et ben… Cela dépend !
La médiane a un gros défaut : elle n’utilise qu’une partie des informations contenues dans les valeurs, elle n’utilise pas tout.
En pratique, ça veut dire quoi ?
Un étudiant qui a eu 3 notes, 8, 10 et 14 a une médiane de 10. Imaginons que le prof réalise qu’il a fait une erreur. L’étudiant n’a pas 14 mais qu’il a 17 : sa médiane n’est pas modifiée, elle est toujours à 10. Il est assez peu probable que l’étudiant apprécie…
Plus grave. Un étudiant a 9, 9 et 18, sa médiane est 9. Un autre a 2, 9 et 9, sa médiane est 9 également !
Si vous décidez de les faire redoubler tous les deux parce qu’ils ont une médiane de 9, vous risquez de provoquer un beau scandale…
Au final, la médiane n’utilise pas tout le contenu des valeurs. Grâce à ça, elle est super résistante aux valeurs aberrantes ou extrêmes. Mais à cause de ça, elle résume de la même manière des jeux de données que nos perceptions humaines estiment différents, comme (2, 9, 9) et (9, 9, 18).
Bref, qu’est ce qui est mieux, la moyenne ou la médiane ?
Ca dépend !
Ben oui, ça dépend ! Si on pense qu’il y a des valeurs aberrantes ou extrêmes dans les données, on préfère la médiane. Elle est un peu rustique, mais elle est super résistante. Sinon, la moyenne. Certes elle est fragile, mais c’est un outil tout en finesse et en précision.
Allez, on va voir si vous avez compris : pour les salaires, c’est quoi qui est mieux, la moyenne ou la médiane ?
Ca dépend !
Ben oui, cela dépend !!!
Bref, s’il y a une seule chose à retenir de ce blog, c’est que : cela dépend.
Voilà c’est la fin de cet article… hein ? Pardon ? Le mode ? Bon, j’espérais y échapper, mais puisque vous le demandez…
Le mode, c’est le troisième indice de centralité, et on n’aime pas trop en parler, parce que c’est vraiment un truc tout pourri…
Le mode, c’est la valeur qu’on retrouve le plus fréquemment.
Par exemple, on demande à 100 jeunes s’ils consomment de la drogue : 57 répondent Jamais, 35 personnes répondent De temps en temps et 8 personnes disent Fréquemment.
Le mode est « jamais », parce que c’est la réponse qui a obtenue le plus grand nombre de fois.
Parce que le même sondage dans un endroit où on consomme très peu de drogue donnera : (98 Jamais ; 2 De temps en temps ; 0 Fréquemment). Là encore, le mode sera ‘Jamais’.
Autre exemple, quand j’étais prof, une année, j’ai eu des super étudiants. Il y en avait un bon paquet qui avaient vraiment bien bossé. Il y en a aussi une petite trentaine qui ont séché l’exam et qui ont eu zéro. Bilan, le mode c’est zéro. C’est zéro parce que les 30 qui sèchent ont tous zéro, alors que ceux qui sont sérieux, ben ils ont des 13, des 14, des 15… Ils n’ont pas tous la même note. Ca s’éparpille autour de 14, mais ils n’ont pas tous 14. Donc le mode c’est zéro.
L’année suivante, j’ai eu une mauvaise promotion, ils ont eu surtout des 6, des 7 et des 8. Bilan, le mode c’est… encore zéro, parce qu’il y a eu une trentaine de sécheurs qui ont là encore tous eu zéro. En gros, que la promo soit bonne ou mauvaise, le mode c’est zéro. C’est pour ça que c’est pourri.
C’est aussi pourri parce que c’est aussi très volatile. Exemple : ma maman fait des confitures. Elle met environ 60% de fruit et 40% de sucre. Supers bonnes, les confitures de maman !
Andros aussi fait des confitures.
Sauf que eux, ils mettent 60% de sucre et 40% de fruits, donc le mode, c’est sucre.
Et en France, sur l’étiquette, ils sont obligés de marquer les ingrédients dans l’ordre décroissant, celui qui est le plus présent en premier. Donc ils sont obligés de mettre sucre en premier. Mais ils n’ont pas envie. Ils ont envie de dire qu’il y a beaucoup de fruits dans les confitures, c’est ‘Extra Abricots’. Donc au lieu de dire 60% de sucre, ils disent 30% de fructose et 30% de saccharose !
Et hop, par un petit coup de Harry Potter, le mode vient de passer de Sucre à Fruit… Ils sont balaises les statisticiens de chez Andros… Bref, le mode, ça n’est pas représentatif, c’est volatil, donc c’est tout pourri.
Parce que pour les variables nominales, on ne peut pas utiliser la médiane (qui nécessite de trier les valeurs, ce qui n’est pas possible avec une variable nominale), ni la moyenne (qui nécessite des additions, ce qui n’est pas possible non plus), seulement le mode.
Donc même si ce n’est pas terrible, on l’utilise.
Moyenne et médiane, on ne peut pas dire que l’une soit mieux que l’autre, ça dépend des cas. Donc on calcule les deux.
Au final, petit résumé de ce qu’il faut utiliser et quand :
* * *
Voilà, c’est la fin de cet article. Vous savez tout sur la moyenne, la médiane, le mode et leurs différences.
La suite, c’est dans une semaine, je vous causerai de dispersion :
Et surtout n’oubliez pas : “Les stats ? Même pas mal !”
1. Code pour les graphes de la moyenne :
par(mfrow=c(1,2))
v1 <- c(1.96, 2.08, 1.93, 2.01, 2.01, 2.11, 2.13, 1.97)
plot(v1,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe A”,ylab=”Taille”)
v2 <- c(1.85, 1.84,1.61,1.71,1.89,1.65,1.70, 1.90)
plot(v2,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe B”,ylab=”Taille”)
plot(v1,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe A”,ylab=”Taille”)
lines(c(0,14),mean(v1)[c(1,1)],col=”red”,lwd=3)
plot(v2,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe B”,ylab=”Taille”)
lines(c(0,14),mean(v2)[c(1,1)],col=”red”,lwd=3)
2. Code pour les graphes de la valeur extrême
set.seed(1)
v3 <- c(rep(33:39,time=c(1,2,4,6,4,2,1)),120)
des <- sample(21)
barplot(v3[des],xlab=”Salaire sortie ENSEITH”)
barplot(v3[des][-15],xlab=”Salaire sortie ENSEITH sans l’exception”)
3. Code pour les graphes de la médiane
par(mfrow=c(1,2))
barplot(c(8,10,14),col=c(“grey”,”orange”,”grey”),ylim=c(0,20),xlab=”Notes avant correction”)
barplot(c(8,10,17),col=c(“grey”,”orange”,”grey”),ylim=c(0,20),xlab=”Notes après correction”)
barplot(c(9,9,18),col=c(“grey”,”orange”,”grey”),ylim=c(0,20) ,xlab=”Notes étudiant 1″)
barplot(c(2,9,9),col=c(“grey”,”orange”,”grey”),ylim=c(0,20) ,xlab=”Notes étudiant 2″)
4. Code pour les graphes du mode :
set.seed(3)
notesGood <- round(c(rep(0,28),0:20,3,rnorm(150,14,3)))
mean(notesGood)
median(notesGood)
barplot(table(notesGood),xlab=”Moyenne=11,7 ; Médiane=13 ; Mode =0″,ylim=c(0,30))
set.seed(4)
notesBad <- round(c(rep(0,31),0:16,3,rnorm(150,8,3)))
mean(notesBad)
median(notesBad)
barplot(table(c(notesBad,0:20))-1,xlab=”Moyenne=6,7 ; Médiane=7 ; Mode =0″,ylim=c(0,30))