R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Blog
R++ / Analyse statistique des données  / ~06~ A quoi ça sert les stat ? Moyenne, médiane et mode
Moyenne Médiane Mode

~06~ A quoi ça sert les stat ? Moyenne, médiane et mode

C’est un physicien, un biologiste et un statisticien qui sont à la chasse au lion. Un lion leur fonce dessus. Le physicien tire… PAN… et il rate, 1m à droite. Le lion est quasiment sur eux, le biologiste tire… PAN… et il rate, 1m à gauche. Et là, le statisticien lève les bras au ciel en signe de victoire : « ON L’A EU !!! »

Il dit.

Le statisticien.

Nan parce que il fait la moyenne entre 1m à droite et 1m à gauche, et ça fait le centre, donc il croit qu’on l’a eu… Parce que c’est un statisticien…

Le statisticien.

Bref, comment éviter de dire n’importe quoi quand il s’agit de moyenne : c’est maintenant, dans ‘Les stats? Même pas mal !’.

 

1. La moyenne

Un objectif de la statistique, c’est de résumer des données. Aujourd’hui, j’ai deux groupes de sportifs :

  • le premier groupe, les tailles sont de 1m96, 2m08, 1m93, 2m01, 2m01, 2m11, 2m13, 1m97
  • le deuxième groupe, les tailles sont de 1m85, 1m84,1m61, 1m61,1m71,1m89,1m65,1m70, 1m90

Bon, intuitivement, on a l’impression que le premier groupe est un zeste plus grand. Si je représente chaque taille par une barre verticale, ça confirme, les barres du groupe A sont plus hautes que celle du groupe B.

 

Mais on aimerait bien être un peu plus précis que « on voit bien que ». Donc on a inventé des indices qui résument plein de nombres, par un nombre qui est à peu près au milieu de tous les autres. On les appelle les indices de centralité. Dans le cas présent, si l’indice de centralité du groupe B est plus petit que celui du groupe A, alors on pourra dire que globalement, dans le groupe B, « ils sont plus petits ».

 

Alors ça veut dire quoi « au milieu » ? En fait, il y a plusieurs définitions. Une définition, c’est la moyenne.

Je vais aller assez vite, tout le monde connait, tout simplement parce que c’est ce qui est utilisé pour décider si vous passez dans la classe supérieure ou pas. Donc la moyenne, j’additionne toutes les tailles et je divise par le nombre de tailles et j’obtiens… la moyenne.

Graphiquement, à quoi correspond la moyenne ? Si je représente la moyenne par un trait horizontal et que je coupe (!) tout ce qui est au-dessus (que je vais appeler « le surplus de taille »), ça remplit très exactement ce qui est au-dessous (que je vais appeler « le déficit de taille »).

 

 

Retour à notre problème initial, on cherchait un indice capable de résumer un ensemble de nombres, en étant à peu près au milieu. Je vous ai proposé la moyenne. Est-ce que ça marche toujours ? Hélas non. La moyenne a un gros défaut, on dit qu’elle est sensible aux valeurs aberrantes et aux valeurs extrêmes.

Valeur aberrante

Une valeur aberrante est une valeur complétement fausse.

Par exemple si vous lisez dans votre journal que le PSG a battu l’Olympic de Marseille 98 à 0, vous ne vous dites pas que ça a été un beau match. Vous vous dites : le journaliste s’est planté. C’est une valeur aberrante.

Valeur extrême

D’un autre coté, une valeur extrême, c’est une vraie valeur, mais qui est très loin des autres.

Par exemple, à la sortie d’une grande école d’ingénieur dont je tairai le nom, le salaire moyen est de 40 000 euros, ce qui est quand même un beau salaire. Mais si on regarde dans le détail, on se rend compte qu’ils ont à peu près tous un salaire entre 33 000 et 39 000 € sauf un extraterrestre qui a fait son stage dans une start-up de la Silicon Valley et qui a décroché ensuite un salaire de 120 000 €. C’est pas une valeur aberrante, parce qu’il a vraiment touché ce salaire. C’est une valeur extrême.

Quoi faire ?

Alors en théorie, les valeurs aberrantes, il faut les supprimer. Par contre, les valeurs extrêmes il faut les garder. Pourquoi il faut les garder ? Ben parce que ce sont de vraies valeurs. Dans le cas présent, il y a vraiment un étudiant qui a touché 120 000 €. Et plus ou moins tous les ans, un étudiant décroche un jackpot entre 80 000 € et 120 000 €.

Donc il faut virer les valeurs aberrantes, mais ce n’est pas toujours clair si une valeur est aberrante ou extrême. Donc on ne sait pas toujours s’il faut la virer ou pas.

Maintenant, quel est l’impact des valeurs aberrantes ou extrêmes sur la moyenne ? Dans le cas du PSG, la moyenne, c’est 8,5 buts. Autrement, elle est complètement faussée par la valeur aberrante.

PSG, 2019-2020
4
NA
98
1
2
0
0
NA
0
1
1
1
1
NA
NA
2
0
NA
Moyenne 8,538461538

 

Dans le cas des salaires des étudiants, c’est guère mieux : les étudiants vont à peu près tous avoir un salaire entre 33 et 39 mille euros, mais ils sont tous en train de chercher des salaires à 40 000… Alors que clairement, à part pour ‘the super chanceux’ qui a un énorme coup de bol, ça va pas être possible.

Donc la moyenne, ça représente bien le centre des valeurs, mais pas toujours. Alors on a inventé une autre définition du centre qu’on a appelé « la médiane » :

 

2. La médiane

La médiane, c’est l’observation qui coupe le groupe en 2. La moitié des gens (50%) ont un score au-dessus ; l’autre moitié des gens (50%) ont un score au-dessous.

Prenons un exemple. J’ai 5 personnes, je veux calculer la médiane de leur taille. Pour ça, il faut les classer par ordre de taille, du plus petit au plus grand. La médiane, c’est la taille de l’individu qui est au milieu.

 

Vous remarquerez que s’il fait un quart de tour à droite, il voit la moitié des gens, la moitié des gens qui sont plus grands que lui. Et s’il fait un quart de tour à gauche, il voit l’autre moitié des gens, c’est-à-dire la moitié qui est plus petite que lui. Au final, la médiane est un indice qui coupe la population en deux ; une moitié est plus grande, une moitié est plus petite.

Ca se voit assez bien graphiquement, si je trace un trait au niveau de la médiane, j’ai autant de monde à gauche qu’à droite.

A noter, quand il y a un nombre d’individus pair, la médiane tombe entre deux individus. Dans ce cas, on choisit la moyenne des deux individus qui encadrent la médiane.

Au passage, vous aurez remarqué, c’est rigolo : la médiane coupe la population en deux verticalement, alors que la moyenne coupe la population en deux horizontalement.

 

Valeurs aberrantes et extrêmes

Retour à mes valeurs aberrantes et extrêmes. Si je reprends les deux exemples, les buts au football et les salaires : la moyenne des buts est 8,5 mais la médiane est de 1. C’est beaucoup plus conforme à ce que vous risquez de voir si vous allez à un match du PSG.

PSG, 2019-2020
4
NA
98
1
2
0
0
NA
0
1
1
1
1
NA
NA
2
0
NA
Moyenne 8,538461538
Médiane 1

 

Quant aux salaires, la médiane est de 36000. Désolé, chers étudiants, à part un ou deux extra-terrestres, mais c’est plutôt ce salaire qu’il vous faut viser.

Salaire
35
36
36
37
35
37
37
36
36
33
34
34
35
38
120
38
39
35
37
36
36
Moyenne 40
Médiane 36

 

3. Moralité, la médiane est mieux que la moyenne ?

Et ben… Ca dépend !

La médiane a un gros défaut : elle n’utilise qu’une partie des informations contenues dans les valeurs, elle n’utilise pas tout.

En pratique, ça veut dire quoi ?

Un étudiant qui a eu 3 notes, 8, 10 et 14 a une médiane de 10. Imaginons que le prof réalise qu’il a fait une erreur. L’étudiant n’a pas 14 mais qu’il a 17 : sa médiane n’est pas modifiée, elle est toujours à 10. Il est assez peu probable que l’étudiant apprécie…

Plus grave. Un étudiant a 9, 9 et 18, sa médiane est 9. Un autre a 2, 9 et 9, sa médiane est 9 également !

Si vous décidez de les faire redoubler tous les deux parce qu’ils ont une médiane de 9, vous risquez de provoquer un beau scandale…

En somme

Au final, la médiane n’utilise pas tout le contenu des valeurs. Grace à ça, elle est super résistante aux valeurs aberrantes ou extrêmes. Mais à cause de ça, elle résume de la même manière des jeux de données que nos perceptions humaines estiment différents, comme (2, 9, 9) et (9, 9, 18).

Bref, qu’est ce qui est mieux, la moyenne ou la médiane ?

Ca dépend !

Ben oui, ça dépend ! Si on pense qu’il y a des valeurs aberrantes ou extrêmes dans les données, on préfère la médiane. Elle est un peu rustique, mais elle est super résistante. Sinon, la moyenne. Certes elle est fragile, mais c’est un outil tout en finesse et en précision.

Allez, on va voir si vous avez compris : pour les salaires, c’est quoi qui est mieux, la moyenne ou la médiane ?

Ca dépend !

Ben oui, ça dépend !!!

  • J’ai un collègue qui monte une start-up. Il y a 2 informaticiens, salaire 2500 € et 3 stagiaires à 570€. Donc, le salaire médian est de 570 €… Si on résume la boite en disant qu’il y a 5 employés et que le salaire est de 570 €, ça n’est pas-du-tout représentatif de la boite. S’il décide de doubler le salaire des ingénieurs et de les passer à 5000 €, le salaire médian ne changera pas… Ce n’est toujours pas représentatif… Dans ce cas, la moyenne est mieux.
  • Dans une autre boite, il y a 7 hommes et 7 femmes. Les femmes sont toutes au smic donc la médiane c’est le Smic. Chez les hommes, il y en a quatre au smic, deux à 3000 € et le patron à 10 000€. La médiane des salaires chez les hommes c’est le smic ! Donc dans ce cas là, la médiane fait croire qu’il y a égalité des salaires ce qui n’est pas vrai du tout ! Elle est carrément misogyne !
  • Sur le salaire des Français, le salaire moyen des hommes est de 2410 celui des femmes est de 1962 soit un écart de 448 €. Si on considère la médiane, elle est de 1914 pour les hommes et 1651. L’écart n’est plus que de 263 €… bien plus faible.

Bref, s’il y a une seule chose à retenir de ce blog, c’est que : ça dépend.

 

Voila c’est la fin de cet article… hein ? Pardon ? Le mode ? Bon, j’espérais y échapper, mais puisque vous le demandez…

 

4. Le mode

Le mode, c’est le troisième indice de centralité, et on n’aime pas trop en parler, parce que c’est vraiment un truc tout pourri…

Le mode, c’est la valeur qu’on retrouve le plus fréquemment.

Par exemple, on demande à 100 jeunes s’ils consomment de la drogue : 57 répondent Jamais, 35 personnes répondent De temps en temps et 8 personnes disent Fréquemment.

Le mode est « jamais », parce que c’est la réponse qui a obtenue le plus grand nombre de fois.

Pourquoi c’est tout pourri ?

Parce que le même sondage dans un endroit où on consomme très peu de drogue donnera : (98 Jamais ; 2 De temps en temps ; 0 Fréquemment). Là encore, le mode sera ‘Jamais’.

Autre exemple, quand j’étais prof, une année, j’ai eu des super étudiants. Il y en avait un bon paquet qui avaient vraiment bien bossé. Il y en a aussi une petite trentaine qui ont séché l’exam et qui ont eu zéro. Bilan, le mode c’est zéro. C’est zéro parce que les 30 qui sèchent ont tous zéro, alors que ceux qui sont sérieux, ben ils ont des 13, des 14, des 15… Ils n’ont pas tous la même note. Ca s’éparpille autour de 14, mais ils n’ont pas tous 14. Donc le mode c’est zéro.

L’année suivante, j’ai eu une mauvaise promotion, ils ont eu surtout des 6, des 7 et des 8. Bilan, le mode c’est… encore zéro, parce qu’il y a eu une trentaine de sécheurs qui ont là encore tous eu zéro. En gros, que la promo soit bonne ou mauvaise, le mode c’est zéro. C’est pour ça que c’est pourri.

C’est aussi pourri parce que c’est aussi très volatile. Exemple : ma maman fait des confitures. Elle met environ 60% de fruit et 40% de sucre. Supers bonnes, les confitures de maman !

 

J'adore les confitures maison

Andros aussi fait des confitures.

Sauf que eux, ils mettent 60% de sucre et 40% de fruits, donc le mode, c’est sucre.

Et en France, sur l’étiquette, ils sont obligés de marquer les ingrédients dans l’ordre décroissant, celui qui est le plus présent en premier. Donc ils sont obligés de mettre sucre en premier. Mais ils n’ont pas envie. Ils ont envie de dire qu’il y a beaucoup de fruits dans les confitures, c’est ‘Extra Abricots’. Donc au lieu de dire 60% de sucre, ils disent 30% de fructose et 30% de saccharose !

Et hop, par un petit coup de Harry Potter, le mode vient de passer de Sucre à Fruit… Ils sont balaises les statisticiens de chez Andros… Bref, le mode, ça n’est pas représentatif, c’est volatil, donc c’est tout pourri.

Alors pourquoi on en parle ?

Parce que pour les variables nominales, on ne peut pas utiliser la médiane (qui nécessite de trier les valeurs, ce qui n’est pas possible avec une variable nominale), ni la moyenne (qui nécessite des additions, ce qui n’est pas possible non plus), seulement le mode.

Donc même si ce n’est pas terrible, on l’utilise.

 


A retenir

Moyenne et médiane, on ne peut pas dire que l’une soit mieux que l’autre,  ça dépend des cas. Donc on calcule les deux.

Au final, petit résumé de ce qu’il faut utiliser et quand :

  • Pour les variables continues et discrètes : on calcule la moyenne et la médiane.
  • Pour les variables ordonnées : la moyenne ce n’est pas possible, mais on peut toujours calculer la médiane.
  • Et enfin, pour les nominales : il n’y a que le mode qui est possible, donc le mode.

* * *

Voilà, c’est la fin de cet article. Vous savez tout sur la moyenne, la médiane, le mode et leurs différences.

La suite, c’est dans une semaine, je vous causerai de dispersion :

Feu d’artifice, journée à la mer, et demain, vacances à la ...

 

Et surtout n’oubliez pas : “Les stats ? Même pas mal !”

 

Photo Christophe Genolini de notre équipe

Christophe Genolini

 


Appendix – code R

1. Code pour les graphes de la moyenne :

par(mfrow=c(1,2))

v1 <- c(1.96, 2.08, 1.93, 2.01, 2.01, 2.11, 2.13, 1.97)

plot(v1,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe A”,ylab=”Taille”)

 

v2 <- c(1.85, 1.84,1.61,1.71,1.89,1.65,1.70, 1.90)

plot(v2,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe B”,ylab=”Taille”)

 

plot(v1,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe A”,ylab=”Taille”)

lines(c(0,14),mean(v1)[c(1,1)],col=”red”,lwd=3)

 

plot(v2,ylim=c(0,2.2),type=”h”,lwd=10,xlab=”Equipe B”,ylab=”Taille”)

lines(c(0,14),mean(v2)[c(1,1)],col=”red”,lwd=3)

 

2. Code pour les graphes de la valeur extrême

set.seed(1)

v3 <- c(rep(33:39,time=c(1,2,4,6,4,2,1)),120)

des <- sample(21)

barplot(v3[des],xlab=”Salaire sortie ENSEITH”)

barplot(v3[des][-15],xlab=”Salaire sortie ENSEITH sans l’exception”)

 

3. Code pour les graphes de la médiane

par(mfrow=c(1,2))

barplot(c(8,10,14),col=c(“grey”,”orange”,”grey”),ylim=c(0,20),xlab=”Notes avant correction”)

barplot(c(8,10,17),col=c(“grey”,”orange”,”grey”),ylim=c(0,20),xlab=”Notes après correction”)

 

barplot(c(9,9,18),col=c(“grey”,”orange”,”grey”),ylim=c(0,20) ,xlab=”Notes étudiant 1″)

barplot(c(2,9,9),col=c(“grey”,”orange”,”grey”),ylim=c(0,20) ,xlab=”Notes étudiant 2″)

 

4. Code pour les graphes du mode :

set.seed(3)

notesGood <- round(c(rep(0,28),0:20,3,rnorm(150,14,3)))

mean(notesGood)

median(notesGood)

barplot(table(notesGood),xlab=”Moyenne=11,7 ; Médiane=13 ; Mode =0″,ylim=c(0,30))

 

set.seed(4)

notesBad <- round(c(rep(0,31),0:16,3,rnorm(150,8,3)))

mean(notesBad)

median(notesBad)

barplot(table(c(notesBad,0:20))-1,xlab=”Moyenne=6,7 ; Médiane=7 ; Mode =0″,ylim=c(0,30))

 


 

Pas encore de commentaire
Post a Comment