~07~ A quoi ça sert les stat ? La dispersion (écart type)

Je vous présente Johan, 23 ans, étudiant, qui hésite entre deux destinations pour ses vacances, vacances pendant lesquelles il faut l’avouer, il a bien l’intention de chopper [1].

La première, Quiet Island, île paradisiaque, 258 hôtes, moyenne d’âge 40 ans.
La deuxième, le Paradis des glaces, île paradisiaque, 247 hôtes, moyenne d’âge 22 ans. Information complémentaire, l’écart type des âges est respectivement 15 et 15.

Mais comme Johan ne sait pas ce qu’est qu’un écart type, il décide de ne pas prendre en compte cette information et après une intense réflexion de 2 dixièmes de seconde, il part pour Le Paradis des glaces. Bon choix, pas bon choix ? Est-ce qu’il va trouver l’âme sœur ? Et surtout, est-ce qu’il a bien fait de ne pas s’occuper de ce machin bizarre appelé ‘écart type’ ?

[1] Cet exemple est tiré de l’excellent Statistiques pour Statophobes, de Denis Poinsot, disponible ici.

Qu’est-ce que la dispersion ?

A une lointaine époque, j’étais prof et je faisais passer des contrôles à mes étudiants. Un premier groupe avait eu : 10, 11, 13, 9 et 12. L’autre groupe avait eu 9, 16, 5, 18 et 7. Question : qu’est-ce qu’on peut dire de ces deux groupes ? La première chose à faire, c’est une petite représentation graphique, ou chaque colonne, c’est un étudiant.

Puis je calcule la moyenne, que je représente par un trait rouge. Dans les deux cas, elle est de 11.

Pourtant, on sent bien que les deux groupes ne se ressemblent pas. Qu’est ce qui diffère ?

Ben dans le premier cas, toutes les notes sont plus ou moins autour de la moyenne. Dans le deuxième, ça part un peu dans tous les sens. En gros, dans le premier, les notes sont regroupées ; dans le deuxième, elles sont éparpillées. En stat ou dit plutôt « dispersées ».

L’objectif du jour, c’est de mesurer la dispersion. Autrement dit, on veut construire un indice qui sera grand quand les données sont dispersées, et petit quand les données sont regroupées.

« Heu ! Vous pouvez répéter la question ? »

Ok, je reprends. Vous connaissez, la moyenne. La moyenne, elle résume un groupe de nombre en donnant une idée globale de leur hauteur. Si la moyenne est grande, les nombres sont grands. Si la moyenne est petite, les nombres sont petits.

Fig 1. Différentes moyennes

Par exemple, si votre petit cousin vous dit qu’il a une moyenne générale de 16, vous savez que ses notes sont plutôt hautes. S’il vous dit qu’il a une moyenne générale de 5, c’est pas terrible… Bref, la moyenne, c’est un indice qui mesure la hauteur globale des notes. Et ben là, on veut faire pareil mais avec la dispersion : on veut construire un indice qui prendra des valeurs grandes quand les notes sont dispersées, et des valeurs petites quand les notes sont regroupées.

Fig 2 : différentes dispersions

Donc si je vous dis que dans une classe, la dispersion est grande, ça voudra dire qu’il y a plein de notes basses et plein de notes hautes. Si la dispersion est petite, toutes les notes seront regroupées autour de la moyenne.

Comment calculer la dispersion ?

Donc la question est : comment fabriquer un indice qui sera “petit” quand les valeurs sont regroupées autour de la moyenne (exemple de gauche) et “grand” quand les valeurs sont dispersées c’est à dire loin de la moyenne (exemple de droite).

La somme des écarts ?

Allez, pour vous aider, j’ajoute des petites flèches qui représentent les écarts entre les notes des étudiants et la moyenne de la classe. Qu’est ce qu’on remarque ?

A gauche, les écarts sont petits et à droite, ils sont grands. Donc on tient notre solution : là où on veut construire un indice grand, les écarts sont grands ; et là où on veut construire un indice petit, les écarts sont petits : on a qu’à prendre la moyenne des écarts !

Dans le premier cas (groupe A), ça me fait -1+0+2-2+1 divisé par 5, ça fait zéro
Dans l’autre (groupe B), -2+5-6+7-4 divisé par 5, ça fait aussi zéro…

Hmmm. Cela ne marche pas ! Cela ne marche pas parce que les écarts positifs sont compensés par les écarts négatifs et donc la moyenne des écarts, c’est toujours zéro !

Donc cela ne marche pas…

Qu’est ce qu’on va bien pouvoir faire ?

La valeur absolue ?

La moyenne des écarts, c’était une bonne idée, mais le souci, c’est qu’il y a des signes moins et ça annule les signes plus. Donc pour corriger ça, on va virer les signes moins. On ne prend que les nombres. Techniquement, on dit qu’on utilise la fonction valeur absolue. Au lieu de prendre les écarts, on va prendre les valeurs absolues des écarts. Et on en fait la moyenne.

Dans le premier cas (groupe A), ça me fait 1+0+2+2+1 divisé par 5, ça fait 8 divisé par 5, ça fait 1.6
Dans l’autre (groupe B), 2+5+6+7+4 divisé par 5, ça fait 24 divisé par 5, ça fait 4.8

Ca marche ! On a calculé un indice qui prend une valeur grande quand les notes sont dispersées, et une valeur petite quand elles sont regroupées. Sur notre exemple Différentes dispersions (fig 2) on obtient 0.82, , 1.84 et 2.85. Donc cet indice est conforme à son cahier des charges : petit, moyen, grand. Cet indice, on l’appelle l’Ecart Absolu Moyen.

Mais…

Mais on ne l’aime pas beaucoup cet indice. On ne l’aime pas parce qu’il utilise la fonction valeur absolue et la fonction valeur absolue, elle n’est pas très commode. En fait, quand on la dessine, elle a un angle.

Et en math, on aime pas les fonctions qui ont des angles. Une fonction qui a un angle, c’est une fonction qui n’est pas dérivable. Alors peu importe ce que veut dire « pas dérivable », ce qui compte, c’est que comme l’écart absolu moyen utilise la fonction valeur absolue, il n’est pas dérivable non plus. Et tous les théorèmes qui commencent pas « soit une fonction dérivable », il ne pourra pas les utiliser. Et y en a vraiment beaucoup. Bref, on n’aime pas trop cet indice.

Alors qu’est-ce qu’on peut faire ?

(J’espère au passage que vous noterez tous les efforts que je fais pour mettre un peu de suspens dans un article sur les statistiques !!! 🙂 )

‍La variance

On a utilisé la valeur absolue pour supprimer les signes moins. Mais y a d’autres méthodes pour ça. On peut par exemple utiliser la fonction “carrée” : 1² ça fait 1 et -1² ca fait 1. Si on la représente, on voit qu’elle n’a pas d’angle nul part, elle est toute en douceur.

Est-ce que ça suffit pour dire que la fonction carré est dérivable ?

Cédric Villani

nous que oui.

Bon. On le croit sur parole, il est mathématicien, il a eu la médaille Fields et en plus il est député, il doit savoir ce qu’il dit.

Donc au lieu de faire la moyenne des écarts, on va faire la moyenne des écarts au carré.

Autrement dit, je prends tous les écarts, je les mets au carré :

Et je fais la moyenne :

Dans le premier cas (groupe A), ça me fait 1+0+4+4+1 divisé par 5, ça fait 10 divisé par 5, ça fait 2
Dans l’autre (groupe B), 4+25+36+49+16 divisé par 5, ça fait 130 divisé par 5, ça fait 26

Ca fait donc 2 pour le groupe A et 26 pour le groupe B.

Alors, est-ce que cet indice remplit son cahier des charges ?

Sur mon exemple, j’obtiens 0.68 à gauche, 3,68 sur celui du milieu et 7.14 sur celui de droite. Donc il prend des valeurs grandes là où la dispersion est grande, des valeurs petites là où elle est petite. Et il est dérivable.

Cet indice a plein de bonnes qualités. On le garde et on va l’appeler « la variance ».

A retenir

Pour calculer la variance d’un groupe de valeurs, je commence par calculer la moyenne des valeurs m. Puis, je calcule les écarts entre les valeurs et la moyenne. Je mets les écarts au carré. J’additionne tous les carrés ainsi obtenus. Et je divise par le nombre de valeurs. Et j’ai la variance.

L’écart type

La variance, c’est un indice qui est cool, on l’utilise beaucoup. Mais… Il a juste un petit défaut.

Quand j’additionne des pommes et des pommes, j’obtiens des pommes. Quand j’additionne des euros et des euros, j’obtiens des euros.

Quand j’additionne des mètres et des mètres, j’obtiens des mètres. Mais quand je multiplie des mètres par des mètres, j’obtiens des mètres carrés. Et donc la variance, si les valeurs de base sont en mètre, elle est en mètre carré. Si les valeurs sont en euro, la variance est en euro carré… Si c’est des pommes, elle est en pomme au carré. Ça veut rien dire, mais c’est comme ça.

Mais du coup, “ça ne veut rien dire” c’est un peu embêtant. D’où l’idée, au lieu de travailler avec la variance, je travaille avec la racine carré de la variance. Parce que si j’ai un nombre en « mètres carrés » en « euro carré » ou en « pommes carré », ben la racine carrée du nombre sera en mètre, en euro ou en pomme. Et donc, j’obtiens un nouvel indice, la racine de la variance.

Au niveau des calculs, d’abord je calcule la variance, et je prends la racine carré de la variance.

Groupe A, la variance est de 2, donc mon nouvel indice vaut 1,41
Groupe A, la variance est de 26, donc mon nouvel indice vaut 5,09

Sur les exemples initiaux, l’écart type vaut 0,82 à gauche, 1,92 au milieu et 2,67 à droite. Donc il prend des valeurs grandes là où la dispersion est grande, des valeurs petites là où elle est petite. Il est dérivable parce qu’il n’utilise que des fonctions dérivables. Et son unité est la même que celles des nombres de départ.

Et ben c’est cool, cet indice est parfait. On le garde et on va l’appeler « écart type ».

A retenir

Donc, je résume. Pour calculer l’écart type d’un groupe de valeurs :

je calcule la moyenne m
puis les écarts à la moyenne (xi-m)
puis les écarts au carré (xi-m)²
je calcule la moyenne de tous les écarts au carré
je prends la racine carré… et j’ai l’écart type.

En général, la somme, on la note Sigma et donc, dans les livres de stat, voilà la formule que vous trouverez.

Au final, qu’est-ce que j’ai voulu montrer ?

C’est que cette formule de l’écart type que probablement un certain nombre d’entre vous connaissent, c’est pas juste un truc de tordu inventé par des mathématiciens pervers. C’est un truc où tout a une raison d’être : Le carré, c’est pour virer les signes moins. La racine, c’est pour que l’unité soit la même que l’unité initiale. La division, c’est pour faire une moyenne. Bref, si on avait voulu faire plus simple, on n’aurait pas réussi.

Retour au problème initial

Est-ce que Johan a bien choisi sa destination ?

L’écart type des âges est de 15. Maintenant qu’on sait ce que ça veut dire… Ça veut dire quoi, d’ailleurs ? Ça veut dire que les âges sont très très dispersés. En gros, il y a plein de gens qui auront 10, 15, 20 ans de plus que la moyenne, et plein de gens qui auront 10, 15, 20 ans de moins que la moyenne… En l’occurrence, sur Quiet Island (moyenne d’age 40 ans), personne n’a 40 ans : il y une cure thermale, donc beaucoup de retraités, 60 ans et plus, et des hordes d’infirmières à leur service, 21, 22, 23 ans… Moyenne d’âge 40 ans, écart type 15. Par contre, le Paradis des glaces (moyenne d’âge 22 ans) est un village familial. Personne n’a 22 ans. Johan va croiser de très nombreux couples (entre 35 et 40 ans) avec des enfants entre 0 et 5 ans… Moyenne d’âge 22, écart type 15…

Moralité, pour chopper, faut être balaise en stat !

Plus sérieusement, en stat, une moyenne pure ne veut pas dire grand-chose. Quand on donne la moyenne, on donne toujours l’écart type.

Les quartiles

Puisqu’on parle de la moyenne, petit retour sur l’article précédent : vous vous souvenez, on avait dit que la moyenne est super précise, mais qu’elle souffre d’un grave défaut : elle est ultrasensible aux valeurs aberrantes. Et bien l’écart type, c’est encore pire. La moindre valeur aberrante et pchiiiii, il explose.

Vous vous souvenez, pour la moyenne, on avait trouvé une parade grâce à un autre indice qu’on appelle la médiane, qui est un indice un peu grossier, mais super-résistant aux valeurs aberrantes. Et ben pour l’écart type, on va faire pareil, on va introduire une manière de mesurer la dispersion qui résiste aux valeurs aberrantes.

Que sont les quartiles ?

Rappel, la médiane est la valeur qui coupe la population en 2 : 50% des gens sont au-dessus, 50% sont au-dessous. Et bien les quartiles, c’est les valeurs qui coupent la population en 4 tranches de 25%.

Le premier quartile Q1 est la valeur qui coupe la population en 2 : 25% des gens sont au-dessous, 75% sont au dessus
Le troisième quartile Q3 est la valeur qui coupe la population en 2 : 75% des gens sont au-dessous, 25% sont au dessus
Par extension, on appelle Q0 la valeur qui coupe la population en 2 : 0% des gens sont au-dessous, 100% sont au dessus. Q0 est tout simplement le minimum.
Par extension, on appelle Q4 est la valeur qui coupe la population en 2 : 100% des gens sont au-dessous, 0% sont au dessus. Q4 est le maximum.
Par extension, on appelle Q2 est la valeur qui coupe la population en 2 : 50% des gens sont au-dessous, 50% sont au dessus. Q2 est la médiane.

Pour faire le calcul :

On commence par trouver la médiane de la population.
Puis on prend la sous-population la plus basse que la médiane et on cherche sa médiane. Cette “médiane de la sous population basse” est le premier quartile.
Bien sûr, on fait pareil de l’autre côté, on prend la sous-population situé au dessus de la médiane et on cherche sa médiane. Cette “médiane de la sous population haute” est le troisième quartile.

Au final, on vient de saucissonner notre population en 4 morceaux de 25% chacun. Entre le minimum et le 1^re quartile, y a 25% des gens ; entre le 1^re quartile et la médiane, il y a 25% des gens. Et ainsi de suite.

Comment les quartiles permettent-ils de mesurer la dispersion ?

Si les quartiles sont loin de la médiane, c’est que au moins 50% des gens sont loin de la médiane (25% sont au-dessus du 3° quartile et 25% sont au-dessous du 1° quartile). A l’inverse, s’ils sont proches, c’est que 50% des gens sont proches de la médiane (car 50% des gens sont contenus entre le 1° et le 3° quartile).

A retenir

Les quartiles Q1 et Q3 encadrent les 50% de la population les plus proches de la médiane ; les quartiles Q0 et Q1 plus les quartiles Q3 et Q4 encadrent les 50% de la population les plus loin de la médiane.

Dans le cas des îles, on aurait eu :

Quiet Island : Q0=20, Q1=22, Q3=55, Q4=70, soit 25% de gens entre 20 et 21 et 25% ont entre 55 et 70 !
Paradis des glaces : Q0=1, Q1=5 (carrément suspect !), Q3=34, Q4=42

Le Paradis des glaces a donc une population plus jeune. Mais plutôt ambiance famille… 25% sont des jeunes enfants ! Quiet Island a une population dont 25% a entre 20 et 22 ans.

* * *

Voilà, c’est la fin de cet article. La semaine prochaine, je vous parlerai de graphique, histogramme, dessin, camembert et même de boîtes à moustache. C’est des super boîtes, on met des chats dedans, on fait des petits trous sur les côtés comme ça les chats y peuvent laisser passer leur moustache.

Et surtout n’oubliez pas : les stat, même pas mal !

Appendix – code R

Graphique des notes des étudiants

groupe1 <- c(10, 11, 13, 9, 12)

groupe2 <- c(9, 16, 5, 18, 7)

mean(groupe1)

mean(groupe2)

par(mfrow=c(1,2))

barplot(groupe1,ylim=c(0,20),xlab=”Groupe A”)

barplot(groupe2,ylim=c(0,20),xlab=”Groupe B”)

par(mfrow=c(1,2))

barplot(groupe1,ylim=c(0,20),xlab=”Groupe A”)

lines(c(-10,10),c(11,11),lwd=2,col=”red”)

barplot(groupe2,ylim=c(0,20),xlab=”Groupe B”)

lines(c(-10,10),c(11,11),lwd=2,col=”red”)

Graphiques des notes du groupe A et du groupe B

set.seed(1)

v1 <- rnorm(50,6,1)

v2 <- rnorm(50,10,1)

v3 <- rnorm(50,14,1)

par(mfrow=c(1,3))

barplot(v1,ylim=c(0,20),xlab=”Moyenne faible”)

lines(c(-10,130),c(6,6),lwd=2,col=”red”)

barplot(v2,ylim=c(0,20),xlab=”Moyenne intermédiare”)

lines(c(-10,130),c(10,10),lwd=2,col=”red”)

barplot(v3,ylim=c(0,20),xlab=”Moyenne haute”)

lines(c(-10,130),c(14,14),lwd=2,col=”red”)

set.seed(1)

v1 <- rnorm(50,10,1)

v2 <- rnorm(50,10,2)

v3 <- rnorm(50,10,3)

par(mfrow=c(1,3))

barplot(v1,ylim=c(0,20),xlab=”Dispersion petite”,xlim=c(1,66))

arrows(63,8,,12,col=”blue”,lwd=2)

arrows(63,12,,8,col=”blue”,lwd=2)

barplot(v2,ylim=c(0,20),xlab=”Dispersion intermédiare”,xlim=c(1,66))

arrows(63,6,,14,col=”blue”,lwd=2)

arrows(63,14,,6,col=”blue”,lwd=2)

barplot(v3,ylim=c(0,20),xlab=”Dispersion grande”,xlim=c(1,66))

arrows(63,4,,16,col=”blue”,lwd=2)

arrows(63,16,,4,col=”blue”,lwd=2)

Graphiques du groupe A et du groupe B avec les flèches représentant les écarts entre les notes et la moyenne

par(mfrow=c(1,2))

barplot(groupe1,ylim=c(0,20),xlab=”Groupe A”)

lines(c(-10,10),c(11,11),lwd=2,col=”red”)

arrows(0.8,11,,10,col=”blue”,lwd=2)

arrows(3.1,11,,13,col=”blue”,lwd=2)

arrows(4.3,11,,9,col=”blue”,lwd=2)

arrows(5.5,11,,12,col=”blue”,lwd=2)

barplot(groupe2,ylim=c(0,20),xlab=”Groupe B”)

lines(c(-10,10),c(11,11),lwd=2,col=”red”)

arrows(0.8,11,,9,col=”blue”,lwd=2)

arrows(1.9,11,,16,col=”blue”,lwd=2)

arrows(3.1,11,,5,col=”blue”,lwd=2)

arrows(4.3,11,,18,col=”blue”,lwd=2)

arrows(5.5,11,,7,col=”blue”,lwd=2)

‍