Je vous présente Johan, 23 ans, étudiant, qui hésite entre deux destinations pour ses vacances, vacances pendant lesquelles il faut l’avouer, il a bien l’intention de chopper [1].
Mais comme Johan ne sait pas ce qu’est qu’un écart type, il décide de ne pas prendre en compte cette information et après une intense réflexion de 2 dixièmes de seconde, il part pour Le Paradis des glaces. Bon choix, pas bon choix ? Est-ce qu’il va trouver l’âme sœur ? Et surtout, est-ce qu’il a bien fait de ne pas s’occuper de ce machin bizarre appelé ‘écart type’ ?
[1] Cet exemple est tiré de l’excellent Statistiques pour Statophobes, de Denis Poinsot, disponible ici.
A une lointaine époque, j’étais prof et je faisais passer des contrôles à mes étudiants. Un premier groupe avait eu : 10, 11, 13, 9 et 12. L’autre groupe avait eu 9, 16, 5, 18 et 7. Question : qu’est-ce qu’on peut dire de ces deux groupes ? La première chose à faire, c’est une petite représentation graphique, ou chaque colonne, c’est un étudiant.
Puis je calcule la moyenne, que je représente par un trait rouge. Dans les deux cas, elle est de 11.
Pourtant, on sent bien que les deux groupes ne se ressemblent pas. Qu’est ce qui diffère ?
Ben dans le premier cas, toutes les notes sont plus ou moins autour de la moyenne. Dans le deuxième, ça part un peu dans tous les sens. En gros, dans le premier, les notes sont regroupées ; dans le deuxième, elles sont éparpillées. En stat ou dit plutôt « dispersées ».
L’objectif du jour, c’est de mesurer la dispersion. Autrement dit, on veut construire un indice qui sera grand quand les données sont dispersées, et petit quand les données sont regroupées.
« Heu ! Vous pouvez répéter la question ? »
Ok, je reprends. Vous connaissez, la moyenne. La moyenne, elle résume un groupe de nombre en donnant une idée globale de leur hauteur. Si la moyenne est grande, les nombres sont grands. Si la moyenne est petite, les nombres sont petits.
Fig 1. Différentes moyennes
Par exemple, si votre petit cousin vous dit qu’il a une moyenne générale de 16, vous savez que ses notes sont plutôt hautes. S’il vous dit qu’il a une moyenne générale de 5, c’est pas terrible… Bref, la moyenne, c’est un indice qui mesure la hauteur globale des notes. Et ben là, on veut faire pareil mais avec la dispersion : on veut construire un indice qui prendra des valeurs grandes quand les notes sont dispersées, et des valeurs petites quand les notes sont regroupées.
Fig 2 : différentes dispersions
Donc si je vous dis que dans une classe, la dispersion est grande, ça voudra dire qu’il y a plein de notes basses et plein de notes hautes. Si la dispersion est petite, toutes les notes seront regroupées autour de la moyenne.
Donc la question est : comment fabriquer un indice qui sera “petit” quand les valeurs sont regroupées autour de la moyenne (exemple de gauche) et “grand” quand les valeurs sont dispersées c’est à dire loin de la moyenne (exemple de droite).
Allez, pour vous aider, j’ajoute des petites flèches qui représentent les écarts entre les notes des étudiants et la moyenne de la classe. Qu’est ce qu’on remarque ?
A gauche, les écarts sont petits et à droite, ils sont grands. Donc on tient notre solution : là où on veut construire un indice grand, les écarts sont grands ; et là où on veut construire un indice petit, les écarts sont petits : on a qu’à prendre la moyenne des écarts !
Hmmm. Cela ne marche pas ! Cela ne marche pas parce que les écarts positifs sont compensés par les écarts négatifs et donc la moyenne des écarts, c’est toujours zéro !
Donc cela ne marche pas…
Qu’est ce qu’on va bien pouvoir faire ?
La moyenne des écarts, c’était une bonne idée, mais le souci, c’est qu’il y a des signes moins et ça annule les signes plus. Donc pour corriger ça, on va virer les signes moins. On ne prend que les nombres. Techniquement, on dit qu’on utilise la fonction valeur absolue. Au lieu de prendre les écarts, on va prendre les valeurs absolues des écarts. Et on en fait la moyenne.
Ca marche ! On a calculé un indice qui prend une valeur grande quand les notes sont dispersées, et une valeur petite quand elles sont regroupées. Sur notre exemple Différentes dispersions (fig 2) on obtient 0.82, , 1.84 et 2.85. Donc cet indice est conforme à son cahier des charges : petit, moyen, grand. Cet indice, on l’appelle l’Ecart Absolu Moyen.
Mais…
Mais on ne l’aime pas beaucoup cet indice. On ne l’aime pas parce qu’il utilise la fonction valeur absolue et la fonction valeur absolue, elle n’est pas très commode. En fait, quand on la dessine, elle a un angle.
Et en math, on aime pas les fonctions qui ont des angles. Une fonction qui a un angle, c’est une fonction qui n’est pas dérivable. Alors peu importe ce que veut dire « pas dérivable », ce qui compte, c’est que comme l’écart absolu moyen utilise la fonction valeur absolue, il n’est pas dérivable non plus. Et tous les théorèmes qui commencent pas « soit une fonction dérivable », il ne pourra pas les utiliser. Et y en a vraiment beaucoup. Bref, on n’aime pas trop cet indice.
Alors qu’est-ce qu’on peut faire ?
(J’espère au passage que vous noterez tous les efforts que je fais pour mettre un peu de suspens dans un article sur les statistiques !!! 🙂 )
On a utilisé la valeur absolue pour supprimer les signes moins. Mais y a d’autres méthodes pour ça. On peut par exemple utiliser la fonction “carrée” : 1² ça fait 1 et -1² ca fait 1. Si on la représente, on voit qu’elle n’a pas d’angle nul part, elle est toute en douceur.
Est-ce que ça suffit pour dire que la fonction carré est dérivable ?
nous que oui.
Bon. On le croit sur parole, il est mathématicien, il a eu la médaille Fields et en plus il est député, il doit savoir ce qu’il dit.
Donc au lieu de faire la moyenne des écarts, on va faire la moyenne des écarts au carré.
Autrement dit, je prends tous les écarts, je les mets au carré :
Et je fais la moyenne :
Ca fait donc 2 pour le groupe A et 26 pour le groupe B.
Alors, est-ce que cet indice remplit son cahier des charges ?
Sur mon exemple, j’obtiens 0.68 à gauche, 3,68 sur celui du milieu et 7.14 sur celui de droite. Donc il prend des valeurs grandes là où la dispersion est grande, des valeurs petites là où elle est petite. Et il est dérivable.
Cet indice a plein de bonnes qualités. On le garde et on va l’appeler « la variance ».
Pour calculer la variance d’un groupe de valeurs, je commence par calculer la moyenne des valeurs m. Puis, je calcule les écarts entre les valeurs et la moyenne. Je mets les écarts au carré. J’additionne tous les carrés ainsi obtenus. Et je divise par le nombre de valeurs. Et j’ai la variance.
La variance, c’est un indice qui est cool, on l’utilise beaucoup. Mais… Il a juste un petit défaut.
Quand j’additionne des pommes et des pommes, j’obtiens des pommes. Quand j’additionne des euros et des euros, j’obtiens des euros.
Quand j’additionne des mètres et des mètres, j’obtiens des mètres. Mais quand je multiplie des mètres par des mètres, j’obtiens des mètres carrés. Et donc la variance, si les valeurs de base sont en mètre, elle est en mètre carré. Si les valeurs sont en euro, la variance est en euro carré… Si c’est des pommes, elle est en pomme au carré. Ça veut rien dire, mais c’est comme ça.
Mais du coup, “ça ne veut rien dire” c’est un peu embêtant. D’où l’idée, au lieu de travailler avec la variance, je travaille avec la racine carré de la variance. Parce que si j’ai un nombre en « mètres carrés » en « euro carré » ou en « pommes carré », ben la racine carrée du nombre sera en mètre, en euro ou en pomme. Et donc, j’obtiens un nouvel indice, la racine de la variance.
Au niveau des calculs, d’abord je calcule la variance, et je prends la racine carré de la variance.
Sur les exemples initiaux, l’écart type vaut 0,82 à gauche, 1,92 au milieu et 2,67 à droite. Donc il prend des valeurs grandes là où la dispersion est grande, des valeurs petites là où elle est petite. Il est dérivable parce qu’il n’utilise que des fonctions dérivables. Et son unité est la même que celles des nombres de départ.
Et ben c’est cool, cet indice est parfait. On le garde et on va l’appeler « écart type ».
Donc, je résume. Pour calculer l’écart type d’un groupe de valeurs :
En général, la somme, on la note Sigma et donc, dans les livres de stat, voilà la formule que vous trouverez.
Au final, qu’est-ce que j’ai voulu montrer ?
C’est que cette formule de l’écart type que probablement un certain nombre d’entre vous connaissent, c’est pas juste un truc de tordu inventé par des mathématiciens pervers. C’est un truc où tout a une raison d’être : Le carré, c’est pour virer les signes moins. La racine, c’est pour que l’unité soit la même que l’unité initiale. La division, c’est pour faire une moyenne. Bref, si on avait voulu faire plus simple, on n’aurait pas réussi.
Est-ce que Johan a bien choisi sa destination ?
L’écart type des âges est de 15. Maintenant qu’on sait ce que ça veut dire… Ça veut dire quoi, d’ailleurs ? Ça veut dire que les âges sont très très dispersés. En gros, il y a plein de gens qui auront 10, 15, 20 ans de plus que la moyenne, et plein de gens qui auront 10, 15, 20 ans de moins que la moyenne… En l’occurrence, sur Quiet Island (moyenne d’age 40 ans), personne n’a 40 ans : il y une cure thermale, donc beaucoup de retraités, 60 ans et plus, et des hordes d’infirmières à leur service, 21, 22, 23 ans… Moyenne d’âge 40 ans, écart type 15. Par contre, le Paradis des glaces (moyenne d’âge 22 ans) est un village familial. Personne n’a 22 ans. Johan va croiser de très nombreux couples (entre 35 et 40 ans) avec des enfants entre 0 et 5 ans… Moyenne d’âge 22, écart type 15…
Moralité, pour chopper, faut être balaise en stat !
Plus sérieusement, en stat, une moyenne pure ne veut pas dire grand-chose. Quand on donne la moyenne, on donne toujours l’écart type.
Puisqu’on parle de la moyenne, petit retour sur l’article précédent : vous vous souvenez, on avait dit que la moyenne est super précise, mais qu’elle souffre d’un grave défaut : elle est ultrasensible aux valeurs aberrantes. Et bien l’écart type, c’est encore pire. La moindre valeur aberrante et pchiiiii, il explose.
Vous vous souvenez, pour la moyenne, on avait trouvé une parade grâce à un autre indice qu’on appelle la médiane, qui est un indice un peu grossier, mais super-résistant aux valeurs aberrantes. Et ben pour l’écart type, on va faire pareil, on va introduire une manière de mesurer la dispersion qui résiste aux valeurs aberrantes.
Rappel, la médiane est la valeur qui coupe la population en 2 : 50% des gens sont au-dessus, 50% sont au-dessous. Et bien les quartiles, c’est les valeurs qui coupent la population en 4 tranches de 25%.
Pour faire le calcul :
Au final, on vient de saucissonner notre population en 4 morceaux de 25% chacun. Entre le minimum et le 1re quartile, y a 25% des gens ; entre le 1re quartile et la médiane, il y a 25% des gens. Et ainsi de suite.
Si les quartiles sont loin de la médiane, c’est que au moins 50% des gens sont loin de la médiane (25% sont au-dessus du 3° quartile et 25% sont au-dessous du 1° quartile). A l’inverse, s’ils sont proches, c’est que 50% des gens sont proches de la médiane (car 50% des gens sont contenus entre le 1° et le 3° quartile).
Les quartiles Q1 et Q3 encadrent les 50% de la population les plus proches de la médiane ; les quartiles Q0 et Q1 plus les quartiles Q3 et Q4 encadrent les 50% de la population les plus loin de la médiane.
Dans le cas des îles, on aurait eu :
Le Paradis des glaces a donc une population plus jeune. Mais plutôt ambiance famille… 25% sont des jeunes enfants ! Quiet Island a une population dont 25% a entre 20 et 22 ans.
* * *
Voilà, c’est la fin de cet article. La semaine prochaine, je vous parlerai de graphique, histogramme, dessin, camembert et même de boîtes à moustache. C’est des super boîtes, on met des chats dedans, on fait des petits trous sur les côtés comme ça les chats y peuvent laisser passer leur moustache.
Et surtout n’oubliez pas : les stat, même pas mal !
Graphique des notes des étudiants
groupe1 <- c(10, 11, 13, 9, 12)
groupe2 <- c(9, 16, 5, 18, 7)
mean(groupe1)
mean(groupe2)
par(mfrow=c(1,2))
barplot(groupe1,ylim=c(0,20),xlab=”Groupe A”)
barplot(groupe2,ylim=c(0,20),xlab=”Groupe B”)
par(mfrow=c(1,2))
barplot(groupe1,ylim=c(0,20),xlab=”Groupe A”)
lines(c(-10,10),c(11,11),lwd=2,col=”red”)
barplot(groupe2,ylim=c(0,20),xlab=”Groupe B”)
lines(c(-10,10),c(11,11),lwd=2,col=”red”)
Graphiques des notes du groupe A et du groupe B
set.seed(1)
v1 <- rnorm(50,6,1)
v2 <- rnorm(50,10,1)
v3 <- rnorm(50,14,1)
par(mfrow=c(1,3))
barplot(v1,ylim=c(0,20),xlab=”Moyenne faible”)
lines(c(-10,130),c(6,6),lwd=2,col=”red”)
barplot(v2,ylim=c(0,20),xlab=”Moyenne intermédiare”)
lines(c(-10,130),c(10,10),lwd=2,col=”red”)
barplot(v3,ylim=c(0,20),xlab=”Moyenne haute”)
lines(c(-10,130),c(14,14),lwd=2,col=”red”)
set.seed(1)
v1 <- rnorm(50,10,1)
v2 <- rnorm(50,10,2)
v3 <- rnorm(50,10,3)
par(mfrow=c(1,3))
barplot(v1,ylim=c(0,20),xlab=”Dispersion petite”,xlim=c(1,66))
arrows(63,8,,12,col=”blue”,lwd=2)
arrows(63,12,,8,col=”blue”,lwd=2)
barplot(v2,ylim=c(0,20),xlab=”Dispersion intermédiare”,xlim=c(1,66))
arrows(63,6,,14,col=”blue”,lwd=2)
arrows(63,14,,6,col=”blue”,lwd=2)
barplot(v3,ylim=c(0,20),xlab=”Dispersion grande”,xlim=c(1,66))
arrows(63,4,,16,col=”blue”,lwd=2)
arrows(63,16,,4,col=”blue”,lwd=2)
Graphiques du groupe A et du groupe B avec les flèches représentant les écarts entre les notes et la moyenne
par(mfrow=c(1,2))
barplot(groupe1,ylim=c(0,20),xlab=”Groupe A”)
lines(c(-10,10),c(11,11),lwd=2,col=”red”)
arrows(0.8,11,,10,col=”blue”,lwd=2)
arrows(3.1,11,,13,col=”blue”,lwd=2)
arrows(4.3,11,,9,col=”blue”,lwd=2)
arrows(5.5,11,,12,col=”blue”,lwd=2)
barplot(groupe2,ylim=c(0,20),xlab=”Groupe B”)
lines(c(-10,10),c(11,11),lwd=2,col=”red”)
arrows(0.8,11,,9,col=”blue”,lwd=2)
arrows(1.9,11,,16,col=”blue”,lwd=2)
arrows(3.1,11,,5,col=”blue”,lwd=2)
arrows(4.3,11,,18,col=”blue”,lwd=2)
arrows(5.5,11,,7,col=”blue”,lwd=2)