~05~ A quoi ça sert les stat ? Les effectifs
5% des enfants… ne sont pas les enfants de qui ils pensent.
5%. C’est juste énorme ! Alors comment on sait ça ?
Ben c’est simple, un jour un enfant tombe malade, on l’amène à l’hôpital, on fait des tests et on se rend compte que la maladie est génétique. Alors du coup, on invite toute la petite famille à faire des tests. Et là, le médecin se rend compte que… le petit deuxième… (chance !) est immunisé à la maladie. Parce qu’il n’a pas les mêmes gênes que papa.
Au final, on compte… tous ceux qui ont les mêmes gênes, tous ceux qui n’ont pas les même gênes…
C’est en comptant que Google arrive à prédire les bouchons, les épidémies ou la popularité d’un site web.
Comment on compte ? Ben ça dépend. Ça dépend de ce sur quoi on travaille.
Rappelez-vous, il y a :
- les variables nominales. C’est quand la réponse à la question est un mot..
- les variables ordonnées. C’est quand la réponse est un mot mais des mots que l’on peut classer.
- les variable discrètes, c’est des nombres entiers, et il n’y a pas beaucoup de valeurs possibles.
- les variables continues c’est des nombres à virgule.
Tableau par catégories
Pour les variables nominales, ordonnées et discrètes : on commence par dresser la liste de toutes les valeurs possibles et on les met dans un tableau.
Par exemple, j’ai 12 étudiants, je mesure la variable ‘Niveau d’étude’, j’obtiens les valeurs suivantes : {L1, L2, L1, M1, M2, L3, L3, L2, L1, L3, M1 et L1}. Les valeurs possibles sont L1 L2 L3 M1 et M2. Donc je dresse le tableau suivant :
Valeurs possibles | Effectifs |
L1 | |
L2 | |
L3 | |
M1 | |
M2 |
Puis pour chaque valeur, je compte combien de L1, combien de L2 et pareil pour toutes les autres valeurs. J’obtiens ça :
Valeurs possibles | Effectifs |
L1 | 4 |
L2 | 2 |
L3 | 3 |
M1 | 2 |
M2 | 1 |
J’insiste sur le fait que d’abord on dresse la liste des valeurs possibles et ensuite on compte. En particulier, s’il y a une valeur possible et que personne ne l’a choisie, c’est super important de la marquer.
Un cas concret
Je prends un exemple.
Résultat d’une enquête de satisfaction dans un hôpital, sur 100 personnes :
- Contents : 91 personnes
- Hyper contents : 9 personnes
Qu’est-ce qu’on peut en conclure, que l’hôpital est super bon ? Et bien ça dépend.
Ça dépend de la question et surtout des réponses autorisées.
-Si la question est : « Quel est votre degré de satisfaction : Furax, Pas content, Content, Hyper content ? » Alors ca veut dire le résultat du sondage est :
- Furax : 0 personnes
- Pas contents : 0 personnes
- Contents : 91 personnes
- Hyper contents : 9 personnes
On peut dire que l’hôpital est un super hôpital.
-Si la question est « Quel est votre degré de satisfaction : Content, Hyper content ? », alors on peut juste dire que l’hôpital n’est pas très honnête, il embauche des statisticiens retors qui se débrouillent pour poser des questions tordues ne permettant pas de dire des trucs négatifs ! Mais on ne peut certainement pas conclure que l’hôpital est bon !
A retenir
Il est très important de noter aussi les catégories où il y a zéro réponse.
Ce tableau, on l’appelle le tableau des effectifs. Si on veut, on peut diviser chaque effectif par le nombre total d’individus. Dans mon cas, j’ai 12 individus, je divise chaque effectif par 12, ca me donne ça :
Valeurs possibles | Effectifs | Pourcentage |
L1 | 4 | 4/12=0,33=33,33% |
L2 | 2 | 2/12=16,67% |
L3 | 3 | 25,00% |
M1 | 2 | 16,67% |
M2 | 1 | 8,33% |
Total | 12 | 100% |
C’est le tableau des pourcentages d’effectifs.
Ça y est, vous savez compter. Maintenant, on peut aller sur le site de l’Insee et compter…
- 5 bars tabac ferment malgré les 153 millions de cigarettes fumées par jour
- 2964 bébés naissent tous les jours malgré les 59 000 boites de contraceptif
- 450 000 films sont téléchargés illégalement, c’est mieux que les 115 voitures brulées… tous les jours !
- En 1909, 90% des médecins n’étaient pas allés au collège. Et il y avait 8000 voitures dans le monde. Dans le monde entier.
Variables continues : tableau par intervalle
Retour au comptage. Pour les variables continues, comment fait-on ?
Par exemple, je mesure la taille chez 11 personnes. J’obtiens ça : {166, 172,174, 175, 176, 178, 179, 181, 182, 184, 188}. Si je trace le tableau de toutes les valeurs possibles et que je compte, j’obtiens ça :
Tailles possibles | Effectif |
160 | 0 |
161 | 0 |
162 | 0 |
163 | 0 |
164 | 0 |
165 | 0 |
166 | 1 |
167 | 0 |
168 | 0 |
169 | 0 |
170 | 0 |
171 | 0 |
172 | 1 |
173 | 0 |
174 | 1 |
175 | 1 |
176 | 1 |
177 | 0 |
178 | 1 |
179 | 1 |
180 | 0 |
181 | 1 |
182 | 1 |
183 | 0 |
184 | 1 |
185 | 0 |
186 | 0 |
187 | 0 |
188 | 1 |
189 | 0 |
190 | 0 |
Je vous rappelle que l’objectif des statistiques, c’est de résumer et simplifier. Là, on a un résumé qui est plus compliqué que le tableau de données initial !
Donc on ne va pas faire comme ça. Au lieu de compter les valeurs, on va définir des intervalles qui vont regrouper les gens.
Dans le cas présent, on fait des intervalles qui vont de 5 en 5, de 1m65 (inclus) à 1m70 (exclus), de 1m70 (inclus) à 1m75 (exclus) et ainsi de suite. Ensuite, on compte le nombre de personnes qu’il y a dans chaque intervalle. Et voilà, c’est le tableau des effectifs par intervalle :
Valeurs possibles | Effectifs |
[165 ; 170[ | 1 |
[170 ; 175[ | 2 |
[175 ; 180[ | 4 |
[180 ; 185[ | 3 |
[185 ; 190[ | 1 |
Attention, ce tableau N’est PAS le tableau d’effectif de la variable Taille. C’est les effectifs de la variable « Taille regroupée en intervalles de longueur 5 », car les effectifs de la variable Taille, ça n’a pas de sens.
Au passage, on aurait pu choisir d’autres intervalles, on aurait pu prendre des intervalles de longueur plus petites, ou plus grandes. Par exemple, avec des intervalles de longueur 10, on obtient :
Valeurs possibles | Effectifs |
[160 ; 170[ | 1 |
[170 ; 180[ | 6 |
[180 ; 190[ | 4 |
Vous aurez noté que ça change le tableau. Alors comment choisir la longueur des intervalles ? Il n’y a pas vraiment de règles. En gros, plus vous avez de données, plus les intervalles peuvent être fins, et inversement.
***
Voilà, c’est la fin de cet article sur les effectifs. La semaine prochaine, je vous raconterai… des blagues ! Et oui, il fait froid, on est confiné, tout ça, une petite blague. De statisticien of course.
A très vite !
Et surtout n’oubliez pas : les stats, même pas mal !
Christophe Genolini