5% des enfants… ne sont pas les enfants de qui ils pensent.
5%. C’est juste énorme ! Alors comment on sait ça ?
Ben c’est simple, un jour un enfant tombe malade, on l’amène à l’hôpital, on fait des tests et on se rend compte que la maladie est génétique. Alors du coup, on invite toute la petite famille à faire des tests. Et là, le médecin se rend compte que… le petit deuxième… (chance !) est immunisé à la maladie. Parce qu’il n’a pas les mêmes gènes que papa.
Au final, on compte… tous ceux qui ont les mêmes gènes, tous ceux qui n’ont pas les même gènes…
C’est en comptant que Google arrive à prédire les bouchons, les épidémies ou la popularité d’un site web.
Comment on compte ? Ben ça dépend. Ça dépend de ce sur quoi on travaille.
Rappelez-vous, il y a :
Pour les variables nominales, ordonnées et discrètes : on commence par dresser la liste de toutes les valeurs possibles et on les met dans un tableau.
Par exemple, j’ai 12 étudiants, je mesure la variable ‘Niveau d’étude’, j’obtiens les valeurs suivantes : {L1, L2, L1, M1, M2, L3, L3, L2, L1, L3, M1 et L1}. Les valeurs possibles sont L1 L2 L3 M1 et M2. Donc je dresse le tableau suivant :
Valeurs possiblesEffectifsL1L2L3M1M2
Puis pour chaque valeur, je compte combien de L1, combien de L2 et pareil pour toutes les autres valeurs. J’obtiens ça :
Valeurs possiblesEffectifsL14L22L33M12M21
J’insiste sur le fait que d’abord on dresse la liste des valeurs possibles et ensuite on compte. En particulier, s’il y a une valeur possible et que personne ne l’a choisie, c’est super important de la marquer.
Un cas concret
Je prends un exemple.
Résultat d’une enquête de satisfaction dans un hôpital, sur 100 personnes :
Qu’est-ce qu’on peut en conclure, que l’hôpital est super bon ? Et bien ça dépend.
Ça dépend de la question et surtout des réponses autorisées.
-Si la question est : « Quel est votre degré de satisfaction : Furax, Pas content, Content, Hyper content ? » Alors ca veut dire le résultat du sondage est :
On peut dire que l’hôpital est un super hôpital.
-Si la question est « Quel est votre degré de satisfaction : Content, Hyper content ? », alors on peut juste dire que l’hôpital n’est pas très honnête, il embauche des statisticiens retors qui se débrouillent pour poser des questions tordues ne permettant pas de dire des trucs négatifs ! Mais on ne peut certainement pas conclure que l’hôpital est bon !
A retenir
Il est très important de noter aussi les catégories où il y a zéro réponse.
Ce tableau, on l’appelle le tableau des effectifs. Si on veut, on peut diviser chaque effectif par le nombre total d’individus. Dans mon cas, j’ai 12 individus, je divise chaque effectif par 12, ca me donne ça :
Valeurs possiblesEffectifsPourcentageL144/12=0,33=33,33%L222/12=16,67%L3325,00%M1216,67%M218,33%Total12100%
C’est le tableau des pourcentages d’effectifs.
Ça y est, vous savez compter. Maintenant, on peut aller sur le site de l’Insee et compter…
Retour au comptage. Pour les variables continues, comment fait-on ?
Par exemple, je mesure la taille chez 11 personnes. J’obtiens ça : {166, 172,174, 175, 176, 178, 179, 181, 182, 184, 188}. Si je trace le tableau de toutes les valeurs possibles et que je compte, j’obtiens ça :
Tailles possiblesEffectif1600161016201630164016501661167016801690170017101721173017411751176117701781179118001811182118301841185018601870188118901900
Je vous rappelle que l’objectif des statistiques, c’est de résumer et simplifier. Là, on a un résumé qui est plus compliqué que le tableau de données initial !
Donc on ne va pas faire comme ça. Au lieu de compter les valeurs, on va définir des intervalles qui vont regrouper les gens.
Dans le cas présent, on fait des intervalles qui vont de 5 en 5, de 1m65 (inclus) à 1m70 (exclus), de 1m70 (inclus) à 1m75 (exclus) et ainsi de suite. Ensuite, on compte le nombre de personnes qu’il y a dans chaque intervalle. Et voilà, c’est le tableau des effectifs par intervalle :
Valeurs possiblesEffectifs[165 ; 170[1[170 ; 175[2[175 ; 180[4[180 ; 185[3[185 ; 190[1
Attention, ce tableau N’est PAS le tableau d’effectif de la variable Taille. C’est les effectifs de la variable « Taille regroupée en intervalles de longueur 5 », car les effectifs de la variable Taille, ça n’a pas de sens.
Au passage, on aurait pu choisir d’autres intervalles, on aurait pu prendre des intervalles de longueur plus petites, ou plus grandes. Par exemple, avec des intervalles de longueur 10, on obtient :
Valeurs possiblesEffectifs[160 ; 170[1[170 ; 180[6[180 ; 190[4
Vous aurez noté que ça change le tableau. Alors comment choisir la longueur des intervalles ? Il n’y a pas vraiment de règles. En gros, plus vous avez de données, plus les intervalles peuvent être fins, et inversement.
***
Voilà, c’est la fin de cet article sur les effectifs. La semaine prochaine, je vous raconterai… des blagues ! Et oui, il fait froid, on est confiné, tout ça, une petite blague. De statisticien of course.
A très vite !
Et surtout n’oubliez pas : les stats, même pas mal !