R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Blog
R++ / Analyse statistique des données  / ~05~ A quoi ça sert les stat ? Les effectifs
Photo de gens de tailles croissantes pour le tableau d'effectif en statistiques

~05~ A quoi ça sert les stat ? Les effectifs

 

5% des enfants… ne sont pas les enfants de qui ils pensent.

5%. C’est juste énorme ! Alors comment on sait ça ?

Ben c’est simple, un jour un enfant tombe malade, on l’amène à l’hôpital, on fait des tests et on se rend compte que la maladie est génétique. Alors du coup, on invite toute la petite famille à faire des tests. Et là, le médecin se rend compte que… le petit deuxième… (chance !) est immunisé à la maladie. Parce qu’il n’a pas les mêmes gênes que papa.

 

 

Au final, on compte… tous ceux qui ont les mêmes gênes, tous ceux qui n’ont pas les même gênes…

C’est en comptant que Google arrive à prédire les bouchons, les épidémies ou la popularité d’un site web.

Comment on compte  ? Ben ça dépend. Ça dépend de ce sur quoi on travaille.

Rappelez-vous, il y a :

  • les variables nominales. C’est quand la réponse à la question est un mot..
  • les variables ordonnées. C’est quand la réponse est un mot mais des mots que l’on peut classer.
  • les variable discrètes, c’est des nombres entiers, et il n’y a pas beaucoup de valeurs possibles.
  • les variables continues c’est des nombres à virgule.

 

Tableau par catégories

Pour les variables nominales, ordonnées et discrètes : on commence par dresser la liste de toutes les valeurs possibles et on les met dans un tableau.

Par exemple, j’ai 12 étudiants, je mesure la variable ‘Niveau d’étude’, j’obtiens les valeurs suivantes : {L1, L2, L1, M1, M2, L3, L3, L2, L1, L3, M1 et L1}. Les valeurs possibles sont L1 L2 L3 M1 et M2. Donc je dresse le tableau suivant :

Valeurs possibles Effectifs
L1
L2
L3
M1
M2

 

Puis pour chaque valeur, je compte combien de L1, combien de L2 et pareil pour toutes les autres valeurs. J’obtiens ça :

Valeurs possibles Effectifs
L1 4
L2 2
L3 3
M1 2
M2 1

 

J’insiste sur le fait que d’abord on dresse la liste des valeurs possibles et ensuite on compte. En particulier, s’il y a une valeur possible et que personne ne l’a choisie, c’est super important de la marquer.

Un cas concret

Je prends un exemple.

Résultat d’une enquête de satisfaction dans un hôpital, sur 100 personnes :

  • Contents : 91 personnes
  • Hyper contents : 9 personnes

Qu’est-ce qu’on peut en conclure, que l’hôpital est super bon ? Et bien ça dépend.

Ça dépend de la question et surtout des réponses autorisées.

-Si la question est : « Quel est votre degré de satisfaction : Furax, Pas content, Content, Hyper content ? » Alors ca veut dire le résultat du sondage est :

  • Furax : 0 personnes
  • Pas contents : 0 personnes
  • Contents : 91 personnes
  • Hyper contents : 9 personnes

On peut dire que l’hôpital est un super hôpital.

-Si la question est « Quel est votre degré de satisfaction : Content, Hyper content ? », alors on peut juste dire que l’hôpital n’est pas très honnête, il embauche des statisticiens retors qui se débrouillent pour poser des questions tordues ne permettant pas de dire des trucs négatifs ! Mais on ne peut certainement pas conclure que l’hôpital est bon !

 


A retenir

Il est très important de noter aussi les catégories où il y a zéro réponse.


 

Ce tableau, on l’appelle le tableau des effectifs. Si on veut, on peut diviser chaque effectif par le nombre total d’individus. Dans mon cas, j’ai 12 individus, je divise chaque effectif par 12, ca me donne ça :

Valeurs possibles Effectifs Pourcentage
L1 4 4/12=0,33=33,33%
L2 2 2/12=16,67%
L3 3 25,00%
M1 2 16,67%
M2 1 8,33%
Total 12 100%

 

C’est le tableau des pourcentages d’effectifs.

Ça y est, vous savez compter. Maintenant, on peut aller sur le site de l’Insee et compter…

  • 5 bars tabac ferment malgré les 153 millions de cigarettes fumées par jour
  • 2964 bébés naissent tous les jours malgré les 59 000 boites de contraceptif
  • 450 000 films sont téléchargés illégalement, c’est mieux que les 115 voitures brulées… tous les jours !
  • En 1909, 90% des médecins n’étaient pas allés au collège. Et il y avait 8000 voitures dans le monde. Dans le monde entier.

 

Variables continues : tableau par intervalle

Retour au comptage. Pour les variables continues, comment fait-on ?

Par exemple, je mesure la taille chez 11 personnes. J’obtiens ça : {166, 172,174, 175, 176, 178, 179, 181, 182, 184, 188}. Si je trace le tableau de toutes les valeurs possibles et que je compte, j’obtiens ça :

Tailles possibles Effectif
160 0
161 0
162 0
163 0
164 0
165 0
166 1
167 0
168 0
169 0
170 0
171 0
172 1
173 0
174 1
175 1
176 1
177 0
178 1
179 1
180 0
181 1
182 1
183 0
184 1
185 0
186 0
187 0
188 1
189 0
190 0

 

Je vous rappelle que l’objectif des statistiques, c’est de résumer et simplifier. Là, on a un résumé qui est plus compliqué que le tableau de données initial !

Donc on ne va pas faire comme ça. Au lieu de compter les valeurs, on va définir des intervalles qui vont regrouper les gens.

Dans le cas présent, on fait des intervalles qui vont de 5 en 5, de 1m65 (inclus) à 1m70 (exclus), de 1m70 (inclus) à 1m75 (exclus) et ainsi de suite. Ensuite, on compte le nombre de personnes qu’il y a dans chaque intervalle. Et voilà, c’est le tableau des effectifs par intervalle :

Valeurs possibles Effectifs
[165 ; 170[ 1
[170 ; 175[ 2
[175 ; 180[ 4
[180 ; 185[ 3
[185 ; 190[ 1

 

Attention, ce tableau N’est PAS le tableau d’effectif de la variable Taille. C’est les effectifs de la variable « Taille regroupée en intervalles de longueur 5 », car les effectifs de la variable Taille, ça n’a pas de sens.

Au passage, on aurait pu choisir d’autres intervalles, on aurait pu prendre des intervalles de longueur plus petites, ou plus grandes. Par exemple, avec des intervalles de longueur 10, on obtient :

Valeurs possibles Effectifs
[160 ; 170[ 1
[170 ; 180[ 6
[180 ; 190[ 4

 

Vous aurez noté que ça change le tableau. Alors comment choisir la longueur des intervalles ? Il n’y a pas vraiment de règles. En gros, plus vous avez de données, plus les intervalles peuvent être fins, et inversement.

***

Voilà, c’est la fin de cet article sur les effectifs. La semaine prochaine, je vous raconterai… des blagues ! Et oui, il fait froid, on est confiné, tout ça, une petite blague. De statisticien of course.

A très vite !

Et surtout n’oubliez pas : les stats, même pas mal !

 

Photo Christophe Genolini de notre équipe

Christophe Genolini

Pas encore de commentaire
Post a Comment