R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Blog
R++ / Analyse statistique des données  / ~04~ A quoi ça sert les stat ? Les types de variables
photo de Sudhir Venkatesh pour son livre sur les statistiques dans les gangs

~04~ A quoi ça sert les stat ? Les types de variables

 
En 1989, Sudhir Venkatesh commence une thèse de sociologie. Pour son travail, il fait des sondages dans les quartiers chauds de Chicago. Il tombe sur le repère d’un gang de dealer.

Comment l’histoire (authentique) du petit thésard va-t-elle finir, et surtout, quel est le lien avec les statistiques ? Vous le saurez en lisant cet article…

 

… ça se passe à Chicago.

« C’est un espion, si on le laisse partir, on est mort ! Faut le buter » Sauf que comme il a l’air sympa, ils ne le buttent pas tout de suite. Mais ils ne peuvent pas non plus le laisser partir.

Photo de Sudhir Venkatesh, data analyste et sociologue dans un gang à Chicago

Donc ils le gardent. Le soir, ils lui offrent une bière, parce qu’ils ne vont pas le laisser mourir de soif. Ils fraternisent et du coup, le lendemain, quand vient le moment de le buter, ils n’ont pas le cœur à l’ouvrage. Et surtout, il a tellement posé de questions « complètement stupides » qu’il n’y a plus de doute : il n’est pas membre d’une bande rivale, c’est vraiment un sociologue. Ils le laissent partir.

C’est alors que Sudhir Venkatesh le thésard a une idée géniale : le hasard a fait de lui le seul sociologue au monde à savoir où trouver un gang et à pouvoir leur parler sans se faire liquider. Il saisit l’opportunité, il change son sujet de thèse. Il fait ce que personne avant lui n’a jamais fait : il étudie un gang de l’intérieur.

Pendant 6 ans, il va vivre avec le gang, quasiment jour et nuit. Il a négocié avec le chef, il a le droit de poser des questions. Et en plus, il se retrouve un jour avec le grand livre secret de la comptabilité dans les mains. Son sang ne fait qu’un tour…

Qu’est-ce qu’il en fait ? Des stats !

 

En ce qui nous concerne

Extrait de la Base de données Sudhir Venkatesh

Voilà sa base de données.

 

Alors, un peu de vocabulaire :

  • Chaque ligne correspond a un individu, dans le cas présent, un membre du gang.
  • Dans chaque colonne, il note un type d’information. Par exemple, il note le [Salaire]. Comme ça varie d’un individu à l’autre, on appelle ça une variable. Donc en gros, une variable, c’est une colonne.

La première étape de toute analyse statistique est de déterminer la nature des variables (Variable, rappelez-vous : c’est les colonnes). Et dans les colonnes, on mesure des choses extrêmement variées. Certaines contiennent des nombres, d’autres des mots, des chiffres et des lettres.

Et en fonction de ce qu’elles contiennent, on pourra faire certaines analyses et pas d’autre. Par exemple, sur une variable qui contient des mots, on ne pourra pas faire de moyenne… Donc, les variables ont des natures différentes.

Je vous en présente 4 :

 

1. Les variables nominales

 

C’est très simple : c’est quand la réponse à la question est un mot.

Par exemple la couleur des yeux. Ou dans le cas de Sudhir, la [Disponibilité]. Ou encore, le prénom, le groupe sanguin, le département, la catégorie socio-professionnelle.

 

2. Les variables ordonnées

C’est quand la réponse est un mot, parmi un ensemble de mots que l’on peut classer.

 

Des mentions «très bien» au bac comme s'il en pleuvait - Le Figaro EtudiantPar exemple, la mention au bac. Si vous avez eu Très Bien, c’est mieux que Bien, et Bien, c’est mieux que Passable. Dans le cas Shudir, Boss, c’est mieux qu’Officier, qui est mieux que Fantassin qui est mieux que Guetteur. Alors que pour une variable nominale, les yeux bleus, c’est pas mieux que les yeux verts (ou alors, ça dépend des goûts !).

Petite subtilité, pour qu’une variable soit ordonnée, il faut que tous les mots soient ordonnés.

Par exemple, dans la cas [Disponibilité] : Vivant c’est mieux que Prison qui est mieux que Mort. Mais qu’est ce qui est mieux, Prison ou Hôpital ? Ben ça dépend, 3 mois avec sursis, c’est mieux qu’une jambe coupée et un œil crevé (pirate). Par contre, perpet, c’est moins bien qu’une petite blessure. Donc entre Prison et Hopital, on ne peut pas choisir. Du coup, la variable n’est pas ordonnée, elle est nominale.

Exemples de variable ordonnée : la mention au bac, le classement à une course, ou bien les réponses aux questionnaires, quand on vous demande : vous avez aimé ? « Beaucoup, moyennement, pas du tout ». C’est aussi ce que dans certains cours on appelle les variables d’intervalles.

 

3. Les variables discrètes

La famille la plus nombreuse de Grande-Bretagne attend son 18ème enfant ! - Magicmaman.com

Les variables discrètes, c’est des nombres entiers, et – très important – il n’y a pas beaucoup de valeurs possibles.

Au passage, pour nos amis matheux, vous noterez que ‘discret’, ça ne veut pas dire la même chose en math et en stat. Par exemple, le nombre de frères et sœurs. On peut en avoir 0, 1, 2, 3… mais on ne peut pas en avoir 250 !

Bref, une variable discrète : c’est des nombres ; entiers ; pas beaucoup. Dans le cas Sudhir, le nombre de [Condamnations] varie entre 0 et 8, donc il est discret.

 

4. Les variables continues

Sur le principe, les variables continues c’est quand entre deux valeurs, on peut toujours en glisser une autre.

Les salaires et l'inflation |

Par exemple, je mesure 1m84, mon copain mesure 1m85. Entre nous deux, on peut trouver quelqu’un qui mesure 1m84 et demi.

En pratique, on parle aussi de variables continues quand il s’agit de nombres entiers, mais qu’il y a beaucoup de valeurs possibles. Par exemple le salaire; ça va de zéro à beaucoup beaucoup. C’est que des nombres entiers, mais on considère ça comme une variable continue.

Exemple de numérique : le poids, la taille, l’âge, le taux de glycémie, le montant du compte courant, et tout, et tout.

Les numériques, c’est souvent les préférées des statisticiens, parce qu’avec on peut faire plein de choses. Par exemple, le salaire, on peut le doubler. Ou le diviser par deux, ça dépend si on est patron ou syndicaliste !

 

Attention, il y a des piègesCARTE DE FRANCE DEPARTEMENTS : carte des départements de France

Dans certains cas, un nombre n’est pas vraiment un nombre. Par exemple, le département : la Haute Garonne, c’est 31, l’Essonne, c’est 91. Ca n’a pas de sens de faire la moyenne entre 31 et 91. Pareil, on ne peut pas dire que l’Essonne est supérieure ou inférieure à la Haute Garonne.

 

Donc, attention, le département, ça a le gout d’une discrète, ça a la couleur d’une discrète, mais ce n’est pas une discrète. C’est une nominale. Déguisée en discrète, mais c’est une nominale.

Vous en connaissez sûrement d’autres comme ça…

 


A retenir

Donc pour résumer, on a 4 types de variables : nominale, ordonnée, discrète et numérique.

  1. Si c’est des mots sans ordre, on est en nominal.
  2. Si c’est des mots avec ordre, on est en ordonnées.
  3. Si c’est des nombres entiers et qu’ils peuvent prendre peu de valeurs différentes, on est en discret.
  4. Si c’est des nombres avec virgules, ou des entiers qui peuvent prendre beaucoup de valeurs différentes, on est en continue.

 

Du coup, notre gang ?

Retour à notre thésard en sociologie. Dans les films, on voit toujours des dealers avec des grosses bagouzes en or, dans des voitures décapotables remplies de super filles super belles sur chaque siège. Qu’en est-il en réalité ?

 

Photo d'un gang à Chicago

Dans la vraie vie :

  • Le boss, il gagne 8500 dollars par mois ; clairement, il peut s’acheter les bagues et la voiture avec tous les équipements.
  • En dessous, 3 officiers. Ils ont 2100$ par mois A EUX TROIS ! Ce qui fait 700$ par personne ! Ils sont même pas au smic, c’est vraiment l’arnaque d’être officier.
  • Encore en dessous, les fantassins : 7400$ pour 40, soit 185$ par mois !!! C’est même pas le RSA !!!
  • Quand aux guetteurs, ils sont payés avec l’espoir de devenir un jour des fantassins.

Si on ajoute à ça le taux de mortalité hyper élevé, la probabilité de passer par la case prison qui est quand même de l’ordre de 30% et le fait que, on a autant de chance de devenir le boss que de finir rock star, on peut dire que dealer, c’est vraiment un métier de $%#&¤£.

 

—–

 

Voila, c’est la fin de cet article. Comme toujours les exemples sont authentiques. Sudhir a même écrit plusieurs livres sur le sujet.

Dans le prochain article, on parlera de moyenne, médiane et je vous dirai lequel des deux est le mieux. Suspense… Ensuite, je vous parlerai des 5% de gens qui ne sont pas les enfants de qui ils pensent, des 5 bars-tabac qui ferment par jour malgré les 153 millions de cigarettes fumées et des 32 000 pots de nutella qu’on étale sur 25 millions de baguettes.

Au plaisir !

 

Photo Christophe Genolini de notre équipe

Christophe Genolini

Pas encore de commentaire
Post a Comment