En 1989, Sudhir Venkatesh commence une thèse de sociologie. Pour son travail, il fait des sondages dans les quartiers chauds de Chicago. Il tombe sur le repaire d’un gang de dealer.
Comment l’histoire (authentique) du petit thésard va-t-elle finir, et surtout, quel est le lien avec les statistiques ? Vous le saurez en lisant cet article…
« C’est un espion, si on le laisse partir, on est mort ! Faut le buter » Sauf que comme il a l’air sympa, ils ne le buttent pas tout de suite. Mais ils ne peuvent pas non plus le laisser partir.
Donc ils le gardent. Le soir, ils lui offrent une bière, parce qu’ils ne vont pas le laisser mourir de soif. Ils fraternisent et du coup, le lendemain, quand vient le moment de le buter, ils n’ont pas le cœur à l’ouvrage. Et surtout, il a tellement posé de questions « complètement stupides » qu’il n’y a plus de doute : il n’est pas membre d’une bande rivale, c’est vraiment un sociologue. Ils le laissent partir.
C’est alors que Sudhir Venkatesh le thésard a une idée géniale : le hasard a fait de lui le seul sociologue au monde à savoir où trouver un gang et à pouvoir leur parler sans se faire liquider. Il saisit l’opportunité, il change son sujet de thèse. Il fait ce que personne avant lui n’a jamais fait : il étudie un gang de l’intérieur.
Pendant 6 ans, il va vivre avec le gang, quasiment jour et nuit. Il a négocié avec le chef, il a le droit de poser des questions. Et en plus, il se retrouve un jour avec le grand livre secret de la comptabilité dans les mains. Son sang ne fait qu’un tour…
Qu’est-ce qu’il en fait ? Des stats !
Voilà sa base de données.
Alors, un peu de vocabulaire :
La première étape de toute analyse statistique est de déterminer la nature des variables (Variable, rappelez-vous : c’est les colonnes). Et dans les colonnes, on mesure des choses extrêmement variées. Certaines contiennent des nombres, d’autres des mots, des chiffres et des lettres.
Et en fonction de ce qu’elles contiennent, on pourra faire certaines analyses et pas d’autres. Par exemple, sur une variable qui contient des mots, on ne pourra pas faire de moyenne… Donc, les variables ont des natures différentes.
Je vous en présente 4 :
C’est très simple : c’est quand la réponse à la question est un mot.
Par exemple la couleur des yeux. Ou dans le cas de Sudhir, la [Disponibilité]. Ou encore, le prénom, le groupe sanguin, le département, la catégorie socio-professionnelle.
C’est quand la réponse est un mot, parmi un ensemble de mots que l’on peut classer.
Par exemple, la mention au bac. Si vous avez eu Très Bien, c’est mieux que Bien, et Bien, c’est mieux que Passable. Dans le cas Shudir, Boss, c’est mieux qu’Officier, qui est mieux que Fantassin qui est mieux que Guetteur. Alors que pour une variable nominale, les yeux bleus, c’est pas mieux que les yeux verts (ou alors, ça dépend des goûts !).
Petite subtilité, pour qu’une variable soit ordonnée, il faut que tous les mots soient ordonnés.
Par exemple, dans la cas [Disponibilité] : Vivant c’est mieux que Prison qui est mieux que Mort. Mais qu’est ce qui est mieux, Prison ou Hôpital ? Ben ça dépend, 3 mois avec sursis, c’est mieux qu’une jambe coupée et un œil crevé (pirate). Par contre, perpet, c’est moins bien qu’une petite blessure. Donc entre Prison et Hopital, on ne peut pas choisir. Du coup, la variable n’est pas ordonnée, elle est nominale.
Exemples de variable ordonnée : la mention au bac, le classement à une course, ou bien les réponses aux questionnaires, quand on vous demande : vous avez aimé ? « Beaucoup, moyennement, pas du tout ». C’est aussi ce que dans certains cours on appelle les variables d’intervalles.
Les variables discrètes, c’est des nombres entiers, et – très important – il n’y a pas beaucoup de valeurs possibles.
Au passage, pour nos amis matheux, vous noterez que ‘discret’, ça ne veut pas dire la même chose en math et en stat. Par exemple, le nombre de frères et sœurs. On peut en avoir 0, 1, 2, 3… mais on ne peut pas en avoir 250 !
Bref, une variable discrète : c’est des nombres ; entiers ; pas beaucoup. Dans le cas Sudhir, le nombre de [Condamnations] varie entre 0 et 8, donc il est discret.
Sur le principe, les variables continues c’est quand entre deux valeurs, on peut toujours en glisser une autre.
Par exemple, je mesure 1m84, mon copain mesure 1m85. Entre nous deux, on peut trouver quelqu’un qui mesure 1m84 et demi.
En pratique, on parle aussi de variables continues quand il s’agit de nombres entiers, mais qu’il y a beaucoup de valeurs possibles. Par exemple le salaire; ça va de zéro à beaucoup beaucoup. C’est que des nombres entiers, mais on considère ça comme une variable continue.
Exemple de numérique : le poids, la taille, l’âge, le taux de glycémie, le montant du compte courant, et tout, et tout.
Les numériques, c’est souvent les préférées des statisticiens, parce qu’avec on peut faire plein de choses. Par exemple, le salaire, on peut le doubler. Ou le diviser par deux, ça dépend si on est patron ou syndicaliste !
Dans certains cas, un nombre n’est pas vraiment un nombre. Par exemple, le département : la Haute Garonne, c’est 31, l’Essonne, c’est 91. Cela n’a pas de sens de faire la moyenne entre 31 et 91. Pareil, on ne peut pas dire que l’Essonne est supérieure ou inférieure à la Haute Garonne.
Donc, attention, le département, cela a le goût d’une discrète, cela a la couleur d’une discrète, mais ce n’est pas une discrète. C’est une nominale. Déguisée en discrète, mais c’est une nominale.
Vous en connaissez sûrement d’autres comme ça…
Donc pour résumer, on a 4 types de variables : nominale, ordonnée, discrète et numérique.
Retour à notre thésard en sociologie. Dans les films, on voit toujours des dealers avec des grosses bagouzes en or, dans des voitures décapotables remplies de super filles super belles sur chaque siège. Qu’en est-il en réalité ?
Dans la vraie vie :
Si on ajoute à ça le taux de mortalité hyper élevé, la probabilité de passer par la case prison qui est quand même de l’ordre de 30% et le fait que, on a autant de chance de devenir le boss que de finir rock star, on peut dire que dealer, c’est vraiment un métier de $%#&¤£.
—–
Voilà, c’est la fin de cet article. Comme toujours les exemples sont authentiques. Sudhir a même écrit plusieurs livres sur le sujet.
Dans le prochain article, on parlera de moyenne, médiane et je vous dirai lequel des deux est le mieux. Suspense… Ensuite, je vous parlerai des 5% de gens qui ne sont pas les enfants de qui ils pensent, des 5 bars-tabac qui ferment par jour malgré les 153 millions de cigarettes fumées et des 32 000 pots de nutella qu’on étale sur 25 millions de baguettes.
Au plaisir !