~02~ A quoi ça sert les stat ? Séparer le vrai du faux

Le monde est un endroit incroyablement compliqué. Entre rumeur, fake news et pipotage, c’est super difficile de distinguer le vrai du faux.

Orange met une nouvelle antenne sur mon immeuble, ça va me faire mal à la tête ou pas ?
Je veux maigrir, faut faire un régime ?
Maman n’a pas assez de lait, est-ce qu’il faut qu’elle boivent de la bière ?

Et c’est là que les statistiques vont nous sauver. A quoi ça sert les stats ? Séparer le vrai du faux.

La variabilité biologique

Si je fais une petite expérience en physique, par exemple je concentre de l’uranium 235. J’obtiens ça :

‍

Si je recommence trois fois, j’obtiens ça, ça et ça :

‍

Autrement dit, à chaque fois que l’on concentre de l’uranium 235, on obtient toujours la même chose ! Ça, c’est de la physique.

En biologie, en science du vivant et plus généralement dans toutes les sciences humaines, c’est beaucoup plus compliqué. Deux actions identiques ne conduisent pas toujours au même résultat. On appelle ça la variabilité biologique (ou variabilité sociologique, variabilité humaine…). On la rencontre dans tous les domaines.

Par exemple, Thomas Dishion travaille sur le programme de réinsertion de jeunes délinquants (payés par nos impôts) [1]. Il mesure le taux de récidive des jeunes impliqués dans ces programmes. Une année, le taux de récidive est de 34%. L’année suivante, 35%. L’année d’après 32%… Tous les ans, cela fluctue. C’est vrai pour Thomas, mais c’est aussi vrai dans tous les domaines de la vie :

Deux personnes prennent le même médicament, l’une va beaucoup mieux, l’autre ne va pas mieux du tout.
Deux étudiants ont les mêmes notes, ils travaillent les mêmes cours avec la même assiduité, l’un va réussir, l’autre pas.
Deux pays prennent la même décision. L’économie de l’un s’améliore, celle de l’autre ne bouge pas.

Pourquoi ? On ne sait pas. Le hasard, ou une constellation de petits éléments qu’on ne maîtrise pas. Mais comme en science on n’aime pas dire qu’on ne comprend rien (!) on appelle ça la variabilité biologique. Ça fait un peu plus savant !

La variabilité biologique est le fait que deux évènements (ou expériences) à priori identiques donnent des résultats différents.

Donc en statistique, on va distinguer deux types de différences.

Il y a les petites différences, toutes petites, de rien du tout. Elles sont liées à la variabilité biologique. Dans ce cas, on dit des résultats qu’ils ne sont pas significativement différents, ou encore que la différence observée n’est pas significative. En gros, si Thomas Dishion recommence son expérience et qu’il obtient 35% au lieu de 34%, c’est à peu près la même chose. 35% et 34% ne sont pas significativement différents.
Et puis il y a les grosses différences, les différences tellement grosses qu’il y a forcément une raison qui explique la différence. Elles ne sont pas liées à la variabilité biologique. Dans ce cas, on dit que la différence est significative, ou encore que les résultats observés sont significativement différents.

Les tests statistiques

Retour à la physique, on se demande si en chauffant très fort du lithium, il serait possible de faire une explosion encore plus grosse qui tuerait encore plus de gens.

On essaye. On obtient ça :

Photo de bombe H pour article sur les tests statistiques

La réponse est oui, la bombe H est bien plus efficace que la bombe A. Pas besoin de renouveler l’expérience, pas besoin d’à nouveau tirer des bombes A. On essaye une fois, cela suffit.

En science du vivant… Rien d’aussi systématique.

Thomas Dishion, encore lui, se pose toujours la question de l’efficacité des programmes de réinsertion (toujours payés par nos impôts) [1].

Pour cela, il contacte 119 jeunes en situation difficile. A la moitié, il propose de participer à un programme de réinsertion. A l’autre moitié, il ne propose rien (groupe témoin). Il conduit son programme pendant 3 ans au bout desquels il comptera le nombre de jeunes qui auront commis des infractions.

‍

Supposons que le groupe de réinsertion obtienne un score de récidive de 33%.

‍

Si le groupe témoin a un score de 34%, Dishion ne pourra pas conclure que le programme est efficace, parce que 34% et 33% ne sont pas significativement différents.
Si le groupe témoin a un score de 35%, même chose, la différence entre 33% et 35% n’est pas significative.
Par contre, si le groupe témoin a un score de 70%, la différence est vraiment importante. Une telle différence n’est pas due à la variabilité biologique.
Pareil, si le groupe témoin a un score de 60%, la différence sera significative.

‍

Question : et si le groupe témoin a 50% ? Ou 45 % ? Ou 40 % ? Que peut-on conclure ? Plus généralement :

A partir de quelle différence va-t-on pouvoir conclure que le programme est efficace ?

Autrement dit, à partir de quel seuil deux nombres sont-ils significativement différents ? C’est à cette question (complexe) que répondent les tests statistiques.

Un test statistique est un outil qui permet de trancher et de dire :

« Oui, ces deux résultats sont vraiment différents ; la différence qu’on observe n’est probablement pas due à la variabilité biologique ; 10% et 18%, c’est une vraie différence et donc, telle méthode est plus efficace que telle autre méthode »

oui, les gens qui ont la mention Très bien au bac ont plus de chance de réussir médecine [2]
oui, les gens nés d’une mère de 16 ans, célibataire, pauvre qui fumait pendant la grossesse ont moins de chance de réussir Harvard que les autres [3].

‍

Ou au contraire, le test statistique permet de dire non. « Non… Certes, les nombres sont un peu différents, mais la différence observée est tellement petite, elle est probablement due à de la variabilité biologique. Rien de plus »

Non, boire de la bière quand on allaite ne permet pas d’avoir plus de lait [4].
Non, le programme de réinsertion (toujours payé par nos impôts) n’est pas efficace [1].
Non, les filles ne réussissent pas médecine mieux que les garçons [2]

‍

Dans le cas Thomas Dishion, sa conclusion est édifiante ! Trois ans après la fin du programme, il s’est rendu compte qu’il n’y avait pas de différence entre les groupes. Donc à ce stade, il pouvait conclure que le programme de réinsertion n’était pas efficace. Mais le pire, c’est que 15 ans après, il a à nouveau comparé les groupes et il s’est rendu compte que le groupe réinsertion présentait plus de problèmes de délinquance que le groupe témoin ! Le remède (encore et toujours payé par nos impôts) s’était avéré pire que le mal…

Tests, probabilités et le petit p

Un test statistique est un outil qui permet d’estimer la probabilité qu’une différence observée soit due à la variabilité biologique.

On mesure la douleur chez un groupe qui ne prend pas de médicament (8,1), et la douleur chez un groupe qui prend un médicament (7,3). Certes, 8,1 est différent de 7,3 mais est-ce une vraie différence, ou est-ce une différence liée à la variabilité biologique ?

Un test statistique va estimer la probabilité que la différence soit liée à la variabilité biologique. Par exemple, il va dire : « il y a 25% de chance que la différence observée entre 7,3 et 8,1 soit due à la variabilité biologique ». Autrement dit, en prenant le pourcentage complémentaire, il nous dit « il y a 75% de chance que la différence observée soit une vraie différence ».

En science, si « la probabilité qu’une différence soit une vraie différence » est supérieure à 95%, alors on dit que la différence est significative. Autrement dit, on considère que c’est une vraie différence, que le traitement marche. A l’inverse, si cette probabilité est inférieure à 95%, on dit que la différence n’est pas significative.

Dernier détail. Pour des raisons historiques, on a l’habitude de travailler avec la probabilité que la différence soit liée à la variabilité biologique. Et cette probabilité, on l’appelle « le petit p » (ou ‘p-value’ en anglais). Donc on a l’habitude de dire :

« Si le petit p est inférieur à 5%, alors la différence est significative ». A l’inverse, « si le petit p est supérieur à 5%, alors la différence n’est pas significative ».

Voici un article du blog pour en savoir plus sur le petit p…

À retenir

Un test statistique est une méthode qui permet de dire si deux résultats sont vraiment différents,

ou si la différence que l’on observe est juste de la variabilité biologique.

Il existe beaucoup de tests différents (khi2, t de Student, f de Fisher,…) et la mécanique interne de chacun d’entre eux est assez compliquée. Donc je ne la détaille pas dans cette introduction, elle fera l’objet d’un prochain billet. En attendant je vous invite à lire cet article sur le choix du bon test statistique.

Voilà, c’est la fin de cette deuxième partie d’introduction. Vous pouvez retrouver à peu près la même chose en vidéo sur « Les stats ? Même pas mal !», chaîne YouTube de vulgarisation de l’usage des statistiques.

Merci de me laisser vos questions et commentaires ci-dessous, j’y répondrai avec plaisir !

Notes et références

[1] Dishion, T. J., McCord, J., & Poulin, F. When interventions harm: Peer groups and problem behavior. American Psychologist, 1999, vol 54(9), p. 755-764.

[2] Flahault, E. T., Couturier, Pierre-Louis, et Chatellier, Gilles. Critères de réussite en première année de médecine (PCEM1) à Paris V. La revue du praticien, 2006, vol. 56, p. 1513-1520.

[3] Tremblay, R. E., Nagin, D. S., Séguin, J. R., Zoccolillo, M., Zelazo, P. D., Boivin, M., … & Japel, C. Physical aggression during early childhood: Trajectories and predictors. Pediatrics, 2004, vol. 114(1), e43-e50.

[4] Mennella, J. A., & Beauchamp, G. K. The transfer of alcohol to human milk: Effects on flavor and the infant’s behavior. New England Journal of Medicine, 1991. Vol. 325(14), 981-985.

‍