Le monde est un endroit incroyablement compliqué. Entre rumeur, fake news et pipotage, c’est super difficile de distinguer le vrai du faux.
Et c’est là que les statistiques vont nous sauver. A quoi ça sert les stats ? Séparer le vrai du faux.
Si je fais une petite expérience en physique, par exemple je concentre de l’uranium 235. J’obtiens ça :
Si je recommence trois fois, j’obtiens ça, ça et ça :
Autrement dit, à chaque fois que l’on concentre de l’uranium 235, on obtient toujours la même chose ! Ça, c’est de la physique.
En biologie, en science du vivant et plus généralement dans toutes les sciences humaines, c’est beaucoup plus compliqué. Deux actions identiques ne conduisent pas toujours au même résultat. On appelle ça la variabilité biologique (ou variabilité sociologique, variabilité humaine…). On la rencontre dans tous les domaines.
Par exemple, Thomas Dishion travaille sur le programme de réinsertion de jeunes délinquants (payés par nos impôts) [1]. Il mesure le taux de récidive des jeunes impliqués dans ces programmes. Une année, le taux de récidive est de 34%. L’année suivante, 35%. L’année d’après 32%… Tous les ans, cela fluctue. C’est vrai pour Thomas, mais c’est aussi vrai dans tous les domaines de la vie :
Pourquoi ? On ne sait pas. Le hasard, ou une constellation de petits éléments qu’on ne maîtrise pas. Mais comme en science on n’aime pas dire qu’on ne comprend rien (!) on appelle ça la variabilité biologique. Ça fait un peu plus savant !
La variabilité biologique est le fait que deux évènements (ou expériences) à priori identiques donnent des résultats différents.
Donc en statistique, on va distinguer deux types de différences.
Retour à la physique, on se demande si en chauffant très fort du lithium, il serait possible de faire une explosion encore plus grosse qui tuerait encore plus de gens.
On essaye. On obtient ça :
La réponse est oui, la bombe H est bien plus efficace que la bombe A. Pas besoin de renouveler l’expérience, pas besoin d’à nouveau tirer des bombes A. On essaye une fois, cela suffit.
En science du vivant… Rien d’aussi systématique.
Thomas Dishion, encore lui, se pose toujours la question de l’efficacité des programmes de réinsertion (toujours payés par nos impôts) [1].
Pour cela, il contacte 119 jeunes en situation difficile. A la moitié, il propose de participer à un programme de réinsertion. A l’autre moitié, il ne propose rien (groupe témoin). Il conduit son programme pendant 3 ans au bout desquels il comptera le nombre de jeunes qui auront commis des infractions.
Supposons que le groupe de réinsertion obtienne un score de récidive de 33%.
Question : et si le groupe témoin a 50% ? Ou 45 % ? Ou 40 % ? Que peut-on conclure ? Plus généralement :
A partir de quelle différence va-t-on pouvoir conclure que le programme est efficace ?
Autrement dit, à partir de quel seuil deux nombres sont-ils significativement différents ? C’est à cette question (complexe) que répondent les tests statistiques.
Un test statistique est un outil qui permet de trancher et de dire :
« Oui, ces deux résultats sont vraiment différents ; la différence qu’on observe n’est probablement pas due à la variabilité biologique ; 10% et 18%, c’est une vraie différence et donc, telle méthode est plus efficace que telle autre méthode »
Ou au contraire, le test statistique permet de dire non. « Non… Certes, les nombres sont un peu différents, mais la différence observée est tellement petite, elle est probablement due à de la variabilité biologique. Rien de plus »
Dans le cas Thomas Dishion, sa conclusion est édifiante ! Trois ans après la fin du programme, il s’est rendu compte qu’il n’y avait pas de différence entre les groupes. Donc à ce stade, il pouvait conclure que le programme de réinsertion n’était pas efficace. Mais le pire, c’est que 15 ans après, il a à nouveau comparé les groupes et il s’est rendu compte que le groupe réinsertion présentait plus de problèmes de délinquance que le groupe témoin ! Le remède (encore et toujours payé par nos impôts) s’était avéré pire que le mal…
Un test statistique est un outil qui permet d’estimer la probabilité qu’une différence observée soit due à la variabilité biologique.
On mesure la douleur chez un groupe qui ne prend pas de médicament (8,1), et la douleur chez un groupe qui prend un médicament (7,3). Certes, 8,1 est différent de 7,3 mais est-ce une vraie différence, ou est-ce une différence liée à la variabilité biologique ?
Un test statistique va estimer la probabilité que la différence soit liée à la variabilité biologique. Par exemple, il va dire : « il y a 25% de chance que la différence observée entre 7,3 et 8,1 soit due à la variabilité biologique ». Autrement dit, en prenant le pourcentage complémentaire, il nous dit « il y a 75% de chance que la différence observée soit une vraie différence ».
En science, si « la probabilité qu’une différence soit une vraie différence » est supérieure à 95%, alors on dit que la différence est significative. Autrement dit, on considère que c’est une vraie différence, que le traitement marche. A l’inverse, si cette probabilité est inférieure à 95%, on dit que la différence n’est pas significative.
Dernier détail. Pour des raisons historiques, on a l’habitude de travailler avec la probabilité que la différence soit liée à la variabilité biologique. Et cette probabilité, on l’appelle « le petit p » (ou ‘p-value’ en anglais). Donc on a l’habitude de dire :
« Si le petit p est inférieur à 5%, alors la différence est significative ». A l’inverse, « si le petit p est supérieur à 5%, alors la différence n’est pas significative ».
Voici un article du blog pour en savoir plus sur le petit p…
Un test statistique est une méthode qui permet de dire si deux résultats sont vraiment différents,
ou si la différence que l’on observe est juste de la variabilité biologique.
Il existe beaucoup de tests différents (khi2, t de Student, f de Fisher,…) et la mécanique interne de chacun d’entre eux est assez compliquée. Donc je ne la détaille pas dans cette introduction, elle fera l’objet d’un prochain billet. En attendant je vous invite à lire cet article sur le choix du bon test statistique.
Voilà, c’est la fin de cette deuxième partie d’introduction. Vous pouvez retrouver à peu près la même chose en vidéo sur « Les stats ? Même pas mal !», chaîne YouTube de vulgarisation de l’usage des statistiques.
Merci de me laisser vos questions et commentaires ci-dessous, j’y répondrai avec plaisir !
[1] Dishion, T. J., McCord, J., & Poulin, F. When interventions harm: Peer groups and problem behavior. American Psychologist, 1999, vol 54(9), p. 755-764.
[2] Flahault, E. T., Couturier, Pierre-Louis, et Chatellier, Gilles. Critères de réussite en première année de médecine (PCEM1) à Paris V. La revue du praticien, 2006, vol. 56, p. 1513-1520.
[3] Tremblay, R. E., Nagin, D. S., Séguin, J. R., Zoccolillo, M., Zelazo, P. D., Boivin, M., … & Japel, C. Physical aggression during early childhood: Trajectories and predictors. Pediatrics, 2004, vol. 114(1), e43-e50.
[4] Mennella, J. A., & Beauchamp, G. K. The transfer of alcohol to human milk: Effects on flavor and the infant’s behavior. New England Journal of Medicine, 1991. Vol. 325(14), 981-985.