Petit-p

Le petit p

Origine et principe du “petit p”

Le petit p est un indice dont l’usage est de plus en plus controversé. D’où l’importance de l’utiliser correctement, sous peine de basculer du côté obscur des statistiques…

Un des objectifs de la statistique est d’établir qu’il existe un lien entre les variables. Par exemple, il existe un lien entre Fumer et Cancer. Par contre, il n’existe pas de lien entre Sexe et Ql. Pour pouvoir dire que deux variables sont liées, les statisticiens ont développé de nombreux outils communément appelés tests statistiques.

Un test statistique est un algorithme qui s’applique à deux variables et nous dit si oui ou non les deux variables sont liées.

Le principe est le suivant :

  1. Le statisticien fait une hypothèse généralement appelée H, qui stipule que les variables A et B sont liées
  2. Il collecte des données.
  3. Puis il applique un test statistique. Ce test statistique lui donne la probabilité que les variables NE soient PAS liées. Cette probabilité est appelée le « petit p».

Classiquement, les scientifiques considèrent que si le petit p est inférieur à 5% (c’est- à-dire qu’il est peu probable que les variables ne soient pas liées), alors les variables sont liées. Certes, il y a 5 % de chance de se tromper en l’affirmant, mais c’est un risque que la communauté trouve acceptable. Si le petit p est supérieur à 5 %, alors on ne peut rien dire (quand on ne trouve pas, peut-être qu’on a mal cherché !)

Comment bien utiliser le “petit p” ?

Le point important dans la démarche est que le scientifique doit impérativement:

  1. Faire une unique hypothèse : s’il en fait plusieurs, le risque de trouver un lien qui n’existe pas devient supérieur à 5 %
  2. Faire ses hypothèses AVANT de faire les tests 1

En particulier, il est complètement erroné de collecter les données, de faire des tests dans tous les sens pour au final prétendre avoir trouvé un lien entre deux variables sous prétexte que le petit p est significatif.

On peut également utiliser le petit p dans le cadre de construction d’un modèle, par exemple une régression linéaire : on cherche à prédire une variable d’intérêt avec des variables prédictives, mais on ne sait pas lesquelles choisir. Une solution possible est d’inclure prioritairement les variables ayant un lien particulièrement fort avec la variable d’intérêt.

En bref

  • Il est correct de choisir deux variables avant de collecter les données (ou à minima avant de les analyser) puis de tester si elles ont un lien.
  • Il est faux de tester tous les liens possibles et de prétendre ensuite que certaines variables sont liées
  • Dans un cadre exploratoire (construction d’un modèle), il est correct d’utiliser le petit p pour choisir les variables qu’il faut inclure prioritairement dans le modèle.

Livre ouvert

Si vous êtes plutôt vidéo…

Nous avons une série de vidéos tutos que vous pouvez regarder par thème (importer, gérer les données, analyser, etc.). Vous pouvez les visionner en cliquant ici.

Elles font partie d’une chaîne YouTube que nous avons créée pour R++. Elle s’appelle “R++ en une minute” car ces vidéos sont très courtes, mais efficaces!

Pour vous abonner à notre chaîne, cliquez ici.

En cliquant sur « Tout accepter», vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Pour plus d’informations sur les cookies que nous utilisons ou pour modifier vos préférences et vos paramètres, veuillez consulter notre politique de confidentialité.