R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Blague statistique : corrélation causalité

Corrélation ou causalité ?

Qu’est-ce que la corrélation ? Qu’est-ce que la causalité ?

Chaque jour dans nos conversations, nous disons souvent qu’un phénomène (comme le taux de chômage ou la pauvreté) est lié ou non à un autre (comme le taux de criminalité ou l’agression sociale). Si vous êtes un manager, vous avez peut-être déjà essayé de comprendre la relation entre vos décisions et la performance de votre équipe, par exemple, pour confirmer si le programme de formation coûteux que vous proposiez à votre équipe a commencé à porter ses fruits.

 

En statistique, la relation ou l’association entre deux variables est appelée corrélation. En réalité:

 

La corrélation est une mesure de l’association entre deux variables,

plus la corrélation est élevée, plus les variables sont associées ensemble.

En d’autres termes, lorsqu’une de ces variables change (comme le taux de chômage),

l’autre (le taux de criminalité) change en conséquence.

 

Notez que l’un ou l’autre de ces changements peut être positif (en augmentation) ou négatif (en baisse):

  • Lorsqu’ils augmentent ou diminuent simultanément, la corrélation est positive.
  • Lorsqu’un changement est négatif et que l’autre est positif, la corrélation est négative.

 

La corrélation peut également être nulle, ce qui implique qu’il n’y a pas d’association entre les variables. Cela se produit, par exemple, lorsque les changements dans une variable ne montrent aucun changement global sur l’autre.

 

Statistiquement parlant, il existe plusieurs définitions de la corrélation. Ici, nous considérons la corrélation p dite de Pearson qui est une valeur comprise entre -1 et 1. Elle mesure la relation linéaire entre les variables. Sur cette figure, plusieurs diagrammes de dispersion avec leurs corrélations correspondantes ont été illustrés : [pour plus de détails, consultez cet article sur wikipedia]

 

Diagrammes de dispersion des données

 

  • Quand p = 1 (association positive parfaite): les variables augmentent ou diminuent ensemble.
  • Quand p = -1 (association négative parfaite): si une variable augmente, l’autre diminue et vice versa.
  • Quand p = 0, il n’y a pas d’association linéaire entre les variables

 

Attention : la corrélation de Pearson ne mesure que les relations linéaires. Par conséquent, toutes les corrélations de la dernière ligne sont nulles alors qu’il peut exister des relations non linéaires entre les variables.

 

Est-ce qu’importer du pétrole peut faire mourir des gens ?

Supposons qu’un homme étrange s’approche de vous dans le métro et vous dise qu’à mesure que les États-Unis importent plus de pétrole du Canada, de plus en plus de personnes tombent de leur lit et meurent. Vous voulez enquêter sur cette affirmation vraiment étonnante et savoir s’il existe vraiment une relation entre ces deux variables. Ce serait assez surprenant si c’était le cas, non ?

 

Voici les données que vous pouvez collecter : http://tylervigen.com/view_correlation?id=101

 

1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Nombre de personnes qui meurent en tombant de leur lit  400 450 516 551 594 503 621 626 690 737 780
Import de pétrôle brut US (barrils) 430 492 495 527 565 590 600 651 681 707 707

Graphique : Importations de pétrole vs morts tombés du lit

Vous calculez la corrélation, R++ vous donne la valeur 0,939728 ce qui signifie qu’il existe une forte relation linéaire entre ces deux variables.

 

Vous n’êtes pas convaincu et vous voudriez en comprendre la signification. Donc, vous devez utiliser un test statistique. Nous considérons les deux hypothèses :

  • H0 : il n’y a pas de corrélation, p = 0
  • Ha : là deux variables sont corrélées, rho n’est pas nul.

 

Nous devons donc calculer la probabilité d’obtenir une corrélation aussi forte que notre observation, supérieure à 0,939728 ou inférieure à -0,939728.

 

R++ calcule cette probabilité comme 1,738e-05, ce qui est inférieur à notre niveau de signification 0,01. Donc, le test rejette l’hypothèse nulle H0 et confirme l’alternative Ha, en disant que la corrélation devrait être différente de zéro, jusqu’à la probabilité de commettre l’erreur de type I.

 

Mais est-ce que cela signifie vraiment que l’homme étrange avait raison ? L’importation de pétrole fait-elle tomber des gens du lit et mourir ? Bien sûr que non !

 

En fait, ce que nous avons observé c’est la corrélation entre deux choses, mais :

La corrélation ne signifie ni la dépendance ni la causalité !

 

Blague statistique

 

La causalité signifie que A cause B, par exemple comme un virus qui déclenche une maladie. Mais comment l’importation de pétrole pourrait-elle faire tomber les gens du lit? C’est peut-être par hasard que nous voyons tous les deux augmenter. Ou nos deux variables pourraient avoir augmenté d’année en année en raison de différentes causes : comme la croissance économique qui exige d’importer plus de pétrole, et «Trouble du comportement en sommeil paradoxal» dont la prévalence est d’environ 0,5-2% et peut justifier l’augmentation de la cas de décès dus à la croissance démographique !

 

En général, l’étude de la causalité est beaucoup plus compliquée et nécessite également une conception soignée de votre expérience. Un bon tutoriel peut être trouvé ici

 

Correlation CAN Imply Causation! | Statistics Misconceptions

 

N’oubliez pas qu’il est faux de dire “avec ceci, donc à cause de ceci” !

 

Blague changement climatique

 

Voilà, vous connaissez désormais la différence entre corrélation et causalité. Avez-vous des questions ou des remarques ? Est-ce que vous saviez comment les différencier ? Quelle est votre expérience en statistiques ? Avez-vous des suggestion pour mes prochains articles ?

N’hésitez pas à me laisser des commentaires ci-dessous, je vous répondrai sans attendre.

 

Hamed Zakerzadeh, mathématicien chez R++

 

Hamed Zakerzadeh

Mathématicien ++

Follow me on Twitter or LinkedIn

Pas encore de commentaire
Post a Comment