Chaque jour dans nos conversations, nous disons souvent qu’un phénomène (comme le taux de chômage ou la pauvreté) est lié ou non à un autre (comme le taux de criminalité ou l’agression sociale). Si vous êtes un manager, vous avez peut-être déjà essayé de comprendre la relation entre vos décisions et la performance de votre équipe, par exemple, pour confirmer si le programme de formation coûteux que vous proposez à votre équipe a commencé à porter ses fruits.
En statistique, la relation ou l’association entre deux variables est appelée corrélation. En réalité :
La corrélation est une mesure de l’association entre deux variables,
plus la corrélation est élevée, plus les variables sont associées ensemble.
En d’autres termes, lorsqu’une de ces variables change (comme le taux de chômage),
l’autre (le taux de criminalité) change en conséquence.
Notez que l’un ou l’autre de ces changements peut être positif (en augmentation) ou négatif (en baisse) :
La corrélation peut également être nulle, ce qui implique qu’il n’y a pas d’association entre les variables. Cela se produit, par exemple, lorsque les changements dans une variable ne montrent aucun changement global sur l’autre.
Statistiquement parlant, il existe plusieurs définitions de la corrélation. Ici, nous considérons la corrélation p dite de Pearson qui est une valeur comprise entre -1 et 1. Elle mesure la relation linéaire entre les variables. Sur cette figure, plusieurs diagrammes de dispersion avec leurs corrélations correspondantes ont été illustrés : [pour plus de détails, consultez cet article sur wikipedia]
Attention : la corrélation de Pearson ne mesure que les relations linéaires. Par conséquent, toutes les corrélations de la dernière ligne sont nulles alors qu’il peut exister des relations non linéaires entre les variables.
Est-ce qu’importer du pétrole peut faire mourir des gens ?
Supposons qu’un homme étrange s’approche de vous dans le métro et vous dise qu’à mesure que les États-Unis importent plus de pétrole du Canada, de plus en plus de personnes tombent de leur lit et meurent. Vous voulez enquêter sur cette affirmation vraiment étonnante et savoir s’il existe vraiment une relation entre ces deux variables. Ce serait assez surprenant si c’était le cas, non ?
Voici les données que vous pouvez collecter : http://tylervigen.com/view_correlation?id=101
Vous calculez la corrélation, R++ vous donne la valeur 0,939728 ce qui signifie qu’il existe une forte relation linéaire entre ces deux variables.
Vous n’êtes pas convaincu et vous voudriez en comprendre la signification. Donc, vous devez utiliser un test statistique. Nous considérons les deux hypothèses :
Nous devons donc calculer la probabilité d’obtenir une corrélation aussi forte que notre observation, supérieure à 0,939728 ou inférieure à -0,939728.
R++ calcule cette probabilité comme 1,738e-05, ce qui est inférieur à notre niveau de signification 0,01. Donc, le test rejette l’hypothèse nulle H0 et confirme l’alternative Ha, en disant que la corrélation devrait être différente de zéro, jusqu’à la probabilité de commettre l’erreur de type I.
Mais est-ce que cela signifie vraiment que l’homme étrange avait raison ? L’importation de pétrole fait-elle tomber des gens du lit et mourir ? Bien sûr que non !
En fait, ce que nous avons observé c’est la corrélation entre deux choses, mais :
La causalité signifie que A cause B, par exemple comme un virus qui déclenche une maladie. Mais comment l’importation de pétrole pourrait-elle faire tomber les gens du lit? C’est peut-être par hasard que nous voyons tous les deux augmenter. Ou nos deux variables pourraient avoir augmenté d’année en année en raison de différentes causes : comme la croissance économique qui exige d’importer plus de pétrole, et «Trouble du comportement en sommeil paradoxal» dont la prévalence est d’environ 0,5-2% et peut justifier l’augmentation de la cas de décès dus à la croissance démographique !
En général, l’étude de la causalité est beaucoup plus compliquée et nécessite également une conception soignée de votre expérience. Un bon tutoriel peut être trouvé ici
Correlation CAN Imply Causation! | Statistics Misconceptions
N’oubliez pas qu’il est faux de dire “avec ceci, donc à cause de ceci” !