Eh oui, les tests statistiques… il y en a des dizaines ! Comment choisir le bon test statistique ? Celui qui convient à vos données et à votre problème ?
Voici la seconde partie d’une série de trois articles pour vous familiariser et apprendre à utiliser les tests statistiques, ces outils essentiels pour prendre des décisions fondées. Dans la première partie, nous avons discuté de l’importance des tests statistiques.
Pourquoi faire des tests statistiques ?
Parce qu’ils vous indiquent si la disparité des résultats d’une expérience est purement due au hasard, ou si elle révèle une différence significative entre les individus étudiés.
Si vous avez essayé de jouer dans R++, avec l’ensemble des données sur l’écart de rémunération entre les sexes, vous avez peut-être remarqué que R++ effectue deux tests différents sur cet exemple : le test de Student et le test de Wilcoxon. Pourquoi ces 2 tests ?
Il y a deux groupes de tests statistiques :
Alors, les tests paramétriques sont mieux ? Ah non !
Avantages : Comme les tests non paramétriques nécessitent moins d’hypothèses sur les populations sous-jacentes, ils sont valables pour une gamme plus grande d’applications. De plus, ils sont moins sensibles aux observations périphériques.
Inconvénients : Les tests non paramétriques sont plus susceptibles d’échouer à rejeter une hypothèse nulle invalide. Cette propriété s’appelle la « puissance statistique » (nous en parlerons dans le prochain article). Pour l’instant, disons que :
Les tests non-paramétriques ne sont pas aussi puissants que les tests paramétriques.
Voici la liste des tests paramétriques et de leur équivalent en tests non-paramétriques (sans distribution).
2.Identifiez votre application : est-ce que vous voulez savoir si vos variables sont corrélées ? Ou savoir si les groupes d’individus dans votre expérience sont vraiment différents ? Ou encore savoir quelle variable influence les résultats plus que l’autres ?
Regardons les exemples suivants.
Revenons à l’exemple de l’écart de rémunération entre hommes et femmes.
Vous avez les échantillons de deux groupes d’individus et vous souhaitez comparer leurs revenus moyens. Il s’agit d’une variable numérique. Les tests que vous pouvez utiliser sont alors le test de Student ou le test de Wilcoxon-Mann-Whitney, selon si les groupes suivent une distribution normale (en forme de cloche).
Si vous avez plus de deux groupes dans votre étude, comme l’ethnicité (africaine, asiatique, blanche, etc.) et que vous voulez comparer une variable numérique (comme le salaire ou la taille), vous aurez besoin d’un test statistique multi-groupe comme ANOVA ou test de Kruskal-Wallis.
Pour deux variables numériques, comme le taux de chômage et le PIB, où vous voulez savoir comment elles s’associent, vous utilisez la corrélation de Pearson ou de Spearman.
Si vous travaillez avec des variables catégoriques dans des tableaux de contingence, par exemple, pour voir à quel point les RH de votre entreprise sont impartiales et équitables pour attirer des étrangers, vous pouvez utiliser le test du ?² (chi carré) ou le test exact de Fisher.
Et voilà…
Vous avez peut-être envie d’en savoir plus sur la façon de choisir le bon test statistique pour vos données, jetez un œil à ces articles publiés :
Chouette, il existe un raccourci !
En effet, le logiciel R ++ choisit pour vous automatiquement les 2 tests les plus adaptés à vos données. Et tout ça en un millième de seconde ! Wow.
Vous souhaitez vous inscrire pour un essai gratuit ? C’est sans restriction et sans engagement.
Pour en savoir plus (une petite vidéo) : “Les tests statistiques dans R++”.