R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Liste de tests statistiques, comment choisir

Quel test statistique choisir ?

Eh oui, les tests statistiques… il y en a des dizaines ! Comment choisir le bon test statistique ? Celui qui convient à vos données et à votre problème ?

Voici la seconde partie d’une série de trois articles pour vous familiariser et apprendre à utiliser les tests statistiques, ces outils essentiels pour prendre des décisions fondées. Dans la première partie, nous avons discuté de l’importance des tests statistiques.

 

Pourquoi faire des tests statistiques ?

Parce qu’ils vous indiquent si la disparité des résultats d’une expérience est purement due au hasard, ou si elle révèle une différence significative entre les individus étudiés.

 

Les tests paramétriques et non-paramétriques

Si vous avez essayé de jouer dans R++, avec l’ensemble des données sur l’écart de rémunération entre les sexes, vous avez peut-être remarqué que R++ effectue deux tests différents sur cet exemple :  le test de Student et le test de Wilcoxon. Pourquoi ces 2 tests ?

Il y a deux groupes de tests statistiques :

 

Les tests paramétriques

s’utilisent lorsque les données sont ‘distribuées’, donc elles suivent la forme d’une courbe.

Par exemple, lorsque la distribution des données est normale.

 

   

Les tests non paramétriques

(tests sans distribution)

ne reposent sur

aucune distribution.

 

 Alors, les tests paramétriques sont mieux ? Ah non !

Le géant Hulk, le pouvoir des tests statistiques

 

Avantages : Comme les tests non paramétriques nécessitent moins d’hypothèses sur les populations sous-jacentes, ils sont valables pour une gamme plus grande d’applications. De plus, ils sont moins sensibles aux observations périphériques.

Inconvénients : Les tests non paramétriques sont plus susceptibles d’échouer à rejeter une hypothèse nulle invalide. Cette propriété s’appelle la « puissance statistique » (nous en parlerons dans le prochain article). Pour l’instant, disons que :

 Les tests non-paramétriques ne sont pas aussi puissants que les tests paramétriques.

 

Voici la liste des tests paramétriques et de leur équivalent en tests non-paramétriques (sans distribution).

 

Tableau des tests statistiques

Comment choisir le bon test statistique ?

  1. Identifiez vos variables : la variable qui vous intéresse est-elle catégorique (on dit aussi ‘qualitative’) ou numérique (‘quantitative’) ?

 Une variable catégorique est une variable qui comprend un nombre limité de valeurs possibles, comme le genre (H/F) ou la couleur des cheveux (blond, brun, roux, etc).

Une variable numérique comprend un nombre infini de valeurs, comme le salaire, la température ou le poids. 

 

    1. Identifiez votre application : est-ce que vous voulez savoir si vos variables sont corrélées ? Ou savoir si les groupes d’individus dans votre expérience sont vraiment différents ? Ou encore savoir quelle variable influence les résultats plus que l’autres ?

 

  1. Ensuite, choisissez votre test !

 

Regardons les exemples suivants.

Croquis de Hamed Zakerzadeh Salaires Hommes Femmes stats

Revenons à l’exemple de l’écart de rémunération entre hommes et femmes.

Vous avez les échantillons de deux groupes d’individus et vous souhaitez comparer leurs revenus moyens. Il s’agit d’une variable numérique. Les tests que vous pouvez utiliser sont alors le test de Student ou le test de Wilcoxon-Mann-Whitney, selon si les groupes suivent une distribution normale (en forme de cloche).

 

 

Croquis de Hamed Zakerzadeh Ethnicité stats

Si vous avez plus de deux groupes dans votre étude, comme l’ethnicité (africaine, asiatique, blanche, etc.) et que vous voulez comparer une variable numérique (comme le salaire ou la taille), vous aurez besoin d’un test statistique multi-groupe comme ANOVA ou test de Kruskal-Wallis.

 

 

Croquis de Hamed Zakerzadeh Taux de Chômage stats

 

Pour deux variables numériques, comme le taux de chômage et le PIB, où vous voulez savoir comment elles s’associent, vous utilisez la corrélation de Pearson ou de Spearman.

 

 

 

Croquis de Hamed Zakerzadeh Genre stats

 

Si vous travaillez avec des variables catégoriques dans des tableaux de contingence, par exemple, pour voir à quel point les RH de votre entreprise sont impartiales et équitables pour attirer des étrangers, vous pouvez utiliser le test du ?² (chi carré) ou le test exact de Fisher.

 

 

 

Et voilà…

Vous avez peut-être envie d’en savoir plus sur la façon de choisir le bon test statistique pour vos données, jetez un œil à ces articles publiés :

 

Chouette, il existe un raccourci !

En effet, le logiciel R ++ choisit pour vous automatiquement les 2 tests les plus adaptés à vos données. Et tout ça en un millième de seconde ! Wow.

Vous souhaitez vous inscrire pour un essai gratuit ? C’est sans restriction et sans engagement.

 

Pour en savoir plus (une petite vidéo) : “Les tests statistiques dans R++”.

 

Mon prochain article portera sur les pièges à éviter, ne le manquez pas !

Avez-vous des questions ou des remarques ? Est-ce que vous saviez comment choisir le bon test statistique avant de lire cet article ? Quelle est votre expérience en statistiques ? Des sujets que vous souhaitez aborder ?

N’hésitez pas à me laisser des commentaires ci-dessous, je vous répondrai sans attendre.

 

Hamed Zakerzadeh, mathématicien chez R++

 

Hamed Zakerzadeh

Mathématicien ++

Follow me on Twitter or LinkedIn

7 Commentaires
  • Avatar
    Paulo
    13 novembre 2020 at 13 h 56 min

    Bonjour,
    Votre article est très intéressant(merci), néanmoins je n’ai pas trouvé la réponse à une question qui me semble simple mais me pose problème.
    Si je reprend votre exemple numéro 1 de l’écart de rémunération homme femme, cela reviendrai à dire “existe t’il une différence dans la “différence” d’écart de rémunération entre 2 dates”?

    • Avatar
      17 novembre 2020 at 18 h 51 min

      Bonjour Paulo.
      Je suppose que votre question est de comparer deux “écarts de rémunération” (par exemple pour des années différentes). Est-ce bien le cas ?
      Pourriez-vous clarifier cela?
      Merci,
      Hamed.

  • 16 novembre 2020 at 15 h 25 min
  • Avatar
    Celine
    29 avril 2021 at 21 h 49 min

    Super article très clair ! Merci beaucoup !
    J’ai une petite question, car on m’avait apprit que le choix du test dépend si les échantillons sont appareillés ou pas … Est-ce le cas, et si oui faut-il choisir WIlcoxon pour des échantillons appareillés et Kruskal Wallis pour des échantillons déconnectés ?
    (Je travaille avec des cellules, et on me dit que si elles proviennent d’un même donneur, ou de donneurs indépendants le test n’est pas le même…)
    Merci !

    • Christophe Genolini
      17 juin 2021 at 13 h 00 min

      Bonjour Céline,
      Oui, le test change si les échantillons sont appariés.
      – Pour les numériques en paramétrique, il faut un t de student ou un t de student apparié
      – Pour les numériques en non paramétrique, il faut un test des rang de wilcoxon ou un test des rang de wilcoxon apparié
      Christophe
      PS : “Apparié” comme “on fait des paires” et non “appareillé” comme “on a un appareil photo”… 🙂

  • Avatar
    Fantine
    8 juin 2021 at 17 h 30 min

    Bonjour, merci beaucoup pour cet article très intéressant !
    Je suis en train d’analyser les résultats de deux sondage et l’idée est de comparer les réponses des questions identiques aux deux sondages. J’ai les même types de variables (qualitative et quantitative) dans les deux sondages et j’aimerais savoir si il y a des liens ou des fortes différences entre les réponses des deux questionnaires, quel types de test statistique je pourrais utiliser ?
    Merci d’avance !

    • Christophe Genolini
      17 juin 2021 at 12 h 53 min

      Bonjour Fantine,
      Pour les variables quanti, un t de Student (ou un test des rangs de Wilcoxon si l’effectif est petit)
      Pour les quanti, un khi2 (ou un test exact de Fisher s’il y a déséquilibre entre les cases)
      🙂
      Christophe

Post a Comment