R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Photo d'un enfant faisant des tests statistiques

Pourquoi faire des tests statistiques ?

Bienvenu-e dans notre série tutorielle en trois parties sur les tests statistiques.

Tout d’abord, pourquoi faire des tests statistiques ?

Les tests statistiques (ou tests d’hypothèses) vont vous permettre de tirer des conclusions claires, mathématiquement rigoureuses (et élégantes !) à partir des données que vous aurez analysées.

Ces données peuvent avoir été collectées de diverses façons : à partir des résultats d’une expérience scientifique, de tests marketing, d’une enquête en ligne, de base de données internes (clients, ventes, comptes, activité, performances, etc) ou des données d’une organisation tierce.

Une situation typique consiste à vérifier si les données corroborent ou non une hypothèse. Par exemple, si un vaccin récemment inventé est efficace ou si les études supérieures offrent vraiment une vie plus heureuse.

 

 La notion d’hypothèse

Imaginons que vous ayez deux hypothèses contradictoires et l’une d’elles dise qu’il ne se passe rien de très différent. Par exemple « Se faire vacciner n’a pas vraiment d’importance » ou encore « Le niveau d’éducation n’a pas d’impact sur la vie ».

  • Ce type d’hypothèse est souvent appelé « hypothèse nulle » (H0).
  • L’hypothèse contradictoire est appelée « hypothèse alternative » (Ha), car elle suggère une hypothèse différente, généralement plus intéressante.

 

Voyons ce qu’il se passe sur un autre sujet – très actuel… L’inégalité salariale entre hommes et femmes.

Imaginons que vous réalisez une enquête pour savoir s’il existe, en France, une différence entre le salaire des hommes et le salaire des femmes (pour le même poste bien sûr !).

Vous appliquez vos toutes premières connaissances statistiques en calculant les moyennes et découvrez que la différence de salaire moyen est de 1% (en faveur des hommes aïe, aïe, aïe !!).

Question

Comment pouvons-nous interpréter ce résultat ?

Est-ce que 1% c’est beaucoup ? Pas beaucoup ? Dois-je alerter les féministes ? En somme : est-ce que cette différence est réellement significative ?

 Analyse

Nous avons ces deux hypothèses :

  1. Hypothèse nulle (H0) : « Les hommes gagnent autant que les femmes, cette différence de 1% est simplement due au hasard, elle est négligeable ! “
  2. Hypothèse alternative (Ha) : « Ce 1% est très important. Il signifie que la différence de salaire entre les sexes en France n’est pas due au hasard, il faut en tenir compte. »

Comment décider quelle hypothèse soutenir ?

Pour répondre à cette question, nous devons comprendre si ce 1% est dû au hasard ou s’il provient d’un facteur autre, comme la discrimination…

blague discrimination homme femme, tests statistiques

 

Revenons à nos moutons : c’est maintenant que notre test statistique joue un rôle déterminant !

Il va nous aider à convertir ce pourcentage ambiguë (1%) en une valeur indiscutable, on l’appelle la « valeur p » (ou parfois « petit p »).

C’est avec cette valeur p que vous pouvez décider quelle hypothèse est la plus susceptible d’être valide (et rester ainsi du bon côté de l’Histoire !).

Quelle est cette « valeur p » magique des tests statistiques ?

 

En théorie

Imaginons qu’il n’y ait pas de différence de salaire entre hommes et femmes en France, autrement dit, que la population française vérifie l’hypothèse nulle (égalité dans le salaire moyen). L’observation faite grâce à votre enquête est, en réalité, basée sur un petit échantillon de la population.

 

 La “valeur p” ou “petit p”

 La valeur p vous indique alors simplement si votre observation est étrange, sachant que l’hypothèse nulle est valide.

 Si c’est le cas, vous aurez donc la preuve que l’hypothèse nulle n’était pas vraie depuis le début, vous la rejetterez donc.

 

En pratique

Retournons à nos moutons et appliquons ce concept à notre exemple d’inégalité salariale entre les hommes et les femmes…

Supposons que l’hypothèse nulle H0 soit vraie et que l’on refasse cette enquête plusieurs fois, de nombreuses fois, de très très nombreuses fois, alors la distribution de probabilité d’obtenir une différence de salaire moyen ressemble à la figure ci-dessous :

loi de probabilité schema dessiné pour tutoriel sir tests statistiques

Normalement, il s’agit donc de localiser sur le graphe votre différence de 1% et de calculer la probabilité que vous observiez la différence de 1% ou plus (la zone bleue).

Mais si cette probabilité est suffisamment petite (inférieure à 0,05 par exemple), vous pouvez simplement rejeter l’hypothèse nulle ! Donc rejeter l’idée que la différence de 1% est simplement due au hasard donc qu’elle est négligeable.

Bravo, vous savez maintenant utiliser un outil mathématique pour juger si votre observation d’une différence entre moyennes est étrange et peu probable.

 

Petite astuce : à la louche…

Plus le « petit p » est petit, plus il est probable que l’hypothèse nulle soit fausse.

 

Voilà ! C’est fini pour maintenant. Les tests statistiques sont en fait vraiment utilisés partout. Vous savez maintenant pourquoi ! Pour en savoir plus sur “petit p”, lisez cet article .

Mon prochain article portera sur les différents types de tests statistiques : paramétriques ou non-paramétriques, ne le manquez pas !

Est-ce que vous avez des questions ou des remarques ? Est-ce que vous connaissiez les tests statistiques avant de lire cet article ? Quelle est votre expérience en statistiques ? Des sujets que vous souhaitez aborder ?

N’hésitez pas à me laisser des commentaires ci-dessous, je vous répondrai avec plaisir.

 

Hamed Zakerzadeh, mathématicien chez R++

 

Hamed Zakerzadeh

Mathématicien ++

Follow me on Twitter or LinkedIn

Pas encore de commentaire
Post a Comment