R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

Blog
R++ / Analyse statistique des données  / ~03~ A quoi ça sert les stat ? Faire des prédictions.
Photo d'une boule de cristal pour illustrer le pouvoir de prédiction des statistiques

~03~ A quoi ça sert les stat ? Faire des prédictions.

 

Pour prédire l’avenir, plusieurs méthodes. Vous pouvez essayer la boule de cristal ; parait-il, le tarot prédit le sexe des bébés avec environ 50% de réussite ; y en a qui utilisent le café… ou alors vous pouvez faire des statistiques. Aujourd’hui, on va plutôt se pencher sur cette dernière méthode.

 

1. La variété biologique (encore elle !)

Je vous présente Marion. Marion a 21 ans, pas de diplôme et un enfant. Elle fait des ménages.Photos de destins imprévisibles Edith Piaf, Henri Lecomte, Nadir Dendoune, Emmanuel Macron

« – Marion, que souhaitez-vous faire, plus tard ?

– Je veux devenir célèbre. Une Star. Une star internationale de la chanson.

– … »

Marion va-t-elle réussir ? Intuitivement, on a envie de lui dire que cela risque d’être un peu difficile. Mais comme on est poli, on ne dit rien. Et bien nous en prend ! Une certaine Edith Piaf était exactement dans cette situation et quand on voir sa carrière, on se dit qu’elle a bien fait de se lancer.

En science de la vie, les exemples de ce type sont légions :

  • En 1991 Henri Leconte, 406° joueur mondial, bat Pete Sampras le n°1 en finale de la coupe Davis !
  • Nadir Dendoune n’a jamais fait d’escalade mais réussit à gravir l’Everest à sa première tentative !!
  • Emmanuel Macron n’a pas de parti politique pour le soutenir mais réussit à en créer un puis à devenir Président de la République française en un an !!!

La variabilité biologique interdit de dire à ces gens-là que non, ça ne marchera pas. Et pourtant, intuitivement, on sent bien que ce sont des exceptions. Alors que faire ?

La solution est statistique : elle passe par la construction d’un modèle.

Qu’est ce qu’un modèle ? En première approximation, un modèle est un graphique qui représente des données. On suppose que les données non connues vont se comporter à peu près de la même manière que les données connues.

2. Evolution de la criminalité 

Par exemple, la télévision répète à qui veut l’entendre que nous vivons dans un monde de plus en plus violent. Question : Comment va évoluer la criminalité dans les prochaines années ? Difficile de savoir. Par contre, il est possible d’obtenir les chiffres du passé. Voilà l’évolution du nombre d’homicides en Europe sur les 400 dernières années [1] :

Graphique sur l'évolution du taux d'homicide en Europe statistiques

 

Pas vraiment en concordance avec ce que nous racontent les médias : le nombre d’homicides baisse, baisse, baisse… C’est vrai pour l’Europe globalement, c’est vrai pour chaque pays individuellement, c’est vrai pour les Etats-Unis, pour les pays d’Amérique du sud… Bien sûr, certains ont des courbes plus hautes que d’autres. Mais globalement, tout le monde baisse. Désolé TF1, c’est une lame de fond à tendance mondiale.

Concernant notre problème de prédiction, les statistiques nous permettent, à partir de la courbe précédente, de fabriquer un modèle. C’est la ligne rouge sur le graphe ci-dessous :

Graphique sur la prédiction statistique du taux d'homicide en Europe

L’intérêt d’un modèle est qu’on peut calculer son équation. Dans le cas présent : f(x)=exp(13,61-0,00688*x) . On peut donc à loisir le prolonger :

Graphique : modélisation du taux d'homicide en Europe

Au final, ce modèle permet de faire des prédictions : par exemple, en 2050, il y aura probablement 0,61 homicides pour 100 000 habitants (car exp(13,61+2050*0,00688) = 0,61).

 

3. Exemple : le travail et la richesse

Deuxième exemple, en 2007, un candidat dont j’ai oublié le nom avait pour slogan « Travailler plus pour gagner plus ». Est-ce que vraiment travailler plus permet de gagner plus et surtout, quel serait l’impact d’une telle mesure sur la richesse globale du pays ?

Pour le savoir, il faudrait dupliquer la France (!) Dans la première, on applique une politique où les gens peuvent facilement travailler plus ; dans l’autre, rien ne change. 5 ans plus tard, on regarde laquelle des deux France est la plus riche. En pratique, bien évidemment, ça n’est pas possible. A la place, on va regarder nos voisins.

C’est ce qu’a fait Brieuc Bougnoux [2]. Il met sur un graphique tous les pays pour lesquels il trouve des données fiables. Sur l’axe des X, il met le nombre d’heures travaillées par an, pour chaque pays ; et sur l’axe des Y, il met le PIB par habitant :

Graphique : heure travaillées vs le PIB par habitant

Edifiant, non ? Les pays où l’on travaille le moins sont ceux qui ont un PIB le plus élevé. Cela peut paraitre un peu bizarre mais un deuxième et troisième graphe expliquent assez bien le phénomène. Cette fois-ci, on regarde à gauche le PIB en fonction du taux d’emploi (pourcentage de personnes qui travaillent) et à droite le PIB par habitant en fonction de la productivité horaire :

Graphique statistique sur la richesse vs le travail

Le graphe de gauche nous montre que plus il y a de gens qui travaillent, plus le PIB est haut. Le graphe de droite indique que plus les travailleurs sont productifs, plus le PIB est haut. Moralité : pour augmenter la richesse du pays, il faut augmenter le nombre de personnes qui travaillent ou augmenter leur productivité (ou les deux) ; mais surtout pas les faire travailler plus!

A postériori, cela semble logique. Faire travailler quelqu’un plus, cela diminue le nombre de travailleurs, et cela diminue la productivité (parce que le pauvre employé qui a déjà bossé 8h et à qui on demande de faire 2h sup est bien moins efficace pendant ces deux dernières heures qu’en début de journée…).

Moralité : « travailler plus pour gagner plus », ça ne marche pas.

 

4. Retour aux statistiques

Retour aux stats, qu’est ce qu’on a fait ? On cherche à prédire un score qu’on ne connait pas (le PIB de la France si on applique une certaine politique, ou la violence dans 30 ans). On utilise des données qu’on connait, soit issues du passé, soit issues de cas comparables à celui qui nous intéresse. Puis on les modélise. Et enfin, grâce au modèle, on prédit le score.
Bien sûr, pour faire ça, on a fait implicitement des hypothèses. Par exemple, on a considéré que la violence allait continuer à évoluer comme par le passé. Ou encore on a supposé que la France est un pays plus ou moins comme les autres. Ceux qui ne sont pas d’accord avec ses hypothèses font d’autres modèles, avec d’autres données et trouvent d’autre résultats. Et ensuite, quelques années plus tard, l’histoire fait le tri et les modèles faux sont rangés au placard. Dans le cas présent, travailler plus n’a pas vraiment eu d’impact. On n’aurait d’ailleurs pu s’en rendre compte avant de mettre en place une politique qui n’a pas marchée. Je ne comprends pas pourquoi le Président de l’époque ne m’a pas demandé mon avis… 😉

Pour voir tout cela en image,  vous pouvez consulter les vidéos de ma chaine YouTube « Les stats ? Même pas mal !», vous y trouverez cet épisode ainsi que quelques autres consacrés à la vulgarisation des stats.

 

Photo Christophe Genolini de notre équipe

 

 

 

Christophe Genolini

 

Notes et références

[1] Eisner, M. Long-term historical trends in violent crime. Crime and Justice, 2003. Vol. 30, p. 83-142.

[2] Brieux Bougnoux. Travailler plus pour gagner plus : quelques leçons tirées de l’étranger. Le Monde Economie, 04-06-2007, p. 6

Pas encore de commentaire
Post a Comment