La régression linéaire est une méthode statistique puissante pour construire un modèle linéaire à partir d’un ensemble de données collectées.
Par exemple, considérons un scientifique essayant de comprendre la tendance de la concentration de dioxyde de carbone (CO2) dans l’atmosphère au cours des 60 dernières années (de 1959 à 2017).
Il collecte les données sur Datahub et les place dans un nuage de points, comme celui-ci :
Ce graphique (appelé ‘diagramme dispersé’) peut l’aider à voir que la concentration de CO2 augmente d’année en année. Mais il ne peut pas répondre à des questions plus difficiles, comme
Le diagramme dispersé donne donc un aperçu intéressant des données, mais il n’est pas vraiment utile pour connaître la tendance ou faire une prédiction.
Pour répondre à de telles questions, notre scientifique doit mettre la main sur un modèle qui décrit et résume les données existantes, de façon mathématique. Ce modèle peut alors être utilisé pour prédire la variable d’intérêt (ici les émissions de CO2) pour les cas où les données ne sont pas disponibles; par exemple la concentration de dioxyde de carbone en 2050.
C’est précisément là que la régression linéaire entre en jeu !
La régression linéaire permet à notre scientifique de tracer la droite (en bleue pointillée). Car, elle représente un modèle décrivant la concentration de CO2 comme une fonction linéaire de l’année, du type y= ax+b, donc ici :
CO2 (ppm) = -2721,423 + 1,552 * année
Un tel modèle linéaire peut répondre à toutes sortes de questions, comme celles qui ont été mentionnées ci-dessus :
-2721,423 + 1,552 * 2050 = 460,177 (ppm)
Nous avons tout simplement remplacé l’année par le nombre 2050.
Comme nous pouvons le voir dans cet exemple simple, nous avons deux types de variables dans la régression linéaire :
Dans notre exemple, la variable dépendante est la concentration de CO2 et l’année est la variable indépendante.
Mais la question que vous vous posez, bien sûr, c’est d’où vient cette formule CO2 (ppm) = -2721,423 + 1,552 * année ? Comment connaissons nous a et b ?
Pour trouver a et b, nous allons regarder ici dans deux outils statistiques qui ont automatisé les calculs.
Comment est-ce que ces logiciels ont été programmés ? En fait, lorsqu’on leur demande de résoudre un calcul de régression linéaire, ils vont aller nous chercher ce qu’on appelle le “meilleur modèle linéaire”. Avant de pouvoir vous expliquer ce qu’est le ‘meilleur’ modèle linéaire, il nous faut comprendre ce qu’est un modèle linéaire !
Soit un modèle linéaire (ou estimateur linéaire) appelé η, défini ainsi :
Cet estimateur linéaire est représenté par une ligne (ici elle est verte), comme la ligne pointillée bleue que nous avions obtenue dans notre exemple précédent.
Un peu de vocabulaire… nous avons deux paramètres :
η est utilisé pour prédire ou estimer la réponse y; nous appelons cette valeur la réponse estimée et la désignons par ŷ, pour la différencier de y. Donc nous avons :
Pour les plus avancés
Notez que ŷ = η définit la régression linéaire. Il existe une version généralisée de la régression linéaire, le modèle dit ‘linéaire généralisé’ (GLM), pour lequel on pose ŷ = g (η) où g est une fonction générale (comme une exponentielle, soit g (η) = e exposant n). Un tel modèle peut décrire des nuages de points non linéaires et sera détaillé dans les prochains articles.
Le but de la régression linéaire est de déterminer le meilleur estimateur / modèle pour nos données, ce qui signifie qu’il faut trouver les paramètres β0 et β1 pour que le modèle soit optimal ! Mais que signifie optimal ? «être le meilleur modèle» ?
Pour répondre à cette question, j’ai illustré la réponse estimée ŷ pour l’exemple CO2, en utilisant plusieurs valeurs pour β0 et β1 :
(A) β0=1350, β1= -0.5(B) β0=-2700, β1= 1.55(C) β0=-3220, β1= 1.8
Alors quel est le meilleur modèle selon vous ? Il est clair que le choix de β0 et β1 modifie la réponse estimée y, les droites en pointillés changent beaucoup selon les exemples !
Oui, vous avez raison, c’est le modèle (C) alors que (A) et (B) sont vraiment loin des points, donc loin des données.
Maintenant, plutôt que de nous fier à notre instinct pour définir β0 et β1, il nous faudrait une approche plus exacte (plus mathématique !) pour déterminer le modèle le plus proche de nos données.
Vous comprendrez ainsi l’utilité d’un logiciel statistique comme R ++, car il vous fournit les paramètres du meilleur modèle en un clic. Nous savons ainsi que :
β0 = -2731,423 et β1 = 1,552
En d’autres termes, quelle logique se cache derrière la recherche du meilleur estimateur ?
Supposons que nous ayons un nombre m de points. Pour chaque point, il y a une différence entre la valeur estimée (par le modèle linéaire) et la réponse (de notre ensemble de données). Nous appelons cette différence le résidu ou erreur et on le désigne par ek:
Le meilleur modèle que nous recherchons devrait nous rendre des résidus les plus petits possibles.
Mais attention : rendre petit le résidu d’un point peut rendre plus grand le résidu d’un autre point ! C’est comme une balançoire à bascule…
Alors, plutôt que de s’occuper de chaque résidu en particulier, nous allons prendre la moyenne des résidus au carré qui s’appelle la fonction objectif E (en anglais ‘cost function’). Et pour ceux qui aiment les formules, la voilà !
Le but est alors de trouver des paramètres tels que la fonction objectif soit minimum. Donc pour chaque β0 et β1, nous allons trouver le E correspondant.
En général, E ressemble à ça (une surface convexe en 3D, en forme de bol) :
Pour trouver la meilleure ligne décrivant les données, il faut résoudre ce problème de minimisation de E. Et dès que nous avons les paramètres β0 et β1, notre modèle linéaire est déterminé ! Il peut alors être utilisé pour prédire la réponse pour n’importe quelle entrée.
Dans notre exemple CO2, le logiciel R++ nous a automatiquement trouvé les valeurs optimales des paramètres (-2721,423 pour β0 et 1,552 pour β1). Ce sont les meilleurs ; donc si on les change, on augmente la fonction objectif E dont le minimum est E = 10,94968.
Preuve en est avec ces deux petits tests… Dans les graphiques ci-dessous (qui sont des coupes transversales de notre bol E), nous conservons un paramètre β comme suggéré par R++ et changeons l’autre.
Il est clair que les paramètres de régression linéaire β0 et β1 calculés par R++ sont ceux qui minimisent E !