Méthode des moindres carrés

ChronoMath, une chronologie des MATHÉMATIQUES
à l'usage des professeurs de mathématiques, des étudiants et des élèves des lycées & collèges

Ajustement statistique » Cas linéaire (droites de régression) | @ Utiliser le programme en ligne
Régression par la méthode des moindres carrés

On considère un nuage de points M_i(x_i,y_i) que l'on désire ajuster au mieux par une courbe mathématique (c) de type x → y = f(x) dont on devra choisir le type de façon pertinente eu égard au phénomène étudié. On recherche les paramètres de f, fonction affine, polynôme, exponentielle, etc., minimisant la somme des carrés des distances entre y_i et f(x_i), autrement dit :

On parle de régression pour exprimer la diminution de la somme des écarts. Utiliser la valeur absolue des écarts n'est pas pratique au niveau calculatoire, raison pour laquelle les scientifiques (astronomes, statisticiens) ont préféré leurs carrés δ_i² = M_iH_i² où H_i est la projection de M_i sur (c) parallèlement à (Oy).

x

1

2

1

3

4.3

2.2

3.3

5

y

3

1

1.5

2

2.7

3.3

4.4

4

Cas d'un ajustement linéaire de type f(x) = ax + b; on cherche à minimiser Σδ_i²

Ajustement exponentiel :

La recherche d'un ajustement exponentiel (comme l'évolution d'une population ou de la propagation d'un virus comme le tristement célèbre corona Covid-19) par une fonction de la forme :

f(x) = ke^ax (1)

relève de l'ajustement linéaire des points de coordonnées (x_i, ln y_i). En effet, si la méthode des moindres carrés fournit la droite d'équation y = ax + b, on a en fait ln y_i= ax_i + b, donc :

ln y = ax + b, soit y = e^{ax + b} = k.e^ax avec k = e^b(2)

Il n'est pas obligatoire de privilégier la base e des logarithmes népériens :

On peut rechercher un ajustement du type f(x) = kα^x : soit u > 0 et cherchons cette fois un ajustement linéaire des points (x_i, log_u y_i), log_u désignant le logarithme de base u. On est conduit alors conduit à : log_u y = ax + b, soit y = u^{ax + b} = k.u^ax = k(u^a)^x = kα^x avec k = u^b et : α = u^a.

On pouvait s'attendre à un tel résultat en remarquant que dans (2) ci-dessus y = k.e^ax = k.(e^a)^x = k.α^x avec α = e^a (e joue le rôle de u).

Un ajustement comme y = e^0.25x équivaut à y = (e^0.25)^x ≃ 1,284^x.
Un ajustement comme y = 5 × 2^x équivaut à y ≃ 5 × e^0.6931x en résolvant 2 = e^a, soit a = ln2.

∗∗∗
Voyez cet exercice pas très gai... : Coronavirus Covid-19

Étudions le cas d'une approximation polynomiale de degré p :

Posons :

f(x) = c_o + c₁x + … + c_px^p

où p est le degré du polynôme d'ajustement et c_k, k variant entre o et p, les coefficients recherchés. Il s'agit ici de minimiser :

Nous admettons ici deux résultats :

1. Concernant les fonctions numériques à plusieurs variables, une condition nécessaire (non suffisante) d'extremum en un point (c_o, …,c_p) est que toutes les dérivées partiellesde Δ, à savoir ∂Δ/∂c_o , ∂Δ/∂c₁, ..., ∂Δ/∂c_psoient nulles en ce point.

Condition d'extremum d'une fonction de plusieurs variables : »

2. Dans le cas présent de la méthode des moindres carrés, on obtient effectivement un minimum (on peut le prouver en développant Δ en série de Taylor). Les calculs peuvent paraître assez "techniques" mais ne présentent pas de difficultés majeures :

On écrit , pour tout k :

Ce qui conduit au système de p+1 équations :

avec f(x) = c_o + c₁x + … + c_px^p. Notons, pour simplifier :

La première équation (k = 0) s'écrit :

c'est à dire : nc_o + c₁S₁ + c₂S₂+ … + c_pS_p= W_o

La seconde équation (k = 1) s'écrit :

c'est à dire : c_oS₁ + c₁S₂ + c₂S₃ + … + c_pS_p+1= W₁

La k-ème s'écrira : c_oS_k-1 + c₁S_k + c₂S_k+1 + … + c_pS_p+k-1= W_k
et la (p+1)-ème : c_oS_p + c₁S_p+1 + c₂S_p+2 + … + c_pS_2p =W_p

Le système s'écrira alors matriciellement :

On constate que la matrice du système est symétrique. Si nous notons a_i,j le terme général, on a :

a_1,1 = n;

a_i,j = S_i+j-2_;

le second membre sont les a_i,p+2 = W_i.

On applique à ce système la méthode du pivot et l'on obtient le programme ci-après fournissant les coefficients a(n) de l'ajustement polynomial :

y = a(n)xⁿ + a(n-1)x^n-1 + ... a(2)x² + a(1)x + a(0)

Le programme ci-dessous vous fournira les caractéristiques de l'ajustement polynomial désiré, le point moyen, les variances de X et Y ainsi que leur écarts-types, la covariance du couple (X,Y) et le coefficient de corrélation. A toute fin utile, le programme vous fournira également comme la plupart des calculatrices les valeurs des cinq sommes fondamentales nécessaires à l'obtention de ces valeurs, à savoir : Σx_i , Σy_i , Σx_iy_i , Σx_i², Σy_i².

Cas particulier des droites de régression (p = 1), corrélation linéaire :

Lorsque p = 1, il s'agit de la recherche d'un ajustement au moyen d'une droite, on parle de régression linéaire. On distingue deux cas :

♦ La droite de régression de y en x, également appelée 1ère droite de régression d'équation, y = ax + b peut être obtenu par le programme (système 2x2). Le coefficient directeur a et l'ordonnée à l'origine b correspondent à :

➔ Tout comme le programme ci-dessus, la plupart des calculatrices fournissent, après entrée des données x_i et y_i, les valeurs des quatre sommes nécessaires au calcul de a : Σx_i , Σy_i , Σx_iy_i , Σx_i², Σy_i².

En termes de probabilités, E désignant l'espérance mathématique, V la variance, on peut écrire plus simplement (division par n² dans le calcul de a) :

où XY désigne la variable aléatoire prenant pour tout i = 1, 2, ...,n les valeurs x_iy_i. On reconnaît au numérateur du coefficient directeur la covariance du couple (X,Y), donc :

! La covariance est parfois notée σ(XY), notation malheureuse car si X = Y, on aura σ(X²) = E(X²) - [E(X)]² = V(X) = [σ(X)]². Or l'écart-type du carré de X n'est pas le carré de son écart-type.

➔ Vu que b = y - ax, c'est à dire y = ax + b, il est important, dans la pratique, de ne pas oublier que la droite de régression de y en x, notons-là (d1), passe par le point G(x,y), dit point moyen du nuage et son équation peut s'écrire :

d1 : y - y = a(x - x) ou encore : y = ax + (y - ax)

♦ La droite de régression de x en y ou seconde droite de régression, est obtenue en échangeant les rôles de x et y : on projette cette fois M_isur (c) parallèlement à (Ox). Notons-là (d2).

Son coefficient directeur est a' = cov(X,Y)/V(Y), son ordonnée à l'origine b' = E(X) - a'E(Y) ou, si l'on préfère : b' = x - a'y. Dans le même repère que (d1), son équation est x = a'y + b', ou encore :

d2 : x - x = a'(y - y) ce qui peut s'écrire : y = x/a' + (y - x/a')

➔ Tout comme la droite (d1) de y en x, cette seconde droite de régression passe par le point moyen G(x,y) du nuage étudié et son coefficient directeur dans le repère de (d1) est 1/a'.

Interprétation graphique du coefficient de corrélation linéaire :

Sachant que le coefficient de corrélation linéaire du couple (X,Y) est :

on remarque que r² = aa' :

Le carré du coefficient de corrélation linéaire d'un couple statistique est égal
au produit des coefficients directeurs des droites de régression

Le coefficient de corrélation r est du signe de cov(X,Y), tout comme a et a'. Les deux droites de régression sont toutes deux ascendantes (a > 0, a' > 0) ou descendantes (a < 0, a' < 0) dans le repère représentant le nuage de points étudié.
Les droites de régression peuvent être confondues. Pour qu'il en soit ainsi, sachant qu'elles ont G en commun, il faut et il suffit que leurs coefficients directeurs, dans un même repère, soient égaux : a = 1/a'. Ce qui signifie r² = 1.
Le coefficient de corrélation linéaire r vérifie -1 ≤ r ≤ 1. » preuve

♦ On peut démontrer que dans le cas p = 1, le minimum de Δ (somme des carrés des écarts) n'est autre (1 - r²)V(Y) pour la droite de y en x et (1 - r²)V(X) pour celle de x en y (» preuve).

Cela signifie que si r = ± 1, on a Δ = 0 : tous les points sont alignés sur les droites (confondues) de régression. On estime (» Pearson) qu'un ajustement linéaire est pertinent lorsque l'on a r > 0,87. Dans l'exemple donné en début d'étude, un ajustement par la méthode des moindres carrés fournit sensiblement y = 0,42x + 1,6 et r = 0,51 : un ajustement linéaire ne semble pas pertinent !

Karl Pearson et le coefficient de corrélation : »

Exemples d'application :

1. Voici un nuage de 9 points. On désire l'ajuster linéairement par la méthode des moindres carrés :

Point 1	Point 2	Point 3	Point 4	Point 5	Point 6	Point 7	Point 8	Point 9
x = 1	x = 2	x = 3	x = 4	x = 5	x = 6	x = 7	x = 8	x = 9
y = 1	y = 1.5	y = 1.8	y = 2.2	y = 2.7	y = 3.3	y = 3.5	y = 4	y = 4.7

Avec p = 1 (polynôme de degré 1), le programme répond :

a(1) = 0,44666..., soit, à 0,01 près, a = 0,45.
a(0) = 0,51111..., soit à 0,01 près b = 0,51.
Le coefficient de corrélation est 0,996 : forte corrélation linéaire.

La droite de régression de y en x a ainsi pour équation y = 0,45x + 0,51. Ci-dessous, le tableau de valeurs correspondant à la régression (arrondis à 0,1) comparé au tableau de données. L'ajustement linéaire du phénomène étudié semble judicieux !

Point 1	Point 2	Point 3	Point 4	Point 5	Point 6	Point 7	Point 8	Point 9
x = 1	x = 2	x = 3	x = 4	x = 5	x = 6	x = 7	x = 8	x = 9
y = 1	y = 1.4	y = 1.9	y = 2.3	y = 2.8	y = 3.2	y = 3.7	y = 4,1	y = 4.6

2. Les résultats suivants correspondent à l'ajustement par un polynôme du second degré (parabole, p = 2) d'un nuage de 7 points représenté ci-dessous :

Point1	Point 2	Point 3	Point 4	Point 5	Point 6	Point 7
x = -3	x = -2	x = 1	x = 2	x = 3	x = 4	x = 5
y = 2	y = 0.5	y = -1	y = -1	y = 0	y = 2	y = 4

Le programme répond : a(2) = 0.26987... , a(1) = - 0.3043... , a(0) = - 1,2583... C'est dire que la parabole d'ajustement a sensiblement pour équation :

y = 0.27x² - 0.3x - 1,26

On constate l'efficacité de la méthode au vu du graphique : la parabole calculée ajuste remarquablement le nuage.

3. Voici un cas tout à fait artificiel montrant encore cependant l'efficacité de la méthode. On a relevé sur la courbe d'équation y = 1/x + x/2 les coordonnées de 8 points à 0,1 près.

En admettant savoir que l'ajustement est de la forme y = a/x + bx (x > 0), on demande de calculer a et b par la méthode des moindres carrés.

Point1	Point 2	Point 3	Point 4	Point 5	Point 6	Point 7	Point 8
x = 0,5	x = 1	x = 1,5	x = 2	x = 2,5	x = 3	x = 4	x = 5
y = 2,3	y = 1.5	y = 1,4	y = 1,5	y = 1,7	y = 1,8	y = 2,3	y = 2,7

! Attention : dans le programme 2,25 doit être tapé 2.25 (point décimal) !

On remarque que xy = a + bx². En posant Y = xy et X = x², on se ramène à une régression linéaire Y = a + bX. Formons le tableau des (X,Y) :

Point1	Point1	Point 2	Point 3	Point 4	Point 5	Point 6	Point 7	Point 8
x²	x = 0,25	x = 1	x =2,25	x = 4	x = 6,25	x = 9	x = 16	x = 25
xy	y = 1,15	y = 1.5	y =2,1	y = 3	y = 4,25	y = 5,4	y = 9,2	y = 13,5

Avec p = 1, Le programme répond :

a(1) = 0,502, soit sensiblement b = 0,5
a(0) = 1,015, soit sensiblement a = 1.

On retrouve bien l'équation y = 1/x + x/2.

∗∗∗
Encor un exo pas gai... : taux de mortalité | Droite de Mayer | PIB & Production automobile

♦ Complément :

On montre ici que dans le cas de la régression linéaire, le minimum de Δ = Σ[y_i - f(x_i)]², somme des carrés des écarts, n'est autre (1 - r²)V(Y) pour la droite de y en x et (1 - r²)V(X) pour celle de x en y, r désignant le coefficient de corrélation. Considérons la droite de régression (d1) de y en x. Nous avons ici Δ = Σ[y_i - ax_i - b]², la somme s'entendant pour i variant de 1 à n. Développons : Δ = Σy_i² + a²Σx_i² + nb² - 2aΣx_iy_i - 2bΣy_i + 2abΣx_i. Divisons par n :

Δ/n = b² - 2b(Y - aX) + Y² + a² X² - 2aXY = [b - (Y - aX)]² - (Y - aX)² + Y² + a² X² - 2aXY

On développe le carré à droite du crochet et on voit apparaître V(X) = X² - X² et V(Y) = Y² - Y² (espérance du carré diminué du carré de l'espérance : attention à la place des carrés dans ces expressions...), ainsi que cov(X,Y) = XY - X × Y (covariance : espérance du produit diminué du produit des espérances). D'où :

Δ/n = [b - (Y - aX)]² + V(Y) + a²V(X) - 2acov(X,Y) = [b - (Y - aX)]² + V(Y) + V(X)[a - cov(X,Y)/V(X)]² - cov²(X,Y)/V(X)

Les coefficients a et b cherchés minimiseront Δ/n, donc Δ si et seulement si les carrés [b - (Y - aX)]² et [a - cov(X,Y)/V(X)]² sont nuls. C'est dire que la solution optimale est donnée par b = Y - aX et a = cov(X,Y)/V(X). Le minimum est alors :

On voit apparaître là le coefficient de corrélation r = cov(X,Y)/[σ(X)σ(Y)] et on obtient Δ_min = V(Y)(1 - r²).

» Huygens , Koenig , Pearson