Sommaire
IDéfinitionsIILes ajustements affinesIIILes ajustements par changement de variableIVInterpolations et extrapolationsDéfinitions
En statistiques, on peut être amené à mesurer deux caractères d'une même population, notamment pour savoir s'il existe un lien de cause à effet entre les deux.
Série statistique à deux variables quantitatives
Soit une population constituée de n individus, où n \in \mathbb{N}^{*}.
On considère deux caractères quantitatifs observés sur cette population où les individus sont numérotés de 1 à n.
On relève pour le premier caractère les valeurs numériques x_{1}, x_{2}, ...x_{n-1}, x_{n}, et pour le second caractère les valeurs numériques y_{1}, y_{2}, ...y_{n-1}, y_{n}.
On appelle l'ensemble des couples (x_{i} ; y_{i}) avec 1\leqslant i\leqslant n une série statistique à deux variables quantitatives.
Dans une micro-crèche accueillant 6 jeunes enfants entre 2 et 3 ans, on relève la masse en kg et la taille en cm des enfants.
Les deux caractères quantitatifs étudiés sont :
- la masse donnée par les valeurs x_{i}
- la taille des enfants donnée par les valeurs y_{i}
On peut représenter la série statistique à deux variables par un tableau où chaque colonne donne les valeurs relevées sur un enfant :
Masse (kg) | 14,2 | 13,8 | 13 | 12,5 | 13,2 | 13,9 |
Taille (cm) | 95 | 90 | 95 | 92 | 98 | 97 |
Nuage de points
Soit une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\}.
Dans un repère, on appelle nuage de points de la série l'ensemble des n points M_{i} de coordonnées (x_{i} ; y_{i}).
Voici le nuage de points associé à la série statistique à deux variables suivante :
Masse (kg) | 14,2 | 13,8 | 13 | 12,5 | 13,2 | 13,9 |
Taille (cm) | 95 | 90 | 95 | 92 | 98 | 97 |

Point moyen
Soit une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\} et son nuage de points dans un repère.
On appelle point moyen du nuage de points le point G(\overline{x} \ ; \ \overline{y}) où :
- \overline{x} est la moyenne des valeurs x_{i} ;
- \overline{y} est la moyenne des valeurs y_{i}.
On considère la série statistique à deux variables suivante :
Masse x_{i} (kg) | 14,2 | 13,8 | 13 | 12,5 | 13,2 | 13,9 |
Taille y_{i} (cm) | 95 | 90 | 95 | 92 | 98 | 97 |
On calcule la moyenne des x_{i} :
\overline{x} =\dfrac{x_{1}+x_{2}+x_{3}+x_{4}+x_{5}+x_{6}}{6}=\dfrac{14{,}2+13{,}8+13+12{,}5+13{,}2+13{,}9}{6}
On obtient \overline{x} \approx13{,}4 \ \text{kg}
On calcule la moyenne des y_{i} :
\overline{x} =\dfrac{y_{1}+y_{2}+y_{3}+y_{4}+y_{5}+y_{6}}{6}=\dfrac{95+90+95+92+98+97}{6}
On obtient \overline{y}=94{,}5 \ \text{cm}
Le point moyen du nuage de points a donc pour coordonnées (13{,}4 ; 94{,}5) ;
On peut le représenter avec le nuage de points :

La moyenne \overline{x} de la série des x_{i} donne une tendance centrale de cette série. De même, la moyenne \overline{y} de la série des y_{i} donne une tendance centrale de la série des y_{i}.
Ainsi le point moyen G(\overline{x} ; \overline{y} ) occupe graphiquement une position centrale par rapport au nuage de points.
Les ajustements affines
Pour une série statistique à deux variables quantitatives, le nuage de points a parfois l'allure d'une droite. On est alors amené à considérer l'interdépendance des deux caractères et à modéliser cette dépendance par un ajustement affine.
Ajustement affine
Soit une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\} et son nuage de points dans un repère.
Pratiquer un ajustement affine de cette série signifie modéliser la dépendance des deux variables par une relation affine.
Graphiquement, on va chercher une droite qui passe « au plus près » des points du nuage de points.
La disposition des points du nuage représentant la série A ne suggère pas un ajustement affine.
Le nuage représentant la série B a une allure de droite. On peut effectivement tracer plusieurs droites qui passent près de chacun des points du nuage.

Méthode des moindres carrés
Afin de trouver la droite qui passe « au plus près » d'un nuage de points lors d'un ajustement affine, il existe plusieurs méthodes et critères.
Dans ce cours, on utilise la méthode des moindres carrés suivante :
Dans un repère orthogonal, on considère le nuage de n points M_{i} de coordonnées (x_{i} ; y_{i} ) représentant une série statistique à deux variables quantitatives.
Soit D une droite du plan d'équation y=ax+b.
Sur cette droite, on nomme, pour chaque valeur de i entre 1 et n, A_{i} le point de même abscisse que M_{i}.
Ainsi, dans ce repère, A_{i} a pour coordonnées (x_{i} ; ax_{i} +b).

On s'intéresse aux distances au carré A_{i}M_{i}\ ^{2} = (y_{i}-(ax_{i}+b))^{2}.
La méthode des moindres carrés consiste à trouver les valeurs a et b qui caractérisent la droite D de telle façon que la somme A_{1}M_{1}\ ^{2}+A_{2}M_{2}\ ^{2} +...+A_{n}M_{n}\ ^{2} soit la plus petite possible.
Soit une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\} et son nuage de points dans un repère.
On admet que :
Il existe une unique droite passant par le point moyen et telle que la somme S =A_{1}M_{1}\ ^{2}+A_{2}M_{2}\ ^{2} +...+A_{n}M_{n}\ ^{2} est minimale.
Droite des moindres carrés (ou droite de régression de y en x)
Soit une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\} et son nuage de points dans un repère orthogonal.
On appelle droite des moindres carrés ou droite de régression de y en x, la droite tracée dans ce repère obtenue par la méthode des moindres carrés.
Soit un nuage de n points M_{i} de coordonnées (x_{i} ; y_{i} ) représentant une série à deux variables dans un repère orthogonal du plan.
La droite des moindres carrés associée au nuage de points a pour équation cartésienne réduite :
y=ax+(\overline{y}-a\overline{x}), où a=\dfrac{COV(x;y)}{V(x)}
avec :
- COV(x;y) est la covariance de la série à deux variables :
COV(x;y)=\dfrac{1}{n}\ \sum_{i=1}^{i=n}(x_{i}-\overline{x})(y_{i}-\overline{y})
- V(x) est la variance de la série des x_{i} :
V(x)=\dfrac{1}{n}\sum_{i=1}^{i=n} (x_{i}-\overline{x})^{2}
Soit une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\} et son nuage de points placés dans un repère orthogonal.
Soit une droite D d'équation y=ax+b.
Sur cette droite, on considère les n points A_{i} (x_{i} ; \ ax_{i}+b).
- D passe par le point moyen de coordonnées (\overline{x} \ ; \ \overline{y}) si et seulement si \overline{y}=a \ \overline{x}+b.
Si et seulement si b=\overline{y}-a \ \overline{x}
- On prend pour b l'expression trouvée précédemment.
On cherche la valeur de a telle que la somme S =A_{1}M_{1}\ ^{2}+A_{2}M_{2}\ ^{2} +...+A_{n}M_{n}\ ^{2} soit minimale.
- On exprime la somme S =A_{1}M_{1}\ ^{2}+A_{2}M_{2}\ ^{2} +...+A_{n}M_{n}\ ^{2} .
Pour tout entier i compris entre 1 et n, A_{i}M_{i}\ ^{2} = (y_{i}-(ax_{i}+b))^{2} =(y_{i}-ax_{i}-\overline{y} +a\overline{x})^{2}.
Ainsi, A_{i}M_{i}\ ^{2} =(y_{i}-\overline{y} +a(\overline{x}-x_{i}))^{2}.
On développe cette expression :
A_{i}M_{i}^2=(y_{i}-\overline{y})^2+2a(y_{i}-\overline{y})(\overline{x}-x_{i})+a^2 (\overline{x}-x_{i})^2
Donc on a :
S =A_{1}M_{1}\ ^{2}+A_{2}M_{2}\ ^{2} +...+A_{n}M_{n}\ ^{2} =(y_{1}-\overline{y})^2+2a(y_{1}-\overline{y})(\overline{x}-x_{1})+a^2(\overline{x}-x_{1})^2+...+(y_{n}-\overline{y})^2+2a(y_{n}-\overline{y})(\overline{x}-x_{n})+a^2(\overline{x}-x_{n})^2
D'où :
S =\sum_{i=1}^{i=n}(y_{i}-\overline{y})^2+2a\sum_{i=1}^{i=n}(y_{i}-\overline{y})(\overline{x}-x_{i})+a^2\sum_{i=1}^{i=n}(\overline{x}-x_{i})^2
- On considère que S est un polynôme de degré 2 en a.
\sum_{i=1}^{i=n}(\overline{x}-x_{i})^2 \gt 0 donc S admet un minimum.
On cherche la valeur de a pour laquelle on obtient ce minimum.
- S est dérivable comme fonction trinôme et on a :
S'(a)=2\sum_{i=1}^{i=n}(y_{i}-\overline{y})(\overline{x}-x_{i})+2a\sum_{i=1}^{i=n}(\overline{x}-x_{i})^2
Ainsi :
S'(a)=0 si et seulement si 2\sum_{i=1}^{i=n}(y_{i}-\overline{y})(\overline{x}-x_{i})+2a\sum_{i=1}^{i=n}(\overline{x}-x_{i})^2=0.
S'(a)=0 si et seulement si a=-\dfrac{\sum_{i=1}^{i=n}(y_{i}-\overline{y})(\overline{x}-x_{i})}{\sum_{i=1}^{i=n}(\overline{x}-x_{i})^2}.
- Au dénominateur on reconnaît n \times V(x).
Au numérateur, on a -\sum_{i=1}^{i=n}(y_{i}-\overline{y})(\overline{x}-x_{i})=\sum_{i=1}^{i=n}(y_{i}-\overline{y})(x_{i}-\overline{x}).
On reconnaît alors n\times COV (x;y).
Ainsi le polynôme S atteint son minimum lorsque a=\dfrac{COV(x;y)}{V(x)}.
- Conclusion :
En utilisant le critère des moindres carrés, la droite des moindres carrés admet pour équation cartésienne :
y=ax+b avec a=\dfrac{COV(x;y)}{V(x)} et b=\overline{y}-a \ \overline{x}
On considère la série statistique à deux variables suivante, et son nuage de points dans un repère orthogonal.

On cherche l'équation de la droite des moindres carrés associée au nuage de points.
On détermine donc :
- D'une part \overline{x} et \overline{y} :
\overline{x}=\dfrac{5+6+2+8+4+3{,}5}{6}=4{,}75
\overline{y}=\dfrac{3{,}2+3{,}2+1{,}2+4{,}2+2{,}1+1{,}5}{6}\approx2{,}57 en arrondissant au centième.
- D'autre part la variance V(x) de x, et la covariance de la série COV(x;y).
Pour ce faire, on peut calculer « à la main », utiliser le mode statistiques de la calculatrice ou un logiciel.
Ici, on choisit le tableur :

On en déduit les coefficients a et b de la droite des moindres carrés :
a=\dfrac{COV(x;y)}{V(x)}\approx\dfrac{1{,}95}{3{,}65 }
Soit a\approx0{,}53.
Et b= \overline{y}-a\overline{x} \approx2{,}57-0{,}53\times4{,}75 .
Soit b\approx0{,}05 .
L'équation de la droite des moindres carrés est donc y=0{,}53x+0{,}05.

Nuage de points de la série, point moyen G et droite des moindres carrés
Coefficient de corrélation
Pour une série à deux variables, on appelle coefficient de corrélation le nombre :
r=\dfrac{COV(x;y)}{\sigma(x)\ \sigma(y)}
où \sigma (x) et \sigma (y) sont respectivement les écarts types de la série des x_{i} et de la série des y_{i}.
Pour la série statistique à deux variables de l'exemple précédent, on a :
- COV(x;y) \approx1{,}95
- V(x)\approx3{,}65
Avec la variance de x, on peut calculer l'écart type de la série des x_{i} :
\sigma(x)=\sqrt{V(x)}\approx1{,}91
On cherche ensuite l'écart type de la série des y_{i}.
On a V(y)=\dfrac{1}{n}\sum_{i=1}^{i=n} (y_{i}-\overline{y})^{2}.
En utilisant le tableur ou la calculatrice, on trouve V(y)\approx 1{,}12.
On en déduit \sigma(y)=\sqrt{V(y)}\approx1{,}06.
En conclusion, le coefficient de corrélation r=\dfrac{COV(x;y)}{\sigma(x)\ \sigma(y)} est environ égal à :
r=\dfrac{1{,}95}{1{,}91\times1{,}06}\approx0{,}96
Ce coefficient de corrélation est UN indicateur de la qualité de l'ajustement affine.
Plus le coefficient est en valeur absolue proche de 1, plus l'hypothèse que les deux variables sont corrélées - ce qui signifie dépendantes - est vraisemblable.
Plus le coefficient est en valeur absolue proche de 0, moins les variables sont corrélées.
Avec le coefficient de corrélation d'environ 0,96 trouvé dans l'exemple précédent, on peut faire l'hypothèse que les deux variables de la série sont fortement corrélées.
Les ajustements par changement de variable
Pour une série statistique à deux variables quantitatives, le nuage de points a parfois l'allure d'une courbe différente d'une droite. On peut se ramener à un ajustement affine en faisant un changement de variable.
Changement de variable dans une série statistique à deux variables
On considère une série statistique à deux variables quantitatives \left\{ (x_{i} ; y_{i}), \text{où}\ 1\leqslant i \leqslant n \right\} et son nuage de points dans un repère orthogonal.
L'allure du nuage de points peut faire penser à une relation entre les deux variables du type y_{i}=f(x_{i}) où f est une fonction de référence.

Pour pouvoir procéder à un ajustement affine, on fait un changement de variable sur l'une des variables de la série, par exemple la série des y_{i}.
Ceci implique que les valeurs de cette variable vont être remplacées par une nouvelle série de données z_{i}.
On étudie ensuite le nouveau nuage de points {(x_{i}; z_{i})} avec 1\leqslant i\leqslant n et on cherche si un ajustement affine est pertinent.
Interprétation :
Si l'ajustement affine du nouveau nuage de points est pertinent, on aura une relation affine entre la série des x_{i} et la série des z_{i} ; on obtiendra alors une relation fonctionnelle entre les x_{i} et les y_{i}.
Une population de bactéries est placée dans un milieu stable. On mesure le nombre de bactéries par volume du milieu en fonction du temps. On obtient la série des six mesures expérimentales suivantes et le nuage de points associé.
Temps en secondes : x_{i} | 0 | 0,5 | 1 | 1,5 | 2 | 2,5 | 3 |
---|---|---|---|---|---|---|---|
Densité bactérienne en mm^{-3} : y_{i} | 0,5 | 1,2 | 2,6 | 8,2 | 17,5 | 45 | 108,3 |

Nuage de points (x_{i}\ ; \ y_{i})
Le nuage de points - représentant l'évolution d'une population de bactéries au cours du temps - a une allure de courbe exponentielle.
- On choisit de faire le changement de variable suivant : z=\ln\left(y\right) :
Ce changement est possible puisque :
-> La fonction \ln est définie sur ] 0 ; +\infty[ et les valeurs y_{i} sont strictement positives.
-> Elle admet une fonction réciproque sur cet intervalle.
Ainsi, z=\ln\left(y\right) si et seulement si y=e^{z}.
- En arrondissant les z_{i}=\ln\left(y_{i}\right) au centième, on obtient la nouvelle série :
Temps en secondes x_{i} | 0 | 0,5 | 1 | 1,5 | 2 | 2,5 | 3 |
---|---|---|---|---|---|---|---|
z_{i}=\ln\left(y_{i}\right) | -0,69 | 0,18 | 0,96 | 2,10 | 2,86 | 3,8 | 4,68 |
Avec la calculatrice, on trouve pour la série à deux variables (x_{i} ; z_{i} ) :
- la valeur moyenne des x_{i} : \overline{x} = 1{,}5 ;
- la valeur moyenne des z_{i} : \overline{z}\approx 1{,}98 ;
- la variance de la série des x_{i} : V(x)=1 ;
- la variance de la série des z_{i} : V(z)\approx3{,}26 ;
- la covariance COV(x;z)\approx1{,}80.
Ainsi on peut calculer :
- Le coefficient directeur de la droite des moindres carrés a=\dfrac{COV(x;z)}{V(x)}\approx\dfrac{1{,}80}{1}.
On a donc a\approx1{,}80.
- L'ordonnée à l'origine de cette droite b=\overline{z}-a\overline{x} .
Soit b\approx1{,}98-1{,}80 \times 1{,}5\approx -0{,}72.
En conclusion : l'équation réduite de la droite des moindres carrés associée au nuage de points est y=1{,}8 x -0{,}72.

Nuage de points, point moyen de la série (x_{i} ; y_{i}), et droite des moindres carrés associée
La représentation graphique illustre que l'ajustement affine est pertinent après le changement de variables.
On en déduit que pour les données relevées et, pour tout i entier compris entre 1 et 7 :
z_{i}\approx1{,}8x_{i}-0{,}72
Soit \ln\left(y_{i}\right)\approx1{,}8x_{i}-0{,}72.
Ainsi on peut donner comme lien entre les deux variables x et y la relation fonctionnelle :
y= \exp\left(1{,}8x-0{,}72\right)
Interpolations et extrapolations
À l'aide d'un ajustement affine, on peut estimer les valeurs de la série qui n'ont pas été mesurées. Selon qu'on s'intéresse à des valeurs dans le domaine de mesure, ou hors de ce domaine, on parlera d'interpolation ou d'extrapolation.
Interpolation
Soit une série statistique à deux variables x et y dont on a un ajustement.
On note x_{min} la valeur la plus petite, et x_{max} la valeur la plus grande de la série x.
Faire une interpolation, c'est utiliser la relation trouvée par ajustement pour estimer la valeur de y pour une valeur de x appartenant à [x_{min} ; x_{max}].
Soit la série statistique suivante :

Cette série est ajustée par la droite des moindres carrés d'équation y=0{,}53x+0{,}05.
On ne connaît pas la valeur de y lorsque x vaut 3 mais on peut l'estimer grâce à l'ajustement affine :
y=0{,}53 \times 3 +0{,}05 =1{,}64
3 est compris entre x_{min}=2 et x_{max}=8 donc on a procédé à une interpolation.
Extrapolation
Soit une série statistique à deux variables x et y dont on a un ajustement.
On note x_{min} la valeur la plus petite, et x_{max} la valeur la plus grande de la série x.
Faire une extrapolation, c'est utiliser la relation trouvée par ajustement pour estimer la valeur de y pour une valeur de x n'appartenant pas à [x_{min} ; x_{max}].
On reprend la série de l'exemple précédent.
Elle est ajustée par la droite des moindres carrés y=0{,}53x+0{,}05.
On ne connaît la valeur de y lorsque x vaut 10 mais on peut l'estimer grâce à l'ajustement affine :
y=0{,}53 \times 10 +0{,}05 =5{,}35
10 n'est pas compris entre 2 et 8 donc on a procédé à une extrapolation.
Dans le cas d'une extrapolation, l'estimation peut être fausse.
En effet, l'ajustement modélise mathématiquement le lien entre les deux variables sur le domaine de mesures donné par l'enquête.
Rien ne dit que, sorti de ce domaine, cette modélisation est encore valable.