Statistiques descriptivesCours

Deux paramètres sont essentiels lorsque l'on s'intéresse aux séries de données numériques : la moyenne et la médiane. Ces indicateurs donnent une idée de la position « centrale » des données : on dit que ce sont des indicateurs de position, ou de tendance centrale. Cependant, ils sont insuffisants car deux séries peuvent être différentes alors qu'elles ont la même moyenne, ou la même médiane.

Les deux séries statistiques suivantes ont la même moyenne, mais elles sont cependant très différentes : dans la première, les valeurs sont très resserrées autour de la moyenne, dans la deuxième, les valeurs sont très étalées.

-

Pour mesurer la dispersion des données autour de leur valeur centrale, on va introduire de nouveaux indicateurs, dits paramètres de dispersion.

I

L'étendue

Étendue

L'étendue d'une série quantitative est égale à la différence entre la plus grande valeur et la plus petite valeur de la série.

Le tableau d'effectifs suivant présente les notes obtenues par un groupe d'élèves :

Note

5

8

9

10

10,5

11

13

14

14,5

16

Nombre d'élèves

1

3

5

6

2

5

6

1

2

1

Les notes vont de 5 à 16. L'étendue de la série est donc égale à 16 − 5 = 11.

II

Moyenne et écart type

A

Moyenne pondérée

Moyenne

Soit une série statistique représentée par les couples (x_i;n_i) où les x_i sont les valeurs de la série et les n_i  leurs effectifs respectifs.

La moyenne de la série, généralement notée \overline x, est le réel :

\overline x=\dfrac{n_1x_1+n_2x_2+...+n_px_p} n

Lorsque la série est regroupée comme ici par effectifs, la moyenne calculée grâce à la formule précédente est souvent appelée moyenne pondérée.

Le tableau d'effectifs suivant présente les notes obtenues par un groupe d'élèves :

Note

5

8

9

10

12,5

13

14

Nombre d'élèves

1

3

5

6

2

5

6

 

L'effectif total est 1+3+5+6+2+5+6=28.

On peut ainsi calculer facilement la moyenne pondérée :

m=\dfrac{5\times 1+8\times 3+9\times 5+10\times 6+12,5\times 2+13\times 5+14\times 6}{28}=11

Pour une série regroupée en classes, on détermine une valeur approchée de la moyenne en remplaçant chaque classe par son centre.

On considère la série statistique suivante :

Taille x (en cm)

10 \leq x \lt 20

20 \leq x \lt 25

25 \leq x \lt 40

40 \leq x \leq 50

Centre de la classe (cm)

15

22,5

32,5

45

Effectif

11

8

16

3

La moyenne des tailles, arrondie au dixième, est donc :

m\approx\dfrac{15\times11+22,5\times8+32,5\times16+45\times3}{11+8+16+3}\approx26,3 \text{ cm}

On peut calculer la moyenne d'une série en utilisant la fréquence de chaque valeur :

\overline{x} =f_{1} x_{1}+f_{2} x_{2}+...+f_{p} x_{p}

On considère la série statistique suivante :

Pointure  x_i

39

40

41

42

44

TOTAL

Effectif  n_i

2

3

5

1

1

12

Fréquence   f_i

\dfrac{2}{12}

\dfrac{3}{12}

\dfrac{5}{12}

\dfrac{1}{12}

\dfrac{1}{12}

1

On calcule la moyenne :

\overline{x}=39\times\dfrac{2}{12}+40\times\dfrac{3}{12}+41\times \dfrac{5}{12}+42\times \dfrac{1}{12}+44\times\dfrac{1}{12}=\dfrac{163}{4}=40,75

Soit k un nombre réel.

  • Si on multiplie toutes les valeurs de la série par k, alors la moyenne est multipliée par k.
  • Si on ajoute k à toutes les valeurs de la série, alors la moyenne est aussi augmentée de k.

On considère la série statistique : 1, 1, 2, 3.

Cette série a pour moyenne 1,75 car \dfrac{2\times 1+2+3} 4=1,75.

  • On considère maintenant la série statistique : 2, 2, 4, 6.

Les valeurs de cette série sont obtenues en multipliant par 2 les valeurs de la série précédente, et les effectifs sont inchangés. Comme 1,75\times 2=3,5, la moyenne de la nouvelle série est 3,5.

  • On considère la série statistique : 3, 3, 5, 7.

Les valeurs de cette série sont obtenues en multipliant par deux et en ajoutant un à toutes les valeurs de la première série. De plus les effectifs sont inchangés.

Sa moyenne est donc 1,75 \times 2 +1 =4,5.

B

Variance et écart type

Écart type

L'écart type est un outil statistique qui permet d'estimer la dispersion des valeurs par rapport à la moyenne.

  • Plus l'écart type a une valeur élevée, plus les données sont dispersées par rapport à la moyenne.
  • L'unité de l'écart type est la même que celle de la moyenne.

Pour calculer l'écart type, on passe par une valeur intermédiaire appelée variance.

Variance

On appelle variance d'une série, notée V, le réel :

V=\dfrac{n_1\left(x_1-\overline{x}\right)^2+\ldots+n_p\left(x_p-\overline{x}\right)^2}{N}

V = \dfrac{1}{N} \sum_{i=1}^p n_i(x_i-\overline{x})^2

où les x_i sont les valeurs de la série, les n_i leurs effectifs respectifs, N l'effectif total et la moyenne pondérée.

Considérons la série suivante d'effectif total n=12 et de moyenne \overline{x}=40,75.

Pointure x_i 

39

40

41

42

44

TOTAL

Effectif n_i

2

3

5

1

1

12

On a alors :

V=\dfrac{2\times\left(39−40,75\right)^2+3\times\left(40−40,75\right)^2+5\times\left(41−40,75\right)^2+1\times\left(42−40,75\right)^2+1\times\left(44−40,75\right)^2}{12}=1,6875

La variance peut également être calculée par la formule suivante :

V=\dfrac1n\times\left[ n_1x_1^2+n_2x_2^2+...+n_px_p^2 \right]-\left[\overline{x}\right]^2

Considérons la série suivante d'effectif total n=12 et de moyenne \overline{x}=40,75.

Pointure x_i 

39

40

41

42

44

TOTAL

Effectif n_i

2

3

5

1

1

12

On a alors :

V=\dfrac{1}{12}\times\left( 2\times39^2+3\times40^2+5\times41^2+1\times42^2+1\times44^2 \right)-40,75^2=1,6875

Dans le cas d'une série statistique continue, les valeurs x_i sont remplacées par les centres des classes. Le résultat obtenu n'est alors qu'une valeur approchée de la variance.

L'écart type d'une série, noté \sigma, correspond à la racine carrée de la variance V :

\sigma = \sqrt{V}

Considérons la série suivante de variance V=1,6\ 875.

Pointure x_i 

39

40

41

42

44

TOTAL

Effectif n_i

2

3

5

1

1

12

L'écart type est donc :

\sigma=\sqrt{1,6875}\approx1,299

La variance donne une mesure de la valeur moyenne des carrés des écarts à la moyenne. Elle fournit donc une indication sur la dispersion des données par rapport à la moyenne. Mais on ne peut l'utiliser directement comme indicateur de dispersion, car elle ne s'exprime pas dans la même unité que les valeurs de la série. C'est pourquoi on utilise l'écart type.

III

Médiane et quartiles

A

La médiane

Médiane

On appelle médiane d'une série rangée par ordre croissant toute valeur qui partage la série en deux séries de même effectif.

On la note généralement M_{ed}.

Dans une série de données, 50 % des valeurs sont supérieures ou égales à la médiane et 50 % lui sont inférieures ou égales.

On considère une série dont les valeurs des n individus sont rangées par ordre croissant.

  • Si n est impair, on prend en général pour médiane la \dfrac{n+1}{2}^\text{ème}  valeur de la série ordonnée.

  • Si n est pair, on prend en général pour médiane le centre de l'intervalle \left[\dfrac{n}{2}^{\text{ème}} \text{ valeur ; }\dfrac{n}{2}+ 1 ^{\text{ème}} \text{ valeur}\right].

Une médiane de la série : 3, 5, 6, 11, 14, 21, 27 est la valeur 11.

En effet l'effectif est n=7, on choisit donc la valeur de rang \dfrac {7+1}{2}=4  qui est 11.

Ne pas confondre le rang d'une médiane et sa valeur.

Une médiane n'est pas toujours une valeur observée dans la série statistique.

La médiane de la série : 12, 13, 14, 19, 31, 41 est la valeur arbitraire 16,5.

En effet, l'effectif est n=6, on choisit donc pour valeur le centre de l'intervalle \left[14;19\right] qui est 16,5.

16,5 n'est pas une valeur de la série.

Lorsque les valeurs sont présentées sous forme de tableau, on peut se servir des effectifs cumulés croissants pour déterminer la médiane.

Considérons la série statistique suivante, avec un effectif total égal à 10.

Pointure x_i

39

40

41

44

Effectif n_i

2

3

4

1

Effectifs cumulés croissants 2 5 9 10

L'effectif vaut 10. Il est pair et   \dfrac {10} 2 = 5.

On prend donc comme médiane la moyenne de la 5e et 6e valeur de l'effectif cumulé.

On se sert des effectifs cumulés croissants pour lire que :

  • la 5e valeur est 40 ;
  • la 6e valeur est 41 car  5 \lt 6 \leq 9.

 

Une médiane est donc  \dfrac{40+41}2 = 40,5.

Lorsque la série est une série continue, on prend comme médiane la valeur pour laquelle on obtient une fréquence cumulée de 50 %.

Lors d'un devoir commun, les notes de tout l'établissement ont été regroupées en classes.

Notes

\left[ 0;4 \right[

\left[ 4;8 \right[

\left[ 8;10 \right[

\left[ 10;12 \right[

\left[ 12;16 \right[

\left[ 16;20 \right[

Centre de la classe

2

6

9

11

14

18

Effectifs

21

46

117

123

86

7

Fréquences (en %)

5,25

11,5

29,25

30,75

21,5

1,75

Fréquences cumulées croissantes (en %)

5,25

16,75

46

76,75

98,25

100

Le graphique (ou polygone) des fréquences cumulées croissantes (FCC) est alors le suivant :

-
B

Les quartiles

Premier quartile

Le premier quartile est la plus petite valeur, notée Q_1, d'une série, rangée par ordre croissant, telle qu'au moins 25 % de l'effectif lui soit inférieur ou égal.

On considère la série suivante issue d'un échantillon de taille 8 : 3, 4, 5, 6, 11, 14, 21, 27.

Comme \dfrac{25}{100}\times{8}=2, le premier quartile de cette série est son deuxième élément soit 4.

On considère la série suivante issue d'un échantillon de taille 7 : 10, 12, 13, 14, 19, 31, 41.

Comme \dfrac{25}{100}\times7=1,75, le premier quartile de cette série est son deuxième élément soit 12.

Troisième quartile

Le troisième quartile est la plus petite valeur, notée Q_3, d'une série, rangée par ordre croissant, telle qu'au moins 75 % de l'effectif lui soit inférieur ou égal.

On considère la série suivante issue d'un échantillon de taille 8 : 3, 4, 5, 6, 11, 14, 21, 27.

Comme \dfrac{75}{100}\times8=6, le troisième quartile de cette série est son sixième élément, soit 14.

On considère la série suivante issue d'un échantillon de taille 7 : 10, 12, 13, 14, 19, 31, 41.

Comme \dfrac{75}{100}\times7=5,25, le troisième quartile de cette série est son sixième élément, soit 31.

Alors que la médiane n'est pas toujours une valeur observée, les quartiles sont des valeurs observées.

Lorsqu'on a un tableau avec les fréquences cumulées croissantes :

  • On choisit comme premier quartile la plus petite valeur pour laquelle on obtient une fréquence cumulée croissante supérieure à 25 %.
  • On choisit comme troisième quartile la plus petite valeur pour laquelle on obtient une fréquence cumulée croissante supérieure à 75 %.

Considérons la série statistique suivante, avec un effectif total égal à 10 :

Pointure x_i

39

40

41

44

Effectif n_i

2

3

4

1

Effectifs cumulés croissants 2 5 9 10
Fréquences cumulées croissantes 0,2 0,5 0,9 1

 

40 est la plus petite valeur pour qui la fréquence cumulée croissante est supérieure ou égale à 0,25. C'est donc le premier quartile.

41 est la plus petite valeur pour qui la fréquence cumulée croissante est supérieure ou égale à 0,75. C'est donc le premier quartile.

Lorsque la série est une série à caractère continu :

  • On choisit comme premier quartile la valeur pour laquelle on obtient une fréquence cumulée de 25 %.
  • On choisit comme troisième quartile la valeur pour laquelle on obtient une fréquence cumulée de 75 %.

On reprend l'exemple précédent des notes et le polygone des fréquences cumulées croissantes :

-

On obtient graphiquement :

  • Q_1\approx 8,56

  • Q_3\approx 11,89

C

L'écart interquartile

Écart interquartile

Soit Q_1 le premier quartile et Q_3 le troisième quartile d'une série statistique.

L'écart interquartile de la série statistique est le réel Q_3 - Q_1.

L'écart interquartile de la série 3, 4, 5, 6, 11, 14, 21, 27 est la valeur 14 − 4 = 10.

L'écart interquartile de la série : 10, 12, 13, 14, 19, 31, 41 est la valeur 31 − 12 = 19.

D

Diagrammes en boîte

Diagramme en boîte

Un diagramme en boîte est un diagramme donnant la position du minimum, du maximum, des quartiles et de la médiane choisie d'une série.

On représente, au-dessus d'un axe donnant les valeurs, un rectangle dont un des côtés donne la position de Q_1 et le côté opposé la position de Q_3. On ajoute une marque, dans ce rectangle, pour indiquer la position de la médiane choisie. On ajoute enfin des « moustaches » aux extrémités.

Dans l'exemple précédent des notes, on obtient le diagramme en boîte suivant :

-

Que la série soit discrète ou continue, il s'agit du même type de diagramme.

Un tel diagramme peut permettre de comparer deux séries si l'on représente les diagrammes en boîte des deux séries au-dessus du même axe.