Première ES 2015-2016

En vous inscrivant, vous autorisez Kartable à vous envoyer ses communications par email.

ou
Se connecter
Mot de passe oublié ?
ou

Les statistiques

I

Les séries statistiques

A

Vocabulaire

Population

Une population est un ensemble d'individus.

Les enfants nés à Paris en 2000 représentent une population.

Les voitures produites dans une usine au cours du mois de février 2010 représentent également une population.

Echantillon

Lorsque l'effectif d'une population est trop important, on étudie ses caractères à partir d'un échantillon représentatif qui est une partie de la population.

Si on veut par exemple étudier l'ensemble de la population française, il est préférable d'étudier un échantillon de cette population car l'effectif est trop grand.

Caractère

Un caractère est une caractéristique qui définit les individus d'une population, et dont les valeurs sont différentes d'un individu à un autre de la population.

La couleur, la taille, le poids, l'âge, la date de production sont des exemples de caractères.

Caractère quantitatif ou qualitatif

Un caractère peut être quantitatif, si ses valeurs sont numériques, ou qualitatif, si ses valeurs ne sont pas numériques.

La taille est un caractère quantitatif alors que la couleur des yeux est un caractère qualitatif.

B

Les séries quantitatives discrètes

Série quantitative discrète

On appelle série quantitative discrète une liste de n réels (n étant un entier naturel non nul) : ce sont les valeurs d'un caractère pour chacun des individus composant l'échantillon d'effectif total n. Pour étudier une telle série, on compte le nombre d'apparition \(\displaystyle{n_{i}}\) (effectif) de chaque réel de la liste, de manière à identifier p réels \(\displaystyle{x_{i}}\) distincts (p est un entier naturel non nul et i un entier compris entre 1 et p). On présente alors la série sous la forme de p couples :

\(\displaystyle{\left(x_{i} ; n_{i}\right)}\)

La série des pointures des 12 garçons d'une classe de seconde est donnée par la liste suivante :

\(\displaystyle{\left\{ \left(39 ; 2\right) ; \left(40 ; 3\right) ; \left(41 ; 5\right) ; \left(42 ; 1\right) ; \left(44 ; 1\right) \right\}}\)

On présente en général une série quantitative discrète à l'aide d'un tableau.

\(\displaystyle{x_{i}}\) \(\displaystyle{x_{1}}\) \(\displaystyle{x_{2}}\) ... \(\displaystyle{x_{p}}\)
\(\displaystyle{n_{i}}\) \(\displaystyle{n_{1}}\) \(\displaystyle{n_{2}}\) ... \(\displaystyle{n_{p}}\)

La série des pointures des 12 garçons d'une classe de seconde est donnée par la liste suivante : \(\displaystyle{\left\{ \left(39 ; 2\right) ; \left(40 ; 3\right) ; \left(41 ; 5\right) ; \left(42 ; 1\right) ; \left(44 ; 1\right) \right\}}\).

Elle peut être résumée dans un tableau :

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1

Effectif total

L'effectif total est la somme des effectifs de chaque valeur.

\(\displaystyle{n =n_{1} + n_{2} +... + n_{p}}\)

Dans la série statistique suivante :

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12

L'effectif total est :

\(\displaystyle{n=2 +3+5+1+1=12}\)

Fréquence des \(\displaystyle{x_i}\)

La fréquence des valeurs \(\displaystyle{x_i}\) est le rapport de l'effectif de cette valeur par l'effectif total.

\(\displaystyle{f_{i} = \dfrac{n_{i}}{n}}\)

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12
Fréquence \(\displaystyle{f_i}\) \(\displaystyle{\dfrac{2}{12}}\) \(\displaystyle{\dfrac{3}{12}}\) \(\displaystyle{\dfrac{5}{12}}\) \(\displaystyle{\dfrac{1}{12}}\) \(\displaystyle{\dfrac{1}{12}}\) 1

La somme des fréquences d'une série est égale à 1.

\(\displaystyle{f_{1}+f_{2}+...+f_{p}= 1}\)

Dans la série statistique suivante, on a calculé les fréquences :

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12
Fréquence \(\displaystyle{f_i}\) \(\displaystyle{\dfrac{2}{12}}\) \(\displaystyle{\dfrac{3}{12}}\) \(\displaystyle{\dfrac{5}{12}}\) \(\displaystyle{\dfrac{1}{12}}\) \(\displaystyle{\dfrac{1}{12}}\) 1

On remarque que l'on a bien :

\(\displaystyle{\dfrac{2}{12}+\dfrac{3}{12}+\dfrac{5}{12}+\dfrac{1}{12}+\dfrac{1}{12}=1}\)

C

Les séries quantitatives regroupées en classes

Série quantitative regroupée en classes

Une série quantitative regroupée en classes (de même amplitude ou non), ou série continue, est une série quantitative dont les valeurs \(\displaystyle{x_{i}}\) sont regroupées par intervalles de réels.

Taille (en cm) [10 ; 20[ [20 ; 25[ [25 ; 40[ [40 ; 50]
Effectif 11 8 16 3
D

Les séries qualitatives

Série qualitative

Une série qualitative est une suite de valeurs d'un caractère non quantitatif.

Couleur Rouge Bleu Vert Jaune
Effectif 12 28 7 13
II

Les paramètres de position d'une série quantitative

A

Le mode

Mode

On appelle mode(s) d'une série la ou les valeurs du caractère dont l'effectif est le plus grand.

On considère la série statistique suivante :

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12

Le mode de cette série est 41.

Une série peut avoir plusieurs modes.
B

La moyenne

Moyenne

On appelle moyenne d'une série, généralement notée \(\displaystyle{\overline{x}}\), le réel :

\(\displaystyle{\overline{x} =\dfrac{n_{1} x_{1} + n_{2} x_{2} +... + n_{p} x_{p}}{n}}\)

Le tableau d'effectifs suivant présente les notes obtenues par un groupe d'élèves :

Note 5 8 9 10 10,5 11 13 14 14,5 16
Nombre d'élèves 1 3 5 6 2 5 6 1 2 1

On peut ainsi calculer facilement la moyenne pondérée :

\(\displaystyle{m = \dfrac{5 \times 1 + 8 \times 3 + 9 \times 5 + 10 \times 6 + 10,5 \times 2 + 11 \times 5 + 13 \times 6 + 14 \times 1 + 14,5 \times 2 + 16 \times 1}{32}}\)

On arrondit au dixième :

\(\displaystyle{m \approx 10,8}\)

Pour une série regroupée en classes, on détermine une valeur approchée de la moyenne en remplaçant chaque classe par son centre.

La série suivante est regroupée en classes. On ajoute une ligne qui donne le centre de chaque classe avant de pouvoir calculer la moyenne :

Taille x (en cm) \(\displaystyle{10 \leq x \lt 20}\) \(\displaystyle{20 \leq x \lt 25}\) \(\displaystyle{25 \leq x \lt 40}\) \(\displaystyle{40 \leq x \leq 50}\)
Centre de la classe (cm) 15 22,5 32,5 45
Effectif 11 8 16 3

La moyenne des tailles est donc :

\(\displaystyle{m\approx\dfrac{15\times11+22,5\times8+32,5\times16+45\times3}{11+8+16+3}\approx26,3}\) cm (arrondie au dixième).

La moyenne peut également être calculée à partir des fréquences :

\(\displaystyle{\overline{x} =\sum _{i=1}^{p}\left(f_{i} x_{i}\right)=f_{1} x_{1}+f_{2} x_{2}+...+f_{p} x_{p}}\)

On considère la série statistique suivante pour laquelle on connaît les fréquences :

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12
Fréquence \(\displaystyle{f_i}\) \(\displaystyle{\dfrac{2}{12}}\) \(\displaystyle{\dfrac{3}{12}}\) \(\displaystyle{\dfrac{5}{12}}\) \(\displaystyle{\dfrac{1}{12}}\) \(\displaystyle{\dfrac{1}{12}}\) 1

La moyenne vaut :

\(\displaystyle{\overline{x}=39\times\dfrac{2}{12}+40\times\dfrac{3}{12}+41\times \dfrac{5}{12}+42\times \dfrac{1}{12}+44\times\dfrac{1}{12}=\dfrac{163}{4}=40,75}\)

C

Les médianes

Médiane

On appelle médiane d'une série rangée par ordre croissant toute valeur qui partage la série en deux séries de même effectif.

On considère une série dont les valeurs des \(\displaystyle{n}\) individus sont rangées par ordre croissant.

  • Si n est impair, on prend en général pour médiane la \(\displaystyle{\dfrac{n+1}{2}^{ème}}\) valeur de la série ordonnée.
  • Si n est pair, on prend en général pour médiane le centre de l'intervalle \(\displaystyle{ \left[ \dfrac{n}{2}^{\text{ème}} \text{ valeur ; }\dfrac{n}{2}+ 1 ^{\text{ème}} \text{ valeur} \right] }\).

Une médiane de la série : 3, 5, 6, 11, 14, 21, 27 est la valeur 11.

Une médiane de la série : 12, 13, 14, 19, 31, 41 est la valeur arbitraire 16,5.

Ne pas confondre le rang d'une médiane et sa valeur.

Une médiane n'est pas toujours une valeur observée dans la série statistique.

Lorsque la série est une série continue, on prend comme médiane la valeur pour laquelle on obtient une fréquence cumulée de 50%.

Lors d'un devoir commun, les notes de tout l'établissement ont été regroupées en classes :

Notes \(\displaystyle{\left[ 0;4 \right[}\) \(\displaystyle{\left[ 4;8 \right[}\) \(\displaystyle{\left[ 8;10 \right[}\) \(\displaystyle{\left[ 10;12\right[}\) \(\displaystyle{\left[ 12;16 \right[}\) \(\displaystyle{\left[ 16;20 \right[}\)
Centre de classe 2 6 9 11 14 18
Effectif 21 46 117 123 86 7
Fréquence en % 5,25 11,5 29,25 30,75 21,5 1,75
Fréquence cumulée croissante 5,25 16,75 46 76,75 98,25 100

Le graphique (ou polygone) des fréquences cumulées croissantes (F.C.C.) est alors le suivant :

-

On y lit que 10,26 est une médiane de cette série.

III

Les paramètres de dispersion d'une série quantitative

A

L'étendue

Etendue

On appelle étendue d'une série la différence entre le plus grand des \(\displaystyle{x_{i}}\) et le plus petit des \(\displaystyle{x_{i}}\), c'est-à-dire entre la plus grande et la plus petite valeur observées.

Note 5 8 9 10 10,5 11 13 14 14,5 16
Nombre d'élèves 1 3 5 6 2 5 6 1 2 1

L'étendue de cette série est :

\(\displaystyle{16 − 5 = 11}\)

Dans le cas d'une série statistique continue (dont les valeurs sont regroupées en classes), et sauf mention contraire de l'énoncé, on prend pour valeurs extrêmes la borne inférieure du premier intervalle et la borne supérieure du dernier intervalle.

B

Les quartiles

Premier quartile

Le premier quartile est la plus petite valeur, notée \(\displaystyle{Q_1}\), d'une série, rangée par ordre croissant, telle qu'au moins 25% de l'effectif lui soit inférieur ou égal.

On considère une série dont les valeurs des \(\displaystyle{n}\) individus sont rangées par ordre croissant.

  • Si \(\displaystyle{\dfrac n4}\) est un entier, le premier quartile est la \(\displaystyle{\left(\dfrac n4\right)^{ème}}\) valeur de la série.
  • Si \(\displaystyle{\dfrac n4}\) n'est pas un entier, le premier quartile est la valeur dont le rang dans la série est l'entier directement supérieur à \(\displaystyle{\dfrac n4}\).

Le premier quartile de la série : 3, 5, 6, 11, 14, 19, 21, 27 est la valeur 5.

Le premier quartile de la série : 12, 13, 14, 19, 31, 41 est la valeur 13.

On considère une série dont les valeurs des \(\displaystyle{n}\) individus sont rangées par ordre croissant.

  • Si \(\displaystyle{\dfrac n2}\) est un entier, le deuxième quartile est la \(\displaystyle{\left(\dfrac n2\right)^{ème}}\) valeur de la série.
  • Si \(\displaystyle{\dfrac n2}\) n'est pas un entier, le deuxième quartile est la valeur dont le rang dans la série est l'entier directement supérieur à \(\displaystyle{\dfrac n2}\).

Le deuxième quartile de la série : 3, 5, 6, \(\displaystyle{\color{Red}{11}}\), 14, 19, 21, 27 est la valeur 11.

Le deuxième quartile de la série : 10, 12, 13, \(\displaystyle{\color{Red}{14}}\), 19, 31, 41 est la valeur 14.

Troisième quartile

Le troisième quartile est la plus petite valeur, notée \(\displaystyle{Q_3}\), d'une série, rangée par ordre croissant, telle qu'au moins 75% de l'effectif lui soit inférieur ou égal.

On considère une série dont les valeurs des \(\displaystyle{n}\) individus sont rangées par ordre croissant.

  • Si \(\displaystyle{\dfrac {3n}{4}}\) est un entier, le troisième quartile est la \(\displaystyle{\left(\dfrac {3n}{4}\right)^{ème}}\) valeur de la série.
  • Si \(\displaystyle{\dfrac {3n}{4}}\) n'est pas un entier, le troisième quartile est la valeur dont le rang dans la série est l'entier directement supérieur à \(\displaystyle{\dfrac {3n}{4}}\).

Le troisième quartile de la série : 3, 5, 6, 11, 14, 19, 21, 27 est la valeur 19.

Le troisième quartile de la série : 12, 13, 14, 19, 31, 41 est la valeur 31.

Ecart interquartile

L'écart interquartile est le réel \(\displaystyle{Q_{3} - Q_{1}}\).

L'écart interquartile de la série : 3, 5, 6, 11, 14, 19, 21, 27 est la valeur \(\displaystyle{19 − 5 = 14}\).

L'écart interquartile de la série : 12, 13, 14, 19, 31, 41 est la valeur \(\displaystyle{31 − 13 = 18}\).

Alors que la médiane n'est pas toujours une valeur observée, les quartiles sont des valeurs observées.

De manière analogue, on peut définir le premier décile \(\displaystyle{D_{1}}\), l'avant-dernier décile \(\displaystyle{D_{9}}\), et l'écart interdécile.
-

Lorsque la série est une série à caractère continu :

  • On choisit comme premier quartile la valeur pour laquelle on obtient une fréquence cumulée de 25%.
  • On choisit comme troisième quartile la valeur pour laquelle on obtient une fréquence cumulée de 75%.

On reprend l'exemple précédent et le polygone des fréquences cumulées croissantes :

-

On obtient graphiquement :

  • \(\displaystyle{Q_1\approx8,56}\)
  • \(\displaystyle{Q_3\approx11,89}\)
C

La variance et l'écart-type

Variance

On appelle variance d'une série, notée \(\displaystyle{V}\), le réel :

\(\displaystyle{V =\dfrac{n_{1}\left(x_{1} - \overline{x}\right)^{2} +... + n_{p}\left(x_{p} - \overline{x}\right)^{2}}{n}}\)

Considérons la série suivante d'effectif total \(\displaystyle{n=12}\) et de moyenne \(\displaystyle{\overline{x}=40,75}\).

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12

On a alors :

\(\displaystyle{V=\dfrac{2\times\left(39-40,75\right)^2+3\times\left(40-40,75\right)^2+5\times\left(41-40,75\right)^2+1\times\left(42-40,75\right)^2+1\times\left(44-40,75\right)^2}{12}=1,6875}\)

La variance peut également être calculée par la formule suivante :

\(\displaystyle{V=\dfrac1n\times\left[ \sum_{i=1}^{p}\left( n_ix_i^2 \right) \right]-\overline{x}^2=\dfrac1n\times\left[ n_1x_1^2+n_2x_2^2+...+n_px_p^2 \right]-\overline{x}^2}\)

Considérons la série suivante d'effectif total \(\displaystyle{n=12}\) et de moyenne \(\displaystyle{\overline{x}=40,75}\).

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12

On a alors :

\(\displaystyle{V=\dfrac{1}{12}\times\left( 2\times39^2+3\times40^2+5\times41^2+1\times42^2+1\times44^2 \right)-40,75^2=1,6875}\)

Dans le cas d'une série statistique continue, les valeurs \(\displaystyle{x_i}\) sont remplacées par les centres des classes. Le résultat obtenu n'est alors qu'une valeur approchée de la variance.

Ecart-type

On appelle écart-type d'une série, noté \(\displaystyle{\sigma}\), le réel :

\(\displaystyle{\sigma = \sqrt{V}}\)

V représente la variance de la série.

Considérons la série suivante de variance \(\displaystyle{V=1,6\ 875}\).

Pointure \(\displaystyle{x_i}\) 39 40 41 42 44 TOTAL
Effectif \(\displaystyle{n_i}\) 2 3 5 1 1 12

L'écart-type est donc :

\(\displaystyle{\sigma=\sqrt{1,6875}\approx1,299}\)

La variance n'a pas la même unité que la moyenne contrairement à l'écart-type.

D

Associer le paramètre de dispersion au paramètre de position

Pour étudier une série statistique, on cherche à la fois à étudier sa position et sa dispersion.

On associe la moyenne à l'écart-type. La moyenne est un paramètre de tendance centrale alors que l'écart-type traduit la dispersion des valeurs autour de cette position. C'est un écart moyen par rapport à la moyenne.

On associe la médiane à l'écart interquartile. La médiane est un paramètre de tendance centrale alors que l'écart interquartile traduit la dispersion des valeurs autour de cette position.

IV

Les représentations graphiques

A

Les histogrammes

Histogramme

Pour représenter une série regroupée en classes, on peut construire un histogramme : on associe un rectangle à chacune des classes de la série, dont l'aire est proportionnelle à l'effectif.

Taille (en cm) [5 ; 20[ [20 ; 30[ [30 ; 40[ [40 ; 60]
Effectif 12 8 16 4

L'histogramme suivant représente la série de ce tableau, où un carreau en abscisse est égal à 5 cm et l'aire d'un carreau est égale à un effectif de 1.

-
B

Les diagrammes en boîte

Diagramme en boîte

Un diagramme en boîte est un diagramme donnant la position du minimum, du maximum, des quartiles et de la médiane choisie d'une série.

  • On représente, au-dessus d'un axe donnant les valeurs, un rectangle dont un des côtés donne la position de \(\displaystyle{Q_1}\) et le côté opposé la position de \(\displaystyle{Q_3}\).
  • On ajoute une marque, dans ce rectangle, pour indiquer la position de la médiane choisie.
  • On ajoute des "moustaches" comme on le voit dans l'exemple ci-dessous.

Reprenons l'exemple des notes. On obtient le diagramme en boîte suivant :

-

Que la série soit discrète ou continue, il s'agit du même type de diagramme.

Un tel diagramme peut permettre de comparer deux séries si l'on représente les diagrammes en boîte des deux séries au-dessus du même axe.