Échantillonnage Cours

Sommaire

IÉchantillonsIILoi des grands nombresIIIIntervalles de fluctuationAPrincipeBPrise de décision sur un échantillonIVEstimer une proportion à partir d'une fréquence observéeAIntervalle de confianceBApplication
I

Échantillons

Échantillon

Soit n un entier naturel.

Un échantillon de taille n est obtenu en répétant n fois de façon indépendante la même expérience, et dans les mêmes conditions, sur une population donnée.

On lance 10 fois une pièce de monnaie et on regarde si on obtient pile ou face.

On obtient un échantillon de taille 10.

Dans une usine, on prélève une ampoule à la sortie de la chaîne de production, on regarde si elle est défectueuse ou non, et on recommence 100 fois. On obtient un échantillon de taille 100.

Dans le cas d'un tirage d'objets, pour que les expériences soient indépendantes, il faut que l'on remette à chaque fois l'objet prélevé. 

Or, souvent, le prélèvement se fait sans remise. Cependant, lorsque l'effectif total est très grand par rapport au nombre d'objets prélevés, on considère que l'échantillon est constitué, au sens de la définition donnée, avec remise, c'est-à-dire que les prélèvements sont indépendants les uns des autres. 

II

Loi des grands nombres

On considère la proportion des individus ayant un caractère donné au sein d'une population.

Parmi les échantillons de taille n extraits de cette population, la fréquence d'apparition f du caractère varie selon l'échantillon prélevé.

Ce phénomène s'appelle fluctuation d'échantillonnage.

Lors d'une élection, un candidat a reçu 58 % des suffrages. Si on prélève différents échantillons d'électeurs, la fréquence de personnes ayant voté pour ce candidat dans l'échantillon varie d'un échantillon à l'autre, tout en restant assez proche de 0,58. 

Loi des grands nombres

Soit p la proportion des individus ayant un caractère donné au sein d'une population.

Lorsque la taille n d'un échantillon est assez grande, sauf exception, la fréquence f du caractère observée dans l'échantillon est proche de la probabilité théorique p.

L'idée est que plus on répète une expérience un grand nombre de fois, moins l'écart avec la probabilité théorique a de chances d'être important.

On lance un dé équilibré et on regarde si on obtient 6.

La probabilité théorique est de \dfrac{1}{6}.

Si on lance le dé 10 fois de suite, il n'est pas si rare que la fréquence d'apparition du 6 soit éloignée de dfrac{1}{6}. On pourrait, par exemple, avoir beaucoup de chance et obtenir 6 dans plus de 50 % des cas.

Par contre, si on lance le dé 100 fois, il devient beaucoup moins probable de s'éloigner autant de la probabilité théorique.

-

Dans les méthodes, on verra comment simuler une répétition d'expériences aléatoires dans un tableur, afin d'obtenir ces fréquences observées.

III

Intervalles de fluctuation

A

Principe

L'intervalle de fluctuation sert à estimer, lorsqu'on connaît la probabilité théorique, dans quel intervalle il est le plus probable que la fréquence observée se trouve.

Cet intervalle est centrée autour de la probabilité théorique.

Avec l'expérience précédente du lancer de dé, on réalise 100 échantillons de 100 lancers de dé et on note la fréquence d'obtention du chiffre « 6 ».

-

On observe que la plupart des fréquences obtenues sont dans un intervalle de fluctuation (ici délimité en vert).

Intervalle de fluctuation au seuil de 95 %

Soit p la proportion d'un caractère dans une population, n la taille de l'échantillon et f la fréquence du caractère observé.

On pose comme condition 0,2\leqslant p\leqslant0,80 et n\geqslant 25.

Alors, la fréquence f est dans l'intervalle \left[ p-\dfrac{1}{\sqrt{n}};p+ \dfrac{1}{\sqrt{n}}\right] avec une probabilité d'au moins 0,95.

Autrement dit, la fréquence observée se trouve dans cet intervalle dans au moins 95 % des cas, et il y a un risque de 5 % que cette fréquence ne se trouve pas dans cet intervalle. 

Cet intervalle s'appelle l'intervalle de fluctuation au seuil de 95 %.

Un échantillon n'est pas représentatif de la population, pour le caractère étudié, si sa fréquence n'appartient pas à l'intervalle de fluctuation.

Le seuil de l'intervalle est aussi appelé niveau de confiance.

Lors d'une élection, un candidat a reçu 58 % des suffrages (p=0,58). On prélève un échantillon de n=100 électeurs et on leur demande pour qui ils ont voté.

On a 0,2\leqslant p \leqslant 0,8 et n\geqslant25, donc les conditions du théorème sont satisfaites.

L'intervalle de fluctuation à 95 % est l'intervalle :

\left[ 0,58-\dfrac{1}{\sqrt{100}};0,58+ \dfrac{1}{\sqrt{100}}\right]=\left[ 0,48;0,68 \right]

Donc la fréquence observée dans l'échantillon de personnes votant pour ce candidat a 95 % de chances d'être dans l'intervalle \left[ 0,48;0,68 \right].

On a une probabilité de 5 % que l'échantillon ne soit pas représentatif et soit en dehors de l'intervalle.

Cet intervalle ne dépend pas de l'effectif total de la population mais uniquement de l'effectif de l'échantillon.

On peut choisir d'autres seuils à la place de 95 %, qui donneront d'autres intervalles. 

Plus on augmente la probabilité d'être dans l'intervalle, plus l'amplitude de l'intervalle diminue, et moins l'échantillon a de chances d'appartenir à l'intervalle. À l'inverse, on peut obtenir un intervalle plus grand en diminuant la probabilité d'être dans l'intervalle, mais cela devient moins utilisable.

 Le niveau de confiance le plus fréquemment utilisé après 95 % est 99 %.

B

Prise de décision sur un échantillon

On peut utiliser l'intervalle de fluctuation pour valider ou rejeter une hypothèse de probabilité théorique.

Prise de décision

On considère une population dans laquelle on suppose que la proportion d'un caractère est p. Pour vérifier si cette proportion p est plausible, on a prélevé un échantillon de taille n, dans lequel on observe une fréquence f de ce caractère.

Soit l'hypothèse : « La proportion de ce caractère dans la population est p ».

Si I est l'intervalle de fluctuation de la fréquence à 95 % pour les échantillons de taille n, alors :

  • si f\notin I on rejette cette hypothèse au seuil de risque 5 % ; 
  • sinon, on ne rejette pas cette hypothèse au seuil de risque 5 %.

Un laboratoire annonce qu'un médicament sauve 40 % des patients atteints d'une maladie rare. Pour contrôler cette affirmation, on le teste sur 100 patients atteints de cette maladie.

La fréquence observée des malades sauvés est de 25 % (f=0,25).
Que penser de l'affirmation du laboratoire ?

On a p=0,40 et n=100, donc on a bien 0,2\leqslant p \leqslant0,8 et n\geqslant25.

L'intervalle de fluctuation à 95 % de la fréquence des patients sauvés pour les échantillons de taille 100 est :

\left[ 0,40-\dfrac{1}{\sqrt{100}};0,40+ \dfrac{1}{\sqrt{100}}\right]

soit \left[ 0,30 ; 0,50 \right].

La fréquence observée, qui est 0,25, n'appartient pas à l'intervalle de fluctuation à 95 %, donc, au seuil de risque 5 %, on rejette l'hypothèse selon laquelle ce médicament sauve 40 % des malades.

IV

Estimer une proportion à partir d'une fréquence observée

A

Intervalle de confiance

Soit p la proportion d'un caractère dans une population, n la taille de l'échantillon et f la fréquence du caractère observé.

On vient de voir que la fréquence f d'un échantillon donné se situait dans l'intervalle \left[ p-\dfrac{1}{\sqrt{n}};p+ \dfrac{1}{\sqrt{n}}\right] avec une probabilité de 0,95.

Autrement dit, parmi tous les échantillons de taille n possibles, 95 % ont leur fréquence observée dans cet intervalle.

Or, dire que f \in \left[ p-\dfrac{1}{\sqrt{n}};p+ \dfrac{1}{\sqrt{n}}\right] équivaut à dire que p \in \left[ f-\dfrac{1}{\sqrt{n}};f+ \dfrac{1}{\sqrt{n}}\right].

Intervalle de confiance

Avec les notations ci-dessus, on appelle intervalle de confiance de p au niveau de confiance 0,95 l'intervalle :

\left[ f-\dfrac{1}{\sqrt{n}};f+ \dfrac{1}{\sqrt{n}}\right]

Parmi tous les échantillons de taille n possibles, 95 % de ces échantillons ont leur intervalle de confiance qui contient p.

On a tracé ci-dessous les intervalles de confiance correspondant à 100 échantillons, et en rouge la proportion réelle dans la population.

-

On observe que la plupart des intervalles contiennent cette proportion.

Si on traçait les intervalles de tous les échantillons possibles, 95 % d'entre eux contiendraient la proportion réelle.

B

Application

En vue d'une élection, on veut faire un sondage pour estimer quelle proportion des électeurs votera pour un candidat A.

Pour cela, on interroge 100 personnes.

39 % des personnes interrogées déclarent qu'il vont voter pour le candidat A.

On note p la proportion de la population qui prévoit de voter pour le candidat A. L'intervalle de confiance de p au niveau de confiance 0,95 est :

\left[ 0,39-\dfrac{1}{\sqrt{100}};0,39+ \dfrac{1}{\sqrt{100}}\right]=\left[ 0,29; 0,49\right]

On peut donc supposer à 95 % que la proportion d'électeurs qui votera pour le candidat A se trouve dans l'intervalle [0,29;0,49].

Comme il faut un minimum de 50 % d'électeurs (soit une proportion de 0,5) pour être élu, on en déduit, avec un niveau de confiance de 95 %, que le candidat A ne sera pas élu.

Le principe est similaire à l'intervalle de fluctuation, mais au lieu de partir de la probabilité pour estimer la fréquence, on part de la fréquence pour estimer la probabilité.

Comme l'intervalle de fluctuation, cet intervalle ne dépend pas de l'effectif total de la population mais uniquement de l'effectif de l'échantillon.