cour_004.tex

\paragraphe {Estimation d'une moyenne par intervalle de confiance}
 
On considère une population $P$ d'effectif $N$. On suppose que, pour
le caractère observé, la moyenne, inconnue, de $P$ est $m$ alors que son
écart-type, connu, est $\sigma$. Situation résumée dans le diagramme
ci-dessous~:
$$\displaylines{
\boxit{10pt}{$\displaystyle
   \matrix{m~: \rm inconnu\cr \sigma~: \rm connu}
     \qquad \qquad
   {\rm \acute Echantillon} \quad \dresultat{n, \overline x}
$}
\cr
   {\sl Population}
\cr
}$$
 
On prélève au hasard, et avec remise, une succession d'échantillons de
même effectif $n$ dont on calcule les moyennes respectives~: $\overline
x_1$ pour le premier, $\overline x_2$ pour le deuxième, et ainsi de
suite.
 
Notons maintenant $\overline X$ la variable aléatoire qui associe à un
échantillon $E_i$ sa moyenne $x_i$. La variable $\overline X$ prend
donc successivement les valeurs $\overline x_1$, $\overline x_2$,\dots
 
Pour finir, on suppose également que les conditions sont réunies pour
pouvoir utiliser une conséquence du théorème de la limite centrée et
faire l'approximation que $X$ suit la loi normale ${\cal N} (m,
\sigma/\sqrt n)$. Autrement dit que la variable aléatoire 
$\displaystyle{
   T = {\sqrt n \over \sigma} \big( \overline X - m\big)
}$ suit la loi normale ${\cal N} (0, 1)$.
On aura alors, pour tout $t\geq 0$,
$$\dresultat{
   P (-t \leq T \leq t) = 2 \Pi (t) - 1
}$$
 
\sparagraphe{Calcul sur un exemple~: intervalle de confiance à $95\%$}
 
Par exemple, si on veut obtenir un intervalle ayant $95\%$ de chances
de contenir la moyenne $m$ de la population $P$, on procède de la
manière suivante~:
 
$\bullet$ On a $2 \Pi (t) - 1 = 0, 95 \quad \Longleftrightarrow \quad
\Pi (t) = 0, 975$. Avec la table donnée dans le formulaire, on voit
que cette valeur est obtenue pour $t = 1, 96$. On a donc
$$\displaylines{
   P \left( 
      -1, 96 \leq {\sqrt n \over \sigma} (\overline X - m) \leq 1, 96
   \right) = 0, 95
\cr
   \Longleftrightarrow \qquad
   P \left( 
      -1, 96 {\sigma \over \sqrt n} \leq (\overline X - m) \leq 1,
      96{\sigma \over \sqrt n} 
   \right) = 0, 95
\cr
   \Longleftrightarrow \qquad
   P \left( 
      m-1, 96 {\sigma \over \sqrt n} \leq \overline X \leq m + 1,
      96{\sigma \over \sqrt n}  
   \right) = 0, 95
\cr
}$$
Autrement dit, {\bf avant de prélever un échantillon} de taille $n$
dans la population, il y a $95\%$ de chances pour que cet échantillon
ait une moyenne entre
$$
   m - 1, 96 {\sigma \over \sqrt n}
      \qquad {\rm et} \qquad
   m + 1, 96 {\sigma \over \sqrt n}
$$
 
$\bullet$ Comme $m$ est inconnu, on se sert des résultats précédents
pour encadrer $m$~:
$$\displaylines{
   P \left( 
      -  \overline X - 1, 96 {\sigma \over \sqrt n} 
        \leq 
      - m
         \leq 
      - \overline X + 1, 96 {\sigma \over \sqrt n}  
   \right) = 0, 95
\cr
   \Longleftrightarrow \qquad
   P \left( 
      \overline X + 1, 96 {\sigma \over \sqrt n} 
        \geq 
      m
         \geq 
      \overline X - 1, 96 {\sigma \over \sqrt n}  
   \right) = 0, 95
\cr
   \Longleftrightarrow \qquad
   P \left( 
      \overline X - 1, 96 {\sigma \over \sqrt n}  
        \leq 
      m
         \leq 
      \overline X + 1, 96 {\sigma \over \sqrt n} 
   \right) = 0, 95
\cr
}$$
Ainsi, {\bf avant de prélever un échantillon} de taille $n$
dans la population, il y a $95\%$ de chances pour la moyenne
$\overline x$ de cet échantillon vérifie
$$\dresultat{
   \overline x - 1, 96 {\sigma \over \sqrt n}
     \leq
   m
      \leq
   \overline x + 1, 96 {\sigma \over \sqrt n}
}$$
En revanche, {\bf après} le prélèvement, il n'y a plus de probabilité
   à envisgager~: il est vrai ou faux que la moyenne $m$ se situe dans
   l'intervalle envisagé 
$\displaystyle{
   \left[
   \overline x - 1, 96 {\sigma \over \sqrt n},
   \overline x + 1, 96 {\sigma \over \sqrt n}
   \right]
}$.
Cet intervalle est appelé {\sl intervalle de confiance de la moyenne
   de la population avec le coefficient de confiance $95\%$} (ou {\sl
   avec le risque $5\%$}).
 
\sparagraphe{Cas général}
 
On fonctionne exactement sur le même principe~: un coefficient de
confiance choisi à l'avance permet de définir un nombre positif $t$
tel que $P (-t \leq T \leq t) = 2 \Pi (t) - 1$ soit égal à ce
coefficient de confiance.
 
Par exemple, $2\Pi (t) - 1= 0, 99$ si et seulement si $\Pi (t) = 0,
995$, ce qui correspond à $t = 2, 58$ (d'après la table de la loi
normale ${\cal N} (0, 1)$).
 
En reprenant tous les calculs ci-dessus, on obtient alors le résultat
suivant~:
$$
\boxit {5pt} {%
\vbox {\hsize .7\hsize
L'intervalle 
$$\displaystyle{
   \left[
   \overline x - t {\sigma \over \sqrt n},
   \overline x + t {\sigma \over \sqrt n}
   \right]
}$$ est l'intervalle de confiance de la moyenne $m$ de la population
avec le coefficient de confiance $2 \Pi (t) - 1$, ayant pour centre la
moyenne $\overline x$ de l'échantillon considéré.
}}
$$
 
Dans la pratique, on utilise souvent des coefficients de confiance de
$95\%$, ce qui correspond à $t = 1, 96$, ou à $99\%$, ce qui
correspond à $t = 2, 58$.