cour_006.tex

\paragraphe{Exemple de test~: comparaison de la moyenne d'une
population à un nombre fixé}
 
Une société s'approvisionne en pièces brutes qui, conformément aux
conditions fixées par le fournisseur, doivent avoir une masse moyenne
de 780~grammes.
 
Au moment où 500~pièces sont réceptionnées, on en prélève au hasard un
échantillon de 36~pièces dont on mesure la masse.
 
On obtient les résultats suivants~:
$$\vbox{\offinterlineskip \eightpoint \rm \halign{
   % preamble
      #\tv && \cc{$\displaystyle #$}& #\tv
   \cr
   \noalign{\hrule}
      & \matrix{\hbox{Masses des pièces}\cr \hbox{(en grammes)}\cr}&&
      \hbox{Nombre de pièces}&
   \cr
   \noalign{\hrule}
      & [745, 755\, [ && 2&
   \cr
   \noalign{\hrule}
      & [755, 765\, [ && 6&
   \cr
   \noalign{\hrule}
      & [765, 775\, [ && 10&
   \cr
   \noalign{\hrule}
      & [775, 785\, [ && 11&
   \cr
   \noalign{\hrule}
      & [785, 795\, [ && 5&
   \cr
   \noalign{\hrule}
      & [795, 805\, [ && 2&
   \cr
   \noalign{\hrule}
}}$$
La masse moyenne des pièces de l'échantillon est de $774, 7$~g.
 
En supposant que l'écart-type des masses pour la population des
500~pièces est $\sigma = 12, 5$~g, on obtient $[770, 61\, ; 778, 79]$
comme intervalle de confiance à $95\%$ de la moyenne inconnue $m$ de
cette population.
 
\sparagraphe{Présentation du problème}
 
Peut-on considérer que les 500~pièces de la population ont une masse
moyenne de 780~g, comme le prévoient les conditions fixées par le
fournisseur~? Autrement dit, doit-on ou non accepter la livraison de
ces 500~pièces au vu du résultat obtenu sur l'échantillon~?
 
\sparagraphe {Hypothèse nulle}
 
On suppose que la moyenne de la population est $780$. C'est {\sl
l'hypothèse nulle}, notée $H_0~: m = 780$.
 
Alors, la variable aléatoire $\overline X$ qui, à tout échantillon
aléatoire non exhaustif de taille $n = 36$, associe la moyenne de cet
échantillon suit approximativement la loi normale ${\cal N} (780;
\sigma/ \sqrt{n})$.
 
Cherchons $h$ réel positif tel que
$$
   p \big( 780 - h \leq \overline X \leq 780 + h\big) = 0, 95.
$$
Avec la méthode habituelle, on trouve $h = 4, 08$, ce qui nous permet
de conclure~:
$$
   p \big( 775, 92 \leq \overline X \leq 784, 08\big) = 0, 95.
$$
 
Ainsi, en supposant que $m = 780$, on sait, avant de prélever un
échantillon aléatoire de taille 36, que l'on a $95\%$ de chances que
sa moyenne soit dans l'intervalle $[775, 92 \, ; 784, 08]$.
 
Autrement dit, si $H_0$ est vraie, il n'y a que $5\%$ de chances de
prélever un échantillon aléatoire de taille 36 dont la moyenne soit
inférieure à $775, 92$ ou supérieure à $784, 08$.
 
\sparagraphe{Règle de décision, région critique}
 
On fixe alors la règle de décision suivante~: 
on prélève avec remise un échantillon aléatoire non exhaustif de
taille $n = 36$ et on calcule sa moyenne $\bar x$.
 
\itemitem{} Si $\bar x \in [775, 92 \, ; 784, 08]$, on accepte $H_0$
 
\itemitem{} Si $\bar x \not \in [775, 92 \, ; 784, 08]$, on rejette $H_0$
 
\def \epspath{%
   $HOME/tex_doc/lycee/database//btsmai/stats/infer/}
\epsfxsize 100mm
$$
   \epsillustrate{cour_006a.ps}
$$
 
Si $H_0$ est vraie, on prend donc le risque de se tromper dans $5\%$
des cas en rejetant à tord $H_0$. On définit ainsi une {\sl région
critique au seuil} $\alpha = 5\%$.
 
Le seuil $\alpha$ est la probabilité de rejeter $H_0$ alors que $H_0$
est vraie. Il correspond à l'{\sl erreur de première espèce}. 
 
En général, on fixe {\sl a priori\/} la valeur de $\alpha$ (ici égal
à $0, 05$).
 
Dans l'exemple qui nous occupe, on a $\bar x = 774, 7$ pour
l'échantillon considéré. On a $\bar x < 775, 92$ et on rejette
l'hypothèse $H_0$. Au seuil de $5\%$, on considère que les 500~pièces
de la population n'ont pas une moyenne de 780~g et on refuse la
livraison.
 
\sparagraphe{Erreur de seconde espèce}
 
On aurait pu choisir un seuil de $1\%$ pour diminuer le risque de
rejeter $H_0$ alors que $H_0$ est vraie.
 
On a
$$
   p (774, 62 \leq \overline X \leq 785, 38) = 0, 99.
$$
Au seuil de $1\%$, on accepte $H_0$ puisque $\bar x$ appartient à
l'intervalle considéré, et on accepte alors la livraison des
$500$~pièces.
 
\def \epspath{%
   $HOME/tex_doc/lycee/database//btsmai/stats/infer/}
\epsfxsize 100mm
$$
   \epsillustrate{cour_006b.ps}
$$
 
Mais, en acceptant $H_0$ au seuil de $1\%$, on court un second risque~:
celui d'accepter $H_0$ alors que $H_0$ est fausse~: c'est l'{\sl erreur
de seconde espèce}, dont la probabilité est notée $\beta$.
 
En général, lorque la taille $n$ de l'échantillon est fixée, on a
$\alpha$ qui diminue lorsque $\beta$ augmente, et ré\-ci\-pro\-que\-ment. Le
seule façon de diminuer en même temps $\alpha$ et $\beta$ est
d'augmenter $n$, ce qui n'est pas toujours possible.
 
En fait, la plupart du temps, les erreurs des deux types n'ont pas la
même importance, et on essaie de limiter la plus grave.
 
\sparagraphe{Hypothèse alternative}
 
Il faut définir plus précisément le cas où $H_0$ est fausse. 
 
Dans ce qui précède, on a choisi implicitement $m \neq 780$ comme {\sl
hypothèse alternative\/} $H_1$. Le test est alors {\sl bilatéral}, car
la région critique est située des deux côtés de la région où on
accepte $H_0$.
 
Si on décide, par exemple, de prendre $m < 780$ comme hypothèse
alternative $H_1$, le test est alors {\sl unilatéral\/} et la région
critique est située entièrement d'un côté de la région où on accepte $H_0$.
 
\sparagraphe{Résumé}
 
En général, les questions faisant intervenir un test de validité
d'hypothèse peuvent être résolues en adoptant le plan suivant~:
 
\itemnum {\bf Construction du test}
 
\itemitemalph Choix de l'hypothèse nulle $H_0$ et de l'hypothèse
alternative $H_1$.
 
\itemitemalph Détermination de la région critique à un seuil $\alpha$
donné.
 
\itemitemalph \'Enoncé de la règle de décision~: si un paramètre du ou
des échantillon(s) est dans la région critique, on rejette $H_0$,
sinon on l'accepte.
 
\itemnum {\bf Utilisation du test}
 
\itemitemalph Calcul du paramètre de l'échantillon mentionné dans la
règle de décision,
 
\itemitemalph Application de la règle de décision.