cour_007.tex

\paragraphe{Exemple de test~: comparaison de la moyenne de deux
populations}
 
\sparagraphe{Présentation du problème}
 
Un second fournisseur $B$ livre $800$~pièces du même modèle. On
prélève au hasard et avec remise un échantillon de $50$~pièces dont on
mesure la masse.
On obtient les résultats suivants~:
$$\vbox{\offinterlineskip \eightpoint \rm \halign{
   % preamble
      #\tv && \cc{$\displaystyle #$}& #\tv
   \cr
   \noalign{\hrule}
      & \matrix{\hbox{Masses des pièces}\cr \hbox{(en grammes)}\cr}&&
      \hbox{Nombre de pièces}&
   \cr
   \noalign{\hrule}
      & [745, 755\, [ && 6&
   \cr
   \noalign{\hrule}
      & [755, 765\, [ && 12&
   \cr
   \noalign{\hrule}
      & [765, 775\, [ && 16&
   \cr
   \noalign{\hrule}
      & [775, 785\, [ && 11&
   \cr
   \noalign{\hrule}
      & [785, 795\, [ && 4&
   \cr
   \noalign{\hrule}
      & [795, 805\, [ && 1&
   \cr
   \noalign{\hrule}
}}$$
La masse moyenne des pièces de l'échantillon est de $779, 6$ alors que
   l'échantillon de 36 pièces provenant du premier fournisseur a pour
   moyenne $774, 7$~g.
 
La différence de $4, 9$ entre ces moyennes provient-elle d'une
différence entre les productions des deux fournisseurs ou du choix des
échantillons~? 
 
Autrement dit, comment construire et utiliser un test permettant de
décider, à partir des échantillons ci-dessus, s'il y a une différence
significative, au seuil de $5\%$, entre les moyennes des masses des
pièces livrées par les deux fournisseurs~?
 
\sparagraphe{Un peu de théorie}
 
Nous sommes en présence de deux échantillons extraits de deux
populations correspondant aux deux fournisseurs $A$ et $B$. On peut
schématiser la situation de la façon suivante~:
 
$$\displaylines{
\boxit{10pt}{$\displaystyle
   \matrix{m_A~: \rm inconnue\cr \sigma_A = 12, 5}
     \qquad \qquad
   \dresultat{\matrix{n_A = 36\cr \bar x_A = 774, 7\cr \sigma'_A = 12,
     36\cr \cr {\rm \acute Echantillon} }}
$}
   \qquad \qquad
\boxit{10pt}{$\displaystyle
   \matrix{m_B~: \rm inconnue\cr \sigma_B = 12, 1}
     \qquad \qquad
   \dresultat{\matrix{n_B = 50\cr \bar x_B = 779, 6\cr \sigma'_B = 11,
     99\cr \cr {\rm \acute Echantillon} }}
$}
\cr
   {\sl Population\ } A
	 \hskip 20em
   {\sl Population\ } B
\cr
}$$
 
Soit $\overline X_A$ (resp $\overline X_B$) la variable aléatoire qui,
à tout échantillon de taille $n_A = 36$ (resp $n_B = 50$) prélevbé
aléatoirement et avec remise dans la population $A$ (resp $B$),
associe la moyenne des masses de pièces de l'échantillon.
 
On se place dans le cas où $\overline X_A$ suit approximativement la
loi normale ${\cal N} (m_A, \sigma_A/\sqrt{n_A})$ et $\overline X_A$
suit approximativement la loi normale ${\cal N} (m_B,
\sigma_B/\sqrt{n_B})$. 
 
Par définition, la variable aléatoire $D = \overline X_B - \overline
X_B$ associe à tout échantillon de taille 36 ainsi prélevé dans la
population $A$ et à tout échantillon ainsi prélevé dans lma population
$B$ la différence des moyennes de l'échantillon $B$ et de
l'échantillon $A$. 
 
On suppose que les variables $\overline X_A$ et $\overline X_B$ sont
{\bf indépendantes}. 
 
Alors $D= \overline X_B - \overline X_A$ suit une loi normale et
$$\displaylines{
   E (D) = E \big( \overline X_B - \overline X_A \big)
      = E \big( \overline X_B\big) - E \big( \overline X_A\big)
      = m_B - m_A
\cr
   V (D) = V \big( \overline X_B - \overline X_A \big)
      = V \big( \overline X_B\big) + V \big( \overline X_A\big)
      = {\sigma_B^2 \over n_B} + {\sigma^2_A \over n_A}
\cr
}$$
L'écart-type de $D$ est donc $\displaystyle{
   \sqrt{{\sigma_B^2 \over n_B} + {\sigma^2_A \over n_A}}
   \approx 2, 7
}$, et $D$ suit une loi normale ${\cal N} (m_B - m_A\, ; 2, 7)$.
 
\sparagraphe{Construction du test}
 
\item{$\bullet$} {\sl Choix de $H_0$~:} $m_A = m_B$.
 
\item{} {\sl Choix de $H_1$~:} $m_A \neq m_B$.
 
\item{} Nous allons tester la validité de l'hypothèse~: \og{\sl la
moyenne des masses des pièces sur l'ensemble de chaque livraison est
la même pour les fournisseurs $A$ et $B$} \fg.
 
\item{$\bullet$} {\sl détermination de la région critique au seuil de
$5\%$}
 
\item{} Sous l'hypothèse $H_0$, $D$ suit la loi normale ${\cal N} (0\,
; 2, 7)$, donc $D/2, 7$ suit la loi normale centrée réduite ${\cal N}
(0, 1)$. En particulier, on a $p (-t \leq D/2, 7 \leq t) = 0, 95$
lorsque $t = 1, 96$, et donc $p (-5, 29 \leq D \leq 5, 29) = 0, 95$.
 
\def \epspath{%
   $HOME/tex_doc/lycee/database//btsmai/stats/infer/}
\epsfxsize 100mm
$$
   \epsillustrate{cour_007a.ps}
$$
 
\item{$\bullet$} {\sl \'Enoncé de la règle de décision}
 
\item{} On prélève avec remise un échantillon aléatoire de taille $n_A
= 30$ de la population $A$ et on calcule sa moyenne $\bar x_A$; on fait de
même pour la population $B$ avec $n_B = 50$.
On pose $d = \bar x_B - \bar x_A$.
 
\itemitem{} si $d \in [-5, 29\, ; 5, 29]$ on accepte $H_0$.
 
\itemitem{} si $d \not \in [-5, 29\, ; 5, 29]$ on rejette $H_0$ et on
accepte $H_1$.
 
\sparagraphe{Utilisation du test}
 
\item{$\bullet$} {\sl Calcul de $d$}
 
\item{} On a $d = \bar x_B - \bar x_A = 779, 6 - 774, 7 = 4, 9$
 
\item{$\bullet$} {\sl Application de la règle de décision}
 
\item{} Comme $4, 9 \in [-5, 29\, ; 5, 29]$, on accepte $H_0$~: au
seuil de $5\%$, il n'existe pas de différence significative entre les
moyennes des masses des pièces livrées par les deux fournisseurs.