\paragraphe{Exemple de test~: comparaison de la moyenne de deux populations} \sparagraphe{Présentation du problème} Un second fournisseur $B$ livre $800$~pièces du même modèle. On prélève au hasard et avec remise un échantillon de $50$~pièces dont on mesure la masse. On obtient les résultats suivants~: $$\vbox{\offinterlineskip \eightpoint \rm \halign{ % preamble #\tv && \cc{$\displaystyle #$}& #\tv \cr \noalign{\hrule} & \matrix{\hbox{Masses des pièces}\cr \hbox{(en grammes)}\cr}&& \hbox{Nombre de pièces}& \cr \noalign{\hrule} & [745, 755\, [ && 6& \cr \noalign{\hrule} & [755, 765\, [ && 12& \cr \noalign{\hrule} & [765, 775\, [ && 16& \cr \noalign{\hrule} & [775, 785\, [ && 11& \cr \noalign{\hrule} & [785, 795\, [ && 4& \cr \noalign{\hrule} & [795, 805\, [ && 1& \cr \noalign{\hrule} }}$$ La masse moyenne des pièces de l'échantillon est de $779, 6$ alors que l'échantillon de 36 pièces provenant du premier fournisseur a pour moyenne $774, 7$~g. La différence de $4, 9$ entre ces moyennes provient-elle d'une différence entre les productions des deux fournisseurs ou du choix des échantillons~? Autrement dit, comment construire et utiliser un test permettant de décider, à partir des échantillons ci-dessus, s'il y a une différence significative, au seuil de $5\%$, entre les moyennes des masses des pièces livrées par les deux fournisseurs~? \sparagraphe{Un peu de théorie} Nous sommes en présence de deux échantillons extraits de deux populations correspondant aux deux fournisseurs $A$ et $B$. On peut schématiser la situation de la façon suivante~: $$\displaylines{ \boxit{10pt}{$\displaystyle \matrix{m_A~: \rm inconnue\cr \sigma_A = 12, 5} \qquad \qquad \dresultat{\matrix{n_A = 36\cr \bar x_A = 774, 7\cr \sigma'_A = 12, 36\cr \cr {\rm \acute Echantillon} }} $} \qquad \qquad \boxit{10pt}{$\displaystyle \matrix{m_B~: \rm inconnue\cr \sigma_B = 12, 1} \qquad \qquad \dresultat{\matrix{n_B = 50\cr \bar x_B = 779, 6\cr \sigma'_B = 11, 99\cr \cr {\rm \acute Echantillon} }} $} \cr {\sl Population\ } A \hskip 20em {\sl Population\ } B \cr }$$ Soit $\overline X_A$ (resp $\overline X_B$) la variable aléatoire qui, à tout échantillon de taille $n_A = 36$ (resp $n_B = 50$) prélevbé aléatoirement et avec remise dans la population $A$ (resp $B$), associe la moyenne des masses de pièces de l'échantillon. On se place dans le cas où $\overline X_A$ suit approximativement la loi normale ${\cal N} (m_A, \sigma_A/\sqrt{n_A})$ et $\overline X_A$ suit approximativement la loi normale ${\cal N} (m_B, \sigma_B/\sqrt{n_B})$. Par définition, la variable aléatoire $D = \overline X_B - \overline X_B$ associe à tout échantillon de taille 36 ainsi prélevé dans la population $A$ et à tout échantillon ainsi prélevé dans lma population $B$ la différence des moyennes de l'échantillon $B$ et de l'échantillon $A$. On suppose que les variables $\overline X_A$ et $\overline X_B$ sont {\bf indépendantes}. Alors $D= \overline X_B - \overline X_A$ suit une loi normale et $$\displaylines{ E (D) = E \big( \overline X_B - \overline X_A \big) = E \big( \overline X_B\big) - E \big( \overline X_A\big) = m_B - m_A \cr V (D) = V \big( \overline X_B - \overline X_A \big) = V \big( \overline X_B\big) + V \big( \overline X_A\big) = {\sigma_B^2 \over n_B} + {\sigma^2_A \over n_A} \cr }$$ L'écart-type de $D$ est donc $\displaystyle{ \sqrt{{\sigma_B^2 \over n_B} + {\sigma^2_A \over n_A}} \approx 2, 7 }$, et $D$ suit une loi normale ${\cal N} (m_B - m_A\, ; 2, 7)$. \sparagraphe{Construction du test} \item{$\bullet$} {\sl Choix de $H_0$~:} $m_A = m_B$. \item{} {\sl Choix de $H_1$~:} $m_A \neq m_B$. \item{} Nous allons tester la validité de l'hypothèse~: \og{\sl la moyenne des masses des pièces sur l'ensemble de chaque livraison est la même pour les fournisseurs $A$ et $B$} \fg. \item{$\bullet$} {\sl détermination de la région critique au seuil de $5\%$} \item{} Sous l'hypothèse $H_0$, $D$ suit la loi normale ${\cal N} (0\, ; 2, 7)$, donc $D/2, 7$ suit la loi normale centrée réduite ${\cal N} (0, 1)$. En particulier, on a $p (-t \leq D/2, 7 \leq t) = 0, 95$ lorsque $t = 1, 96$, et donc $p (-5, 29 \leq D \leq 5, 29) = 0, 95$. \def \epspath{% $HOME/tex_doc/lycee/database//btsmai/stats/infer/} \epsfxsize 100mm $$ \epsillustrate{cour_007a.ps} $$ \item{$\bullet$} {\sl \'Enoncé de la règle de décision} \item{} On prélève avec remise un échantillon aléatoire de taille $n_A = 30$ de la population $A$ et on calcule sa moyenne $\bar x_A$; on fait de même pour la population $B$ avec $n_B = 50$. On pose $d = \bar x_B - \bar x_A$. \itemitem{} si $d \in [-5, 29\, ; 5, 29]$ on accepte $H_0$. \itemitem{} si $d \not \in [-5, 29\, ; 5, 29]$ on rejette $H_0$ et on accepte $H_1$. \sparagraphe{Utilisation du test} \item{$\bullet$} {\sl Calcul de $d$} \item{} On a $d = \bar x_B - \bar x_A = 779, 6 - 774, 7 = 4, 9$ \item{$\bullet$} {\sl Application de la règle de décision} \item{} Comme $4, 9 \in [-5, 29\, ; 5, 29]$, on accepte $H_0$~: au seuil de $5\%$, il n'existe pas de différence significative entre les moyennes des masses des pièces livrées par les deux fournisseurs.