1sc_stat.tex

\documentclass[a4paper,11pt]{article}
\usepackage[]{persopc}
\geometry{hmargin=1.5cm, vmargin=1.5cm}
%\everymath{\displaystyle}
\begin{document}
 
\titre{Statistique descriptive}{1 \up{ere}S}
\fcours{Statistique-Probabilités}
\section{Rappels}
\begin{definition}
La statistique (ou les statistiques) est une 
branche des mathématiques basée sur les observations d'événements 
réels à partir desquelles on cherche à établir des hypothèses 
plausibles en vue de prévisions concernant des circonstances analogues. 
L'étude d'un problème statistique peut se décomposer en quatre 
étapes~: recueil de données, classement et réduction de ces données 
(statistique descriptive), analyse de ces données visant à la 
déduction de prévisions (statistique inférentielle).
\end{definition}
Nous allons nous contenter de faire de la statistique 
descriptive.\\[1em]
Une étude statistique descriptive s'effectue sur une {\bf population} (des 
personnes, des villes, des voitures$\ldots$) dont les éléments sont 
des {\bf individus} et consiste à observer et étudier un même aspect 
sur chaque individu, nommé {\bf caractère} (taille, nombre d'habitants, 
consommation$\ldots$).\\
Il existe deux types de {\bf caractère}~:
\begin{enumerate}
	\item  {\bf quantitatif}~: c'est un caractère auquel on peut associer un 
	nombre c'est-à-dire, pour simplifier, que l'on peut "mesurer". On distingue alors 
	deux types de caractère quantitatif~:
	\begin{itemize}
			\item  {\bf discret}~: c'est un caractère quantitatif qui ne prend 
			qu'un nombre fini de {\bf valeurs}. Par exemple le nombre d'enfants d'un 
			couple.	
			\item  {\bf continu}~: c'est un caractère quantitatif qui, 
			théoriquement, peut prendre toutes les valeurs d'un intervalle de 
			l'ensemble des nombres réels. Ses valeurs sont alors regroupées en 
			{\bf classes}. Par exemple la taille d'un individu, le nombre d'heures passées devant la télévision.
		\end{itemize}
 
	\item  {\bf qualitatif}~: comme la profession, la couleur des yeux, 
	la nationalité. Dans ce dernier cas, "nationalité française", 
	"nationalité allemande" etc$\ldots$ sont les {\bf modalités} du 
	caractère.
\end{enumerate}
En général une série statistique à caractère discret se présente sous 
la forme~:
	\begin{center}
	\begin{tabular}{|c|c|c|p{2cm}|c|}
			\hline
			Valeurs & $x_{1}$ & $x_{2}$ & $\ldots\ldots\ldots\ldots$ & $x_{p}$  \\
			\hline
			Effectifs & $n_{1}$ & $n_{2}$ & $\ldots\ldots\ldots\ldots$ & $n_{p}$  \\
			\hline
			Fréquences & $f_{1}$ & $f_{2}$ & $\ldots\ldots\ldots\ldots$ & $f_{p}$  \\
			\hline
	\end{tabular}
	\end{center}
Plutôt que réécrire ce tableau on écrira souvent~: la série $(x_{i},n_{i})$. (On 
n'indique pas le nombre de valeurs lorsqu'il n'y a pas 
d'ambigüité). Souvent on notera $N$ l'effectif total de cette série 
donc $N=n_{1}+n_{2}+\ldots+n_{p}$.\\[1em]
 
Lorsqu'une série comporte un grand nombre de valeurs, on cherche à la 
résumer, si possible, à l'aide de quelques nombres significatifs 
appelés {\bf paramètres}. En seconde vous avez défini les notions de 
moyenne (à rapprocher de la notion de barycentre$\ldots$), médiane, mode qui sont des paramètres de position et la 
notion d'étendue qui est un paramètre de dispersion. Le but de ce 
cours est de définir de nouveau paramètres.\\
Dans la suite, tout caractère considéré est quantitatif.
\section{Paramètres de position~: les quartiles}
Comme pour la médiane qui permet de partager l'effectif en deux 
effectifs égaux, intuitivement, les quartiles sont des nombres qui partagent la série 
statistique en quatre parties qui ont toutes "sensiblement" le même 
nombre de termes, c'est-à-dire $25\%$ de l'effectif total.
\subsection{Définitions}
\begin{definition} \label{def1} \hfill \\
	Le {premier quartile} $Q_{1}$ est  la plus petite valeur du caractère 
	telle qu'au moins $25\%$ des termes de la série aient une valeur du 
	caractère qui lui soit inférieure ou égale.\\
	Le {troisième quartile} $Q_{1}$ est  la plus petite valeur du caractère 
	telle qu'au moins $75\%$ des termes de la série aient une valeur du 
	caractère qui lui soit inférieure ou égale.
\end{definition}
\noindent {\bf Remarque}~:\\
Les définitions en statistique ne sont pas figées$\ldots$certaines 
calculatrices et logiciels utilisent une définition différente ce qui 
explique que les résultats obtenus à l'aide de la "machine" soit 
différents de ceux donnés par la définition \ref{def1} 
\subsection{Caractère discret}
\noindent Dans ce cas, la définition \ref{def1} se traduit comme suit~:\\
On commence par classer les valeurs $x_{i}$ par ordre croissant, 
chacune d'elles répétées autant de fois, dans cette liste, que son effectif $n_{i}$, 
alors~:
\begin{itemize}
	\item  Si $\frac{N}{4}$ est un entier, le premier quartile $Q_{1}$ est le terme 
	qui dans cette liste occupe le rang $\frac{N}{4}$ et le troisième quartile est 
	le terme de rang $\frac{3N}{4}$.
 
	\item  Si $\frac{N}{4}$ n'est pas un entier, le premier quartile $Q_{1}$
	est le terme de rang immédiatement supérieur à $\frac{N}{4}$ et le troisième quartile est 
	le terme de rang immédiatement supérieur à $\frac{3N}{4}$.
\end{itemize}
\subsection{Caractère continu}
\noindent Dans ce cas on ne connaît pas chaque valeur du caractère il est donc 
imposible de mettre en place la définition. On se contente alors de 
valeurs approchées (sans connaître la précision $\ldots$) des 
quartiles. Pour cela différentes procédures sont possibles~:
\begin{itemize}
	\item  On peut comme pour la médiane, tracer le polygone des fréquences cumulées croissantes 
et on "adopte" les valeurs suivantes:
\begin{itemize}
	\item  $Q_{1}$ est la valeur correspondant à la fréquence cumulée 
	croissante égale $0,25$.
 
	\item  $Q_{3}$ est la valeur correspondant à la fréquence cumulée 
	croissante égale $0,75$.
\end{itemize}
Quelques fois la lecture peut se faire sur la tableau des effectifs 
ou des fréquences cumulées croissantes$\ldots$
 
	\item  On peut aussi se contenter des classes contenant $Q_{1}$ et $Q_{3}$ 
 
	\item  On peut, avec l'hypothèse que la répartition dans chaque 
	classe est régulière, remplacer chaque classe par son centre pour se ramener 
	à un cas discret.
\end{itemize}
\subsection{Effet d'un changement affine}
\begin{theoreme}
$(x_{i};n_{i})$ est une série statistique de médiane $M_{x}$, de 
quartiles $Q_{1x}$ et $Q_{3x}$. La série de {\bf même effectif} 
$(y_{i},n_{i})$, telle que pour tout $i$, $y_{i}=ax_{i}+b$ ($a \in 
\R^{*}, b \in \R$) a~:
\begin{itemize}
	\item  pour médiane $M_{y}'=aM_{x}+b$ ;
 
	\item  pour quartiles, si $a>0$, $Q_{1y}=aQ_{1x}+b$ et 
	$Q_{3y}=aQ_{3x}+b$. 
\end{itemize}
\end{theoreme}
\begin{preuve}
	La preuve repose sur l'utilisation de la fonction $x \longmapsto ax+b$ 
	qui est strictement croissante lorsque $a>0$.
\end{preuve}
\noindent {\bf Remarque}~: Ce théorème peut-être utile lorsque l'on change 
le caractère d'unité (par exemple de francs en euros$\ldots$).
\section{Paramètres de dispersion}
\subsection{Écart inter-quartile}
\begin{definition}
	L' {\bf intervalle interquartile} est l'intervalle 
	$\intf{Q_{1}}{Q_{3}}$.\\
	L' {\bf écart interquartile} est le nombre $Q_{3}-Q_{1}$. C'est la 
	longueur de l'intervalle interquartile.
\end{definition}
\noindent {\bf Remarque}~: Contrairement à l'étendue, l'écart 
interquartile élimine la valeurs extrêmes : ce peut être un avantage. En revanche il ne prend en 
compte que $50\%$ de l'effectif~: ce peut être un inconvénient.
\subsection{Diagramme en boîtes}
On construit un diagramme en boîte de la façon suivante~: 
\begin{itemize}
	\item  les valeurs du caractère sont représentées sur un axe 
	(vertical ou horizontal) ;
 
	\item  on place sur cet axe, le minimum, le maximum, les quartiles 
	et la médiane de la série ; 
 
	\item  on construit alors un rectangle (c'est la fameuse 
	boîte$\ldots$) parallèlement à l'axe, dont la longueur est 
	l'interquartile, la largeur est elle arbitraire.
\end{itemize}
\begin{center}
	\includegraphics[scale=1]{fig1sc_stat.1}
\end{center}
\noindent {Remarque}~: Ce diagramme permet non seulement de 
visualiser la dispersion d'une série mais aussi de comparer plusieurs 
séries entre elles.
\subsection{Variance et écart-type}
\subsection{Introduction}
Donnons-nous une série statistique quelconque à {\bf caractère quantitatif 
discret} $(x_{i};n_{i})$.
L'idée de cette section est de pouvoir "mesurer" la "dispersion" de 
l'ensemble des valeurs $x_{i}$ de la série autour de sa moyenne 
$\bar{x}$. Pour cela on "mesure" pour chaque 
valeur $x_{i}$ son "éloignement" par rapport à la moyenne puis on calcule 
"l'éloignement" moyen. Le tout est de décider comment "mesurer" 
pour chaque valeur son éloignement par rapport à la moyenne.
\exo{}
On considère la série suivante~:
\begin{center}
	\begin{tabular}{|c|c|c|c|c|c|c|c|}
			\hline
			Valeurs $x_{i}$ & $70$ & $72$ & $74$ & $75$ & $78$ & $80$ & $83$  \\
			\hline
			Effectifs $n_{i}$ & $2$ & $1$ & $2$ & $2$ & $1$ & $3$ & $1$   \\
			\hline
			Fréquences $f_{i}$ &  &  & &  & &  &   \\
			\hline
	\end{tabular}
\end{center}
\begin{enumerate}
    \item  Calculez la moyenne $\bar{x}$ de cette série.
 
	\item  Complétez le tableau suivant proposant trois façons de 
	"mesurer" pour chaque valeur l'éloignement par rapport à $\bar{x}$.
\begin{center}
	\begin{tabular}{|c|p{1.5cm}|p{1.5cm}|p{1.5cm}|p{1.5cm}|p{1.5cm}|p{1.5cm}|p{1.5cm}|}
			\hline
			 $x_{i}-\bar{x}$ &  &  &  &  &  &  &   \\
			\hline
			$\vert x_{i}-\bar{x} \vert$ &  &  &  &  &  &  &   \\
			\hline
			 $(x_{i}-\bar{x})^{2}$ &  &  & &  & &  &   \\
			\hline
	\end{tabular}
\end{center}
 
	\item  Calculez dans chacun des trois cas l'éloignement moyen. 
	Conclusion ?
\end{enumerate}
Pour une série quelconque, notons $N$ l'effectif total~:
\begin{itemize}
	\item  on appelle l'écart algébrique moyen le nombre~:
	$$
	l_{m}=\frac{1}{N}\sum_{i=1}^{p}n_{i}(x_{i}-\bar{x}).
	$$
Ce nombre est toujours nul (preuve à étudier à titre d'exercice$\ldots$) et ne permet pas de distinguer deux séries.
	\item on appelle l'écart absolu moyen le nombre~:
	$$
	e_{m}=\frac{1}{N}\sum_{i=1}^{p}n_{i}\vert x_{i}-\bar{x}\vert.
	$$
Ce nombre fournit un très bon paramètre de dispersion mais il n'a pas 
d'application en statistique mathématique entre autres raisons parce 
que la valeur absolue se prête peu aux calculs. On s'intéresse alors 
à la moyenne pondérée des nombres $(x_{i}-\bar{x})^{2}$ qui a permis de 
formuler de nombreuses propriétés en statistique et en probabilité, 
vous le verrez au fur et à mesure de vos études.
\end{itemize}
\subsection{Définitions et théorème}
\begin{definition}\hfill \\
	On appelle {\bf variance} d'une série quelconque à caractère quantitatif 
	discret le nombre~:
	$$
	V=\frac{1}{N}\sum_{i=1}^{p}n_{i}(x_{i}-\bar{x})^{2}=
	  \sum_{i=1}^{p}f_{i}(x_{i}-\bar{x})^{2}
	$$
	{\bf L'écart-type} de cette série est $s=\sqrt{V}$.\\
{\bf Si la série est regroupée en  classes} ou si la 
caractère est quantitatif continu, avec l'hypothèse d'une {\bf 
répartition uniforme} à l'intérieur de chaque classe, on remplace 
chaque classe par son centre. On est ainsi ramené à un cas 
discret.
\end{definition}
\noindent {\bf Remarque}~:
\begin{itemize}
	\item  On est amené à considérer la racine carrée de la variance 
	pour avoir un résultat exprimé dans la même unité que le caractère 
	étudié.
 
	\item  Il existe un autre moyen de calculer $V$ qui évite le calcul 
de $x_{i}-x$, le théorème suivant précise cette possibilité~: 
\end{itemize}
\begin{theoreme} Théorème de Koenig (admis)
	$$V=\frac{1}{N}\sum_{i=1}^{n}n_{i}x_{i}^{2}-\bar{x}^{2}$$
\end{theoreme}
\subsection{Propriétés de la variance}
On a choisi de calculer la moyenne des carrées des écarts par rapport 
à la moyenne ; le théorème suivant donne une bonne raison de faire ce choix.
\begin{theoreme}
	La fonction $g~: t \longmapsto  \frac{1}{N}\sum_{i=1}^{p} 
	n_{i}(x_{i}-t)^{2}$ admet un minimum atteint en $t=\bar{x}$ (la 
	moyenne de la série) et ce minimum vaut $V$ (la variance de la série).
\end{theoreme}
\begin{preuve}
	détaillée en cours, elle repose sur la dérivation de cette 
	fonction $g$ et un peu d'aisance technique.
\end{preuve}
\begin{theoreme}
$(x_{i};n_{i})$ est une série statistique de variance $V_{x}$, 
d'écart-type $s_{x}$. La série de {\bf même effectif} 
$(y_{i},n_{i})$, telle que pour tout $i$, $y_{i}=ax_{i}+b$ ($a \in 
\R^{*}, b \in \R$) a pour variance $V_{y}=a^{2}V_{x}$ et pour 
écart-type $s_{y}=\vert a \vert s_{x}$.
\end{theoreme}
\begin{preuve}
	Elle repose sur la fait que $\bar{y}=a\bar{x}+b$.
\end{preuve}
\section{Résumés d'une série par ses paramètres}
Le choix d'un résumé d'une série statistisque par ses paramètres n'est 
pas des compétences du mathématicien, ce sont celles des statisticiens, des 
économistes$\ldots$ suivant ce qu'ils veulent en faire. En tous cas, une 
étude statistique est accompagnéé de commentaires qui justifient la 
méthode employée et les choix faits. On peut cependant indiquer les 
résumés possibles suivants~:
\begin{itemize}
	\item  Le couple (médiane ; étendue)
 
	\item  Le couple (moyenne ; étendue)\\
Ces deux couples sont simples à obtenir mais ils ne permettent pas de 
positionner le maximum et le minimum de la série. De plus l'étendue est un caractère de 
dispersion très grossier car sensible aux valeurs extrêmes.
 
	\item  Le couple (médiane ; intervalle interquartile)\\ 
	Il est insensible aux valeurs extrêmes.
 
	\item  L'ensemble \{minimum, premier quartile, médiane, troisième 
	quartile, maximum\}.\\
	Il permet de construire un diagramme en boîte et donc de mieux 
	visualiser le comportement d'une série (notamment sa dispersion) et 
	de comparer des séries. Il présente un inconvénient~: la connaisance 
	de ces paramètres pour deux séries ne permet pas de calculer les 
	paramètres du regroupement des deux séries.
 
	\item  Enfin, le couple (moyenne, écart-type).\\
	Ce couple permet de faire des calculs sur des regroupements (cf 
	exo$\ldots$) et il permet à l'aide de l'inégalité de 
	Bienaymé-Tchebychev (c'est pour plus tard$\ldots$) d'avoir une idée 
	assez précise de la répartition de la série. Par exemple on sait que 
	pour une série quelconque la proportion des valeurs de la série en 
	dehors de l'intervalle $\intf{\bar{x}-2s_{x}}{\bar{x}+2s_{x}}$ est 
	inférieur à $25\%$ et la proportion des valeurs de la série en 
	dehors de l'intervalle $\intf{\bar{x}-3s_{x}}{\bar{x}+3s_{x}}$ est 
	inférieur à $12\%$.
\end{itemize}
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
\end{document}