tite fractale

Échantillonnage, test et estimation

1. Introduction

Dans ce chapitre, on s’intéresse à une population dont un certain caractère apparaît avec une proportion $p$ (que l’on peut appeler la probabilité de succès). Deux cas d’étude se présentent :

On extrait de cette population un échantillon de taille $n$ et on compte le nombre de succès pour calculer la fréquence observée $f_{obs}$.

De plus, lorsque vous verrez CERTAINES CONDITIONS, cela signifiera que les conditions d’approximation d’une loi binomiale par une loi normale doivent être respectées :

Remarques :

2. Variable aléatoire fréquence

2.1. Notations

Soit $X_n$ (ou plus simplement $X$ s’il n’y a pas ambiguïté) la variable aléatoire qui à tout échantillon de taille $n$ associe le nombre d’individus présentant le caractère étudié. Elle suit la loi binomiale de paramètres $n$ et $p$.

2.2. Définition

La variable aléatoire $F_n$ (ou plus simplement $F$) définie par $F = \frac{X}{n}$ est appelée variable aléatoire fréquence.

Remarques :

2.3. Propriétés

2.3.1. Espérance et écart-type

$$ \begin{aligned} E(F) &= p \\ \sigma (F) &= \frac{\sqrt{p(1-p)}}{\sqrt n} \\ \end{aligned} $$

Démonstration :

$$ \begin{aligned} E(F) &\overset{(1)}{=} E\left(\frac{1}{n} X\right) \overset{(2)}{=} \frac{1}{n}E(X) \overset{(3)}{=} \frac{1}{n} × np = p \\ V(F) &\overset{(1)}{=} V\left(\frac{1}{n} X\right) \overset{(2)}{=} \frac{1}{n^2}V(X) \overset{(3)}{=} \frac{1}{n^2} × np(1-p) = \frac{p(1-p)}{n} \\ \end{aligned} $$

  1. Définition de $F$.
  2. Propriété de l’espérance et de la variance des lois de probabilité discrètes, il suffit de factoriser par $\frac{1}{n}$ dans $p_1 \frac{x_1}{n} + p_2 \frac{x_2}{n}…$, et de même dans $p_1 \left(\frac{x_1}{n} - \frac{\mu}{n}\right)^2 + p_2 \left(\frac{x_2}{n} - \frac{\mu}{n}\right)^2…$, sauf que c’est $\frac{1}{n^2}$ qui sort.
  3. $X$ suit la loi binomiale $\mathscr B (n,p)$.

2.3.2. Approximation par une loi normale

Sous CERTAINES CONDITIONS, $F$ peut être approchée par la loi normale de même espérance et de même variance (soit de paramètres $p$ et $\frac{p(1-p)}{n}$).

Démonstration : On utilise le théorême de Moivre-Laplace en considérant la variable aléatoire $\frac{F - E(F)}{\sigma (F)}$. On a :

$$ \frac{F - E(F)}{\sigma (F)} = … = \frac{X - np}{\sqrt{np(1-p)}} $$

Pour plus de détails, voir la démonstration à savoir (ROC) plus bas.

3. Intervalles de fluctuation asymptotique

Dans cette partie, on suppose $p$ connue.

3.1. Définition

Pour tout réel $\alpha$ dans $]0;1[$, un intervalle de fluctuation asymptotique de la variable $F$ au seuil $1 - \alpha$ est un intervalle déterminé à partir de $p$ et $n$ qui contient $F$ avec une probabilité d’autant plus proche de $1 - \alpha$ que $n$ est grand.

Autrement dit, si on note $I_n$ un tel intervalle (qui dépend en fait aussi de $p$ et de $\alpha$),

$$ \lim\limits_{n \to +\infty} P(F \in I_n) = 1 - \alpha $$

3.2. Remarques

3.3. Rappels

3.3.1. De seconde

Sans le dire, nous étudiions déjà des schémas de Bernouilli de paramètres $n$ et $p$, et nous définissions l’intervalle de fluctuation au seuil de 95% ainsi :

Si $n \ge 25$ et si $0,2 \le p \le 0,8$, la fréquence $f$ d’apparition du succès appartient à l’intervalle $\left[ p - \frac{1}{\sqrt n} ; p + \frac{1}{\sqrt n} \right]$ pour environ 95% des échantillons.

3.3.2. De première

Ayant défini les variables aléatoires et la loi binomiale, nous disions :

L’intervalle de fluctuation au seuil de 95% de la fréquence $f$ est l’intervalle $\left[ \frac{a}{n} ; \frac{b}{n} \right]$ où :

  • $a$ est le plus petit entier tel que $P(X \le a) > 0,025$,
  • $b$ est le plus petit entier tel que $P(X \le b) > 0,975$.

Le cours de terminale permettra de parler de limite quand $n$ tend vers l’infini.

3.4. Théorème

/!\ ROC

Pour tout réel $\alpha$ dans $]0;1[$, il existe un unique réel strictement positif $u_\alpha$ tel que, en notant :

$$ I_n = \left[ p - u_\alpha \frac{\sqrt{p(1-p)}}{\sqrt n} ; p + u_\alpha \frac{\sqrt{p(1-p)}}{\sqrt n} \right] $$

on ait : $ \lim\limits_{n \to +\infty} P(F \in I_n) = 1 - \alpha $

Autrement dit, $I_n$ est un intervalle de fluctuation asymptotique. On l’appelle même l’intervalle de fluctuation asymptotique (avec un article défini).

Démonstration

On rappelle les notations du chapitre :

On définit une nouvelle variable aléatoire $Z_n$ par :

$$ Z_n = \frac{X_n - np}{\sqrt{np(1-p)}} $$

D’après le théorème de Moivre-Laplace, on a pour tous réels $a$ et $b$ tels que $a < b$ :

$$ \lim\limits_{n \to +\infty} P\left(a \le Z_n \le b\right) = \int_a^b \phi(x)~dx $$

Or $Z_n$ peut s’exprimer en fonction de $F_n$ :

$$ \begin{aligned} Z_n &= \frac{X_n - np}{\sqrt{np(1-p)}} \\ &= \frac{n \left( \frac{X_n}{n} - p \right)}{\sqrt{n} × \sqrt{p(1-p)}} \\ &= \frac{F_n - p}{\frac{\sqrt{p(1-p)}}{\sqrt n}} \\ \end{aligned} $$

On peut donc exprimer la chaîne d’inégalités ainsi :

$$ \begin{array}{ccccccc} a \le Z_n \le b & ⇔ & a & \le & \frac{F_n - p}{\frac{\sqrt{p(1-p)}}{\sqrt n}} & \le & b \\ & ⇔ & a × \frac{\sqrt{p(1-p)}}{\sqrt n} & \le & F_n - p & \le & b × \frac{\sqrt{p(1-p)}}{\sqrt n} \\ & ⇔ & p + a × \frac{\sqrt{p(1-p)}}{\sqrt n} & \le & F_n & \le & p + b × \frac{\sqrt{p(1-p)}}{\sqrt n} \\ \end{array} $$

D’après un autre théorème important vu au chapitre précédent, il existe un unique réel strictement positif $u_\alpha$ tel que $\int_{-u_\alpha}^{u_\alpha} \phi(x)~dx = 1 - \alpha$, donc il suffit de prendre $a = -u_\alpha$ et $b = u_\alpha$ pour obtenir finalement :

$$ \begin{aligned} \lim\limits_{n \to +\infty} P(F \in I_n) &= \lim\limits_{n \to +\infty} P(-u_\alpha \le Z_n \le u_\alpha) \\ &= 1 - \alpha \\ \end{aligned} $$

3.5. Définition

Pour $\alpha = 0,05$; on a : $1 - 0,05 = 0,95 = 95\%$, et $u_\alpha \approx 1,96$.

L’intervalle suivant :

$$\left[p - 1,96 × \frac{\sqrt{p(1-p)}}{\sqrt n} ; p + 1,96 × \frac{\sqrt{p(1-p)}}{\sqrt n}\right]$$

sera appelé « l’intervalle de fluctuation asymptotique au seuil 0,95 » de la variable aléatoire fréquence.

3.6. Comparaisons avec les intervalles précédents

Cet intervalle est inclus dans celui de seconde car pour tout réel $p$ compris entre 0 et 1, $1,96 × \sqrt{p(1-p)} \le 1$ (à savoir vérifier en terminale !).

Celui de première peut ne pas être centré, contrairement à ceux de seconde et de terminale qui le sont toujours.

3.7. Prise de décision (ou test)

On considère l’hypothèse suivante : « on connaît $p$ ».

Remarque : on ne dira pas « on accepte » l’hypothèse, car personne ne peut la vérifier.

4. Estimation

On supposera ici que $p$ est inconnue.

4.1. Définition

Pour tout réel $\alpha$ de $\left]0;1\right[$, un intervalle de confiance pour une propostion $p$ au niveau de confiance $1-\alpha$ est un intervalle construit à partir d’un échantillon. Cet intervalle est aléatoire et contient $p$ avec une probabilité supérieure ou égale à $1-\alpha$.

Remarque : Cet intervalle n’est pas unique, même si $\alpha$ est fixé. On utilise en général l’article indéfini « un ».

4.2. Propriété

L’intervalle de confiance au niveau de confiance 95% est l’intervalle défini par : $$\left[ f_{obs} - \frac{1}{\sqrt n} ; f_{obs} + \frac{1}{\sqrt n} \right]$$

Remarques :










Page générée le 27/05/2021, 09h53'27" (source).
historique de la page
historique global