Probabilités et statistiques

Ce chapitre des probabilités a pour but

◙ de préciser l’ajustement d’une loi de probabilité par une autre et l’approximation d’une distribution donnée par une loi théorique.

◙ de donner les limites d’erreurs possibles dans l’estimation d’un paramètre d’une population ce qui sera utile lors de l’estimation ou de l’échantillonnage.

Il s’agit donc clairement de faire le lien entre probabilités et statistiques.

Inégalité de Bienaymé – Tchebychev (B – T).

◙ Soit une variable aléatoire X dont on ne connaît que l’espérance m et la variance V = s²

◙ Soit t un nombre positif arbitraire

P(Z ≥ t) ≤ (Z variable aléatoire réelle ≥0) Markov

◙ Définissons de façon arbitraire un écart à la moyenne positif t (ce qui revient à choisir t arbitrairement)

P (|X – m| ³ t) £ Bienaymé - Tchebychev

Souvent

X est la fréquence mesurée pour un caractère

m la fréquence effective

t l’écart maximum toléré entre fréquence mesurée et fréquence effective (intervalle de confiance) en fonction de n nombre d’observations (qui entre dans la composition de s)

𝛔² / t² est le risque maximum (l’erreur) ou la probabilité pour que notre mesure soit bien dans l’intervalle de confiance (ce qui nous permet de déterminer t) .

Exemple :

Dans une population le caractère A a la probabilité p et le caractère la probabilité q = 1 – p .

Quel effectif de la population (n) faut – il examiner pour que la fréquence observée pour A dans cet effectif ne s’écarte pas de plus de 0,05 de la fréquence effective avec un risque inférieur à 1% ?

Solution :

◙ on reconnaît une loi binomiale donc la fréquence effective de A dans la population doit être m = p.

◙ la variable observée X est la fréquence de A dans la population.

◙ P (|X – m| £ t ) s’écrit P(|X – p| £ 0.05)

◙ « avec un risque inférieur à 1% » s’écrit P(|X – p| £ 0.05) ³ 0.99

la probabilité pour que la fréquence mesurée ne diffère pas de plus de 5% de la fréquence effective est de 99%.

On pourrait écrire : P(|X – p| ³ 0.05) £ 0.01

◙ Donc t = 0.05.

◙ La loi binomiale donne pour les fréquences

Si Y est le nombre d’évènements d’une sorte (caractère A observé)

E( ) = p

V( ) =

Et s² = pq / n

P (|X – m| ³ t) £

◙ t = 5% → = 1% → = 1% →n = → n ≥7500.

Convergence

Soit X une variable aléatoire.

Soit X1 , X2 , ..., Xn une suite de variables aléatoires de même champ que X.

Cette suite converge en probabilité vers X si

" e > 0 P (| Xn – X | < e ) = 1

Cette suite converge en moyenne quadratique vers X si

E(Xn) ® E(X)

V(Xn – X ) = 0

De plus on a « convergence en moyenne quadratique » implique « convergence en probabilité ».

Cette suite converge en loi vers X de fonction de répartition F(x) si

Tous les Xi étant de même loi et de fonction de répartition Fi(x)

F(x) étant continue en x₀ Fn(X₀ ) = F(x₀)

Loi faible des grands nombres

Soit X1 , X2 , ... Xn une suite de variables aléatoires indépendantes

◙ de même loi (par exemple loi binomiale)

◙ de même espérance E(X)

◙ de même variance s²

Alors la moyenne des Xi converge en probabilité vers E(X)

variable	valeurs			moyenne
X1	x11	x12	x1p	E(X)
X2	x21	x22	x2p	E(X)

Xn	xn1	xn2	xnp	E(X)
moyenne des Xi	M1	M2	Mp	E(X)

Si n ® ¥ on a lim (M_i) = E(X)

$\lim_{n \to +\infty} P\left(\left|\frac{X_1+X_2+...+X_n}{n} -E(X)\right| \geq \epsilon\right) = 0$

Pour le démontrer on remarque que la variable M a pour espérance E(X) et pour variance V(X) / n

Donc d’après la loi de B – T

$P\left(\left|\frac{X_1+X_2+...+X_n}{n} -E(X)\right| \geq \epsilon\right) \leq \frac{V(X)}{n\epsilon^2}$

Il suffit maintenant de faire tendre n vers ¥ .

Corollaire :

Supposons que dans une population la probabilité (la fréquence) du caractère A soit p (inconnu)

je réalise n tests en prélevant chaque fois au hasard un élément de la population.

à chaque test correspond une variable de Bernouilli Xi (1 < i £ n) dont la valeur est 1 si on trouve le caractère A chez l’élément de la population et 0 si on ne le trouve pas.

J’ai donc n variables indépendantes Xi, de même loi, dont l’espérance mathématique est p et la variance pq.

Je me trouve dans les conditions de la loi faible des grands nombres.

Sur n tests, la moyenne des Xi est égale à la fréquence f_A,n de A dans la population testée.

La loi des grands nombres me dit que lorsque n ® ¥

" e > 0 P (| f_A,n– p | < e ) = 1

Ce que l’on traduit par :

La fréquence f_A,ndu caractère A, mesurée dans un échantillon d’effectif n de la population, tend vers P(A) la fréquence effective (réelle) de A dans la population quand n ® ¥ .

Théorème de la limite centrale

(Liapounov – Lindeberg – Lévy – Gnedenko – Kolmogorov)

Soit X1, X2, ....Xn une suite de variables aléatoires indépendantes

◙ dont la loi de distribution est la même

◙ dont l’espérance mathématique est E(Xi) = m

◙ dont la variance est V(Xi) = s²

Si est la moyenne arithmétique de ces n variables alors la variable

converge en loi vers une variable aléatoire de loi N(0,1) lorsque n ® ¥ .

Soient X1, X2, .... Xn vérifiant les conditions de l’énoncé de la loi

Alors la variable Sn = X1+X2+......Xn admet pour espérance nm et pour écart type s

En effet : quand X et Y sont indépendantes on a

◙ E(X + Y) = E(X) + E(Y) d’où E(Sn) = nm

◙ V(X+Y) = V(X) + V(Y) d’où V(Sn) = n s²

La loi de Sn tend vers la loi normale N(nm , s) quand n ® ¥

Donc la loi de Zn = tend vers une loi N(0,1) (On centre et on réduit)

Or Zn peut s’écrire = dont la loi tend vers N(0,1) quand n ® ¥

Démonstration

Fait appel à des notions qui ne sont pas développées dans ce cours et dont on fait un bref exposé

Transformée de Fourier :

$F(s) = \hat{f}(s) = \int_{-\infty}^{+\infty} f(x)\, e^{-i sx}\, dx$

Transformation de Fourier inverse

$f(x) = {1 \over 2\pi}\, \int_{-\infty}^{+\infty} F(w)\, e^{iwx}\, dw$

Fonction caractéristique de X

Si p(x) est la densité de probabilité de X , la fonction caractéristique de X (C_X(t) ) est la transformée de Fourier de p(x)

C_X(t) = ou C_X(t) = E (e^-itx )

( i = et E ( ) espérance mathématique de ... )

Propriétés

◙ Si Y = aX alors et C_Y (t) = C_X(at)

◙ Si X et Y indépendantes alors C_{X + Y} = C_X C_Y

◙ si X obéit à une loi N(O,1) alors C_X(t) =

◙ Et réciproquement si C_X(t) = alors X obéit à une loi N(0,1) (transformée de Fourier inverse)

◙ Si X a pour moyenne 0 et pour variance 1 alors C_X(t) = 1 – + o(t²) quand t ® 0

Limite centrale

Å Si X1, X2, ........, Xn sont des variables indépendantes ayant chacune 0 pour moyenne et 1 pour variance

Pour chacune de ces variables on a , C_Xi(t) = 1 – + o(t²) quand t ® 0

◙ Posons Yi = on a C_Yi (t) = C_Xi () et comme quel que soit t :

® 0 quand n ®¥

On peut écrire C_Yi (t) = 1 – + o(t²) quel que soit t quand n ® ¥

◙ Posons maintenant Y = on a C_Y (t) = (C_Y1)(C_Y2)......(C_Yn) =

[ 1 – + o(t²) ]ⁿ

◙ Or on sait que donc

C_Y (t) = .

On en déduit que Y suit une loi N(0,1)

Å Si X1 , X2, ... Xn sont des variables quelconques de même loi ayant pour moyenne m et pour variance s

Les variables ont pour moyenne 0 et pour variance 1 (donc on se ramène au cas précédent)

Il suffit de remarquer que peut aussi s’écrire et on retrouve la formulation de la loi de la limite centrale :

La loi de converge vers N(0 , 1) quand n ® ¥

De la loi binomiale à la loi normale

Une variable distribuée selon la loi binomiale B(n,p) converge en loi vers une variable distribuée selon la loi normale N(np , ) lorsque n ® ¥ .