Echantillonnage Estimation

Echantillonnage Estimation

Rappels Notions à maîtriser avant l’étude de ce chapitre

 X est une variable aléatoire mesurée au cours de N tirages et au bout de N tirages on calcule

la moyenne

Si dans la population m est la moyenne de X et s son écart type.

Pour la moyenne de l’échantillon considérée comme variable aléatoire on a :

E() = m V()= écart type de =

 X est le nombre de personnes possédant un caractère l sur N tirages et au bout de N tirages on évalue la fréquence (ou proportion) f = X / N du caractère l

Si N assez grand E(X) = Np , V(X) = Npq (avec q = 1— p )

Pour la fréquence f de l considérée comme variable aléatoire on a :

E(f) = p et V(f) = écart type de f = (tirages avec remise)

Considérations générales

Lorsqu’on veut recueillir des informations sur une population statistique, on procède par sondage dés lors que la méthode exhaustive ou recensement n’est pas appropriée (pour des raisons qui peuvent être diverses).

Pour procéder à un sondage on doit

1) prélever un échantillon de la population c’est la phase d’échantillonnage.

2) déduire de cet échantillon les caractéristiques chiffrées probables de la population, c’est la phase de l’estimation.

Les problèmes qui se posent autour de l’échantillonnage sont le choix de la taille de l’échantillon et le choix de la méthode d’échantillonnage qui doit à la fois respecter autant que possible le hasard pur et bien sûr composer avec les contraintes contextuelles. L’échantillon est dit « représentatif » lorsqu’on pense que l’on peut sans risque étendre les conclusions qu’il rend à l’ensemble de la population.

L’estimation, elle, ne peut déboucher sur une certitude. Elle va formuler ses conclusions dans une phrase qui ressemble à ça : « avec un risque de 5% on peut dire que le pourcentage de la population possédant un caractère l se situe entre 18% et 22% »

Donc, une estimation produit toujours deux données chiffrées : le risque (5%), qui mesure la fiabilité du sondage et l’intervalle de confiance ( [18% ; 22%] ) qui traduit la précision du sondage.

Toute estimation qui ne rend pas compte du risque et des doutes qui lui sont inhérents est une mauvaise estimation.

En fait les caractéristiques de l’échantillonnage et l’utilité de l’estimation sont intimement liées.

Il est bien évident, par exemple, que l’augmentation de la taille de l’échantillon prélevé va à la fois réduire le risque et l’amplitude de l’intervalle de confiance.

Pour s’en convaincre, il suffit de remarquer que les échantillons de N pièces prélevés dans une population nombreuse où l’on trouve le caractère l avec une fréquence p obéissent à la loi binomiale (des tirages exhaustifs dans une population nombreuse équivalent à des tirages avec remise).

Si X est le nombre d’individus possédant le caractère l dans l’échantillon on a : P(X=n) =

Par exemple si p = 1/6 = 0,1666 = 16,66% et qu’on prélève des échantillons de taille 10 On aura

X = 0 pour 16% des échantillons

X = 1 pour 32% des échantillons

X = 2 pour 29% des échantillons

X = 3 ou + pour 23% des échantillons

En supposant que les échantillons prélevés respectent exactement ces proportions on pourrait dire qu’il y a 61% de chances (32+29) pour que la fréquence de l soit entre 1 sur 10 et 2 sur 10. ( 0,1 < P(l) < 0.2 risque de 39%)

Si je prélevais des échantillons de taille 100, je devrais en trouver un maximum pour X = 16 et X = 17 et le produit de la précision de l’encadrement de P(l) (0,16<P(l) < 0,17 ici 0,01) par le risque (r%) aura diminué, ce qui signifie que l’estimation sera meilleure.

Mais en fait ce n’est pas comme cela qu’on procède : on tire un échantillon et un seul au hasard, on mesure la fréquence de l dans cet échantillon et on en déduit que p1% £ P(l) £ p2% avec un risque de r%.

Pour donner un exemple :

N = 12 X = 2 ® au risque de 5% on a 3% £ P £ 52% (valeur réelle 16,6%)

N = 120 X = 20 ® au risque de 5% on a 10% £ P £ 23% (valeur réelle 16,6%)

N = 2000 X = 333 ® au risque de 5% on a 15% £ P £ 17% (valeur réelle 16,6%)

Méthodes d’échantillonnage

˜ Tirages au hasard

On numérote la population, on tire des nombres au hasard, on prélève l’échantillon de population correspondant aux nombres tirés.

 Sondage systématique

On détermine la taille N de l’échantillon et on prélève systématiquement 1 individu sur n jusqu’à atteindre le chiffre N .

 Sondage par grappes

On prélève des grappes d’individus localisés au même endroit ce qui diminue le coût

 Sondage avec probabilités inégales

S'il existe, au tirage, des disparités entre individus, on affecte les individus ayant la probabilité p d’être tirés d’un coefficient (un poids) 1/p

 Sondage à plusieurs degrés

Par exemple on constitue des groupes au hasard puis on tire au hasard dans chaque groupe.

Coût et précision diminués.

 Méthode des quotas

A partir d’informations antérieures, on construit un échantillon aussi représentatif que possible de la population ce qui signifie que les quotas de certains caractères jugés en corrélation avec la caractéristique étudiée sont respectés.

( Par exemple 1000 hommes 900 femmes 700 ouvriers 400 25 – 35 ans ...). C’est une méthode souple et de faible coût donc souvent utilisée mais échappant aux règles de probabilités du fait qu’elle néglige le hasard. on ne connaît ni la précision ni la fiabilité des estimations tirées de ce procédé.

 Sondage stratifié

Lorsqu’on connaît précisément certaines caractéristiques de la population on peut constituer des groupes homogènes selon ces critères (strates) et on tire indépendamment un échantillon aléatoire dans chaque strate. Gain de précision par rapport aux autres méthodes utilisant les groupements.

Distribution d’échantillonnage

Il s’agit de déterminer les caractéristiques approximatives de l’échantillon à partir d’une population connue.

Population totale d’effectif P

Echantillon prélevé de taille N.

Tirage avec remise (entre parenthèses résultats avec tirage exhaustif)

 On tire une élément de la population et on observe la valeur de X .

E(X) = m et V(X) = s²

Moyenne de l’échantillon

est la moyenne observée dans l’échantillon, m et s des valeurs réelles dans la population.

 Soit un échantillon de taille N on a

E() = m V()= (V()= si tirages exhaustifs)

 Lorsque N est grand (> 30)

La loi de Y = est une loi N(0,1) (Y = si tirages exhaustifs)

Et les relations P( |Y| < 1,96) = 0,95 et P( |Y| < 2,58) = 0,99 permettent de donner un encadrement de au risque de 5% ou de 1%.

Par exemple de - 1,96 < < + 1,96 on tire

m – 1,96 < < m + 1,96

 Lorsque N est faible (< 30)

Si la loi de X est une loi normale alors la loi de est une loi normale.

On ne peut rien dire de plus.

On connaît la moyenne et l’écart type vrais . Quel est selon la taille de l’échantillon l’intervalle de situation de la moyenne observée (f) au risque de r% ?

Dans une population la moyenne de X est m = 800 et l’écart type est s = 60 .

Que peut on dire de la moyenne de X dans un échantillon de 100 individus ?

E() = 800 V() = = 36 et Y = suit une loi N(0,1)

On a donc P( |Y| < 1,96) = 0,95 (extrait des tables de la loi normale)

|Y| < 1,96 s’écrit

– 1,96 < < +1,96 ou – 1,96 < – 800 < + 1,96

et donc au risque de 5% on a 800 – 1,96 < < 800 + 1,96

On a donc 95% de chances pour que 788,24 < < 811,76

On a aussi P( |Y| < 2,58) = 0,99 (extrait des tables de la loi normale)

et donc au risque de 1% on a 800 – 2,58 < < 800 + 2,58

On a donc 99% de chances pour que 784,52 < < 815,48

Proportions

 Dans la population la fréquence du caractère l est connue P(l) = p

 Dans un échantillon de taille N , X est le nombre de personnes possédant le caractère l .

 X est la somme de N variables de Bernouilli indépendantes dont la moyenne est p .

 Si N est grand

Loi des grands nombres : si N ® ¥ alors X/N ® p .

E(X) = Np , V(X) = Npq (avec q = 1 – p)

Posons f = X / N proportion du caractère l dans des échantillons de grande taille.

E(f) = p et V(f) = (V(f) = si tirage exhaustif)

Si N est suffisamment grand on peut correspondre que

f obéit à une loi N ( p , )

 Si n n’est pas assez grand

On utilise la loi binomiale B(N, p) .

On connaît la proportion vraie (p). Quel est selon la taille de l’échantillon l’intervalle de situation de la proportion observée (f) au risque de r% ?

il existe des tables donnant les intervalles de pari d’une proportion à 95% (ou à 99% ).

Par exemple, pour un pari à 95%, on peut s’appuyer, entre autres, sur une famille de courbes paramétrées par le nombre d’éléments N de l’échantillon.

Pour chaque valeur de N on a 2 courbes qui ressemblent à celles qu’on voit sur le graphique ci-dessous (celles – là correspondent à N = 20).

0intervalleconfiance

Si la proportion vraie est p , on trace la droite x = p , elle intercepte le couple de courbes N = 20 en deux points d’ordonnée f1 et f2. Et on peut dire qu’au risque de 5% la fréquence f qu’on va mesurer dans une échantillon de 20 éléments sera telle que f1 < f < f2 .

Les courbes de paramètre N = 50 seront situées entre les courbes N = 20 ce qui fait, qu’au même risque l’intervalle de confiance rétrécit quand la taille de l’échantillon augmente.

On connaît la proportion vraie (p). Quelle est la taille N de l’échantillon qui permet d’obtenir pour la fréquence observée (f) une précision de e% au risque de r% ?

p = 1/6 (donc q = 5/6)

La fréquence f doit être connue au 50^e prés (e% = 2%) avec une probabilité de 99% (risque r% = 1%) .

Quelle doit être la taille N de l’échantillon choisi pour déterminer f ?

f obéit à une loi N ( p , )

obéit à une loi N(0,1)

On a donc – 2,58 < < +2,58 avec une probabilité minimale de 0,99 (d’après les tables)

Ce qu’on peut aussi écrire P ( p – 2,58 < f < p + 2,58) > 0,99

Il faut donc 2,58 < e% ou 2,58 < 2/100 avec pq = 5/36

ce qui donne N > 2311

Estimation

Estimateurs

On observe N fois la variable X d’une population.

On trouve les valeurs X₁ , X₂ , ...., X_N

Nous cherchons à connaître soit la moyenne (Y = ) soit l’écart type (Y = s) de X dans la population totale.

Pour cela nous utilisons une valeur, Z , calculée à partir de X₁ , X₂ , ...., X_N

On dit que Z est un estimateur de Y si Z converge en moyenne quadratique vers Y

c'est-à-dire si lorsque N ® ¥

E(Z) ® Y

V(Z) ® 0

Si E(Z) =Y l’estimateur est dit « sans biais »

 cas d’un tirage avec remise : f est un estimateur sans biais de la proportion p réelle dans la population.

 Mode de tirage quelconque : E() = m (moyenne réelle de X) . est un estimateur sans biais de m.

 Tirage sans remise : Par contre V(X) n’est pas un estimateur sans biais de s² .

 Tirage sans remise : est un estimateur sans biais de s².

. S et s équivalents si N est grand

Problème : Quelle est la précision de l’estimation ?

Estimation.

On procède à une estimation lorsque ayant affaire à une population peu ou mal connue, on cherche à évaluer certaines de ses caractéristiques (moyenne, proportion, écart type) à travers les caractéristiques d’un échantillon de taille N.

Estimation de la moyenne

P population

Si P suit une loi normale ® moyenne de l’échantillon suit une loi normale

Si P inconnue et N effectif de l’échantillon > 30 ® moyenne de l’échantillon suit une loi normale

Si P inconnue et N effectif de l’échantillon < 30 ® loi de Student avec N – 1 degrés de libertés.

 Effectif de l’échantillon N > 30 , s (population) connu

De -1,96 < <+1 ,96 avec une probabilité de 95% on tire

– 1,96 < m < + 1,96

ce qui donne un encadrement de m au risque de 5%

 Effectif de l’échantillon N > 30 , s (population) inconnu

L’écart type s n’étant pas connu, on en fait une estimation :

(ou si on connaît la variance dans l’échantillon : S = )

A partir de là , on procède comme précédemment :

– 1,96 < m < + 1,96

ce qui donne un encadrement de m au risque de 5% .

On remplace 1,96 par 2,33 pour un encadrement au risque de 1%.

 Effectif de l’échantillon N < 30 , Test de Student

Supposons qu’on veuille un encadrement de la moyenne au risque de 1%.

 On cherche dans la table de Student : la valeur de t qui a 1% de chance d’être dépassé avec N – 1 degrés de liberté est T.

 On calcule la moyenne de l’échantillon.

 On estime l’écart type S de la population

 Et on écrit l’encadrement au risque de 1% :

– T < m < + T

Estimation d’une proportion

 Dans la population la fréquence p du caractère l est inconnue

 Dans un échantillon de taille N , X est le nombre de personnes possédant le caractère l

 f = X / N est la fréquence observée dans l’échantillon

 Il faut donner une estimation de p.

X suit une loi binomiale B (N, p)

f suit une loi parente de la loi binomiale

P ( X = x) = P(f = x/N) donc

E(f) = p et V(f) = avec p inconnu

 p est estimé par f (fréquence dans l’échantillon)

 V(p) est estimé soit par (N grand)

soit par valeur maximale de la variance obtenue pour f = 1 – f = ½ (N petit)

 Si N > 100 la loi de p est approchée par une loi normale N (f , )

Pratiquement

 Si N est petit

on utilise à l’envers l’abaque qu’on utilisait pour encadrer la fréquence observée connaissant la proportion réelle.

0intervalestimation

On choisit la famille de courbes correspondant au risque r% choisi (5% ou 1% en principe)

Dans cette famille on choisit le couple de courbes paramétrées par n le plus proche possible de N (ici n = 20)

On trace la droite y = f qui coupe le couple de courbes de paramètre n en des points d’abscisse p1 et p2 .

On estime qu’au risque de r% la proportion vraie, p, vérifie p1 < p < p2

 Si N est grand

On suppose que p est distribué selon une loi normale N (f , )

On calcule s = estimation de l’écart type

Et on écrit par exemple qu’au risque de 5%

f – 1,96 S < p < f + 1,96S

Estimation d’un écart type

Ponctuellement

S est estimé par

s est estimé par

s = (m de la population connue) ou (m inconnue)

l’estimateur suit une loi A = (n – 1 ) du c² à N-1 degrés de libertés

1) On calcule a = (n – 1 )

2) On cherche pour N – 1 degrés de liberté la probabilité P(A > a) (table du c² )

3) si on a 0,025 < P(A > a) < 0,975 on dira qu’on a un intervalle de confiance de 5%

4) Si c² (0,025) = a1 et c² (0,975) = a2 on peut dire que a1 < A < a2 avec une probabilité de 5%

5) de a1 < (n – 1 ) on tire

6) de (n – 1 ) < a2 on tire

7) et en fin de compte on a l’encadrement de s suivant au risque de 5% :

Complément

Emprunt à WIKIPEDIA

Lorsqu'il s'agit d'estimer la dispersion autour de la moyenne d'un caractère statistique dans une population de grande taille à partir d'un échantillon de taille n, on utilise pour l'écart type la valeur suivante

$s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}$ .

On peut remarquer que

$s = \sigma\sqrt{\frac{n}{n-1}}$

Pourquoi n-1 ?

La question que l'on se pose généralement est « Pourquoi n - 1 ? ». La raison pour laquelle on divise par n - 1 au lieu de n est un bel exemple de l'interaction permanente entre les statistiques et les probabilités.

Le sondage de n individus correspond à une série de n variables aléatoires xi indépendantes d'espérance E(X) et de variance V(X).

La moyenne $\overline{x}$ de l'échantillon est une variable aléatoire d'espérance E(X) et de variance

$\frac{1}{n} \cdot V(X)$

(la moyenne de n variables aléatoires fluctue moins qu'une seule variable aléatoire).

La variance v de l'échantillon est une variable aléatoire dont on veut calculer l'espérance.

$v=\left(\frac{1}{n}\sum x_i^2\right) - \overline{x}^2$ .

est une variable aléatoire d'espérance

donc égale à E(X)2 + V(X).

$\frac{1}{n}\sum x_i^2$

est une variable aléatoire d'espérance E(X)² + V(X).

$\overline{x}^2$ est une variable aléatoire d'espérance

$E(\overline{x})^2+V(\overline{x})=E(X)^2+\frac{1}{n}V(X)$ .

Donc

$E(v) = E(X)^2+V(X) - E(X)^2-\frac{1}{n}V(X)=\frac{n-1}{n}V(X)$ .

La variance v de l'échantillon fluctue donc autour de

$\frac{n-1}{n}V(X)$

et non autour de V(X) comme on aurait pu s'y attendre.

Pour obtenir une estimation de V(X), il est donc nécessaire de prendre

$\frac{n}{n-1}v$ .

On pourrait dire que v est un estimateur biaisé.

Et pour obtenir une estimation de l'écart type σ(X), il est nécessaire de prendre

$\sigma \sqrt{\frac{n}{n-1}}$ .

DECISION STATISTIQUE

Comparaison d’une moyenne à une norme m₀

 Une hypothèse de comparaison de la moyenne m de la population à une norme m₀ est formulée.

Cette hypothèse peut revêtir plusieurs formes

H0 : peut – on dire que m = m₀ égalité

H1 : peut on dire que m > m₀ ou m < m₀ majoration minoration

L’hypothèse est forcément formulée avec un certain risque (en général 5% ou 1%) qu’il nous appartient de préciser.

 On peut à l’inverse avoir le certitude que m = m₀ (ou m > m₀ ou m < m₀ ) et se demander si la procédure de construction de l’échantillon ou les mesures nécessaires à sa constitution sont valables (là aussi la réponse à cette question est formulée au risque de r%) .

Il y a plusieurs cas de figures

 Ecart type s de la population connu, la population suit une loi normale ou n > 30

alors de l’échantillon suit une loi normale N( m , )

Soit on suppose que m = m₀ et on vérifie que est dans l’intervalle de confiance au risque donné

Soit on formule l’hypothèse que m > m₀ ou m < m₀ et m étant encadré en fonction de , on regarde où se trouve m₀ par rapport aux bornes de l’encadrement.

 Ecart type s de la population connu, n < 30

Impossible de conclure sauf si l’on connaît la loi de la population

 Ecart type s de la population inconnu, la population suit une loi normale ou n>30

On estime s par

La moyenne suit une loi de Student à N-1 degrés de libertés.

Si N > 30 la loi de Student peut être approchée par une loi normale N( m , )

 Ecart type s de la population inconnu, n < 30

Impossible de conclure

Exemples :

 On mesure N fois une longueur l = l₀ (l₀ connue) . On connaît l’écart type sur la mesure s .

Au risque de 5%, les mesures sont elles réalisées convenablement ?

C’est le cas si l₀ – 1,96 < < l₀ + 1,96

 On mesure 100 fois une valeur X . On fixe une norme m₀ pour . Peut on dire qu’en moyenne ne dépasse pas m₀avec un risque 1% ?

On ne connaît pas s de la population mais on l’estime grâce à notre échantillon s = s .

Pour N = 100 on peut approcher la loi de Student par une loi normale.

On évalue la moyenne de l’échantillon.

L’hypothèse est acceptable si < m₀ + 2,33

Comparaison d’une fréquence à une norme p₀

Le problème est le même que pour une moyenne

Si l’on s’intéresse à la fréquence p de la modalité l d’un caractère.

Si X est le nombre d’individus pour lesquels le caractère est l dans un échantillon de grandeur N .

X suit une loi binomiale B(N, p₀) que l’on approche par une loi normale dés que N est assez grand.

Pour ce qui est de f = X / N à la limite sa loi normale est N(p0 ,

Exemple

N = 100 et X = 12 (f constatée = 0,12).

Peut – on admettre que p = 1/6 au risque de 5% (comparaison à p₀ = 1/6 = 0,17).

Si l’on admet que la population suit une loi B(100 ; 0,17) on peut l’approcher par la loi normale

N(0,17 ; 0,0395) et au risque de 5% on devrait avoir

0,17 – 1,96(0,0395) < f < 0,17 + 1,96(0,0395)

soit 0,093 < f < 0,24 et comme f = 0,12 l’hypothèse est admissible.

Comparaison de deux échantillons

Il s’agit de savoir si avec un risque de r% deux échantillons ont été prélevés dans la même population.

Rappel :

Soit n variables aléatoires X_i indépendantes chacune suivant une loi normale d’espérance mathématique m_iet d’écart type s_i

Σ X_isuit une loi N(Σ m_i ; )

fréquences

1^er échantillon effectif N1 , fréquence mesurée f1

2^e échantillon effectif N2 , fréquence mesurée f2

Si p₀ est la proportion dans la population f d’un l’échantillon issu de la population suit une loi normale de type N(p₀ , )

Soit d = |f1 – f2| la différence entre les deux fréquences

On estime l’écart type de d par

Si N1 > 30 et N2 > 30 on fait l’approximation normale. d doit suivre une loi N(0 , s_d)

Donc si les 2 échantillons proviennent de la même population, au risque de r% on doit avoir

0 – D_r s_d < d < 0 + D_r s_d(avec par exemple D_r = 1,96 pour r% = 5%)

Moyennes

1^er échantillon effectif N1 , moyenne mesurée m1 , écart type mesuré s1

2^e échantillon effectif N2 , moyenne mesurée m2 , écart type mesuré s2

Si m est la moyenne et s l’écart type dans la population, la moyenne des échantillons tirés de cette population suit une loi normale de type N( m, )

Soit d = |m1 – m2| la différence entre les deux moyennes

Si N1 < 30 et N2 < 30 et que les populations d’origines sont distribuées normalement

On applique une loi de Student à n1 + n2 – 2 degrés de liberté

Si N1 > 30 et N2 > 30 que les populations d’origine soient normales ou pas, on fait l’approximation normale.

S_d =

d doit suivre une loi N(0 , S_d)

Donc si les 2 échantillons proviennent de la même population, au risque de r% on doit avoir

0 – D_r S_d < d < 0 + D_r S_d(avec par exemple D_r = 2,58 pour r% = 1%)

Comparaison de deux distributions

Test du c2

On utilise ce test pour juger

 De l’adéquation d’une population à une distribution type (exemple loi de poisson)

 De l’homogénéité de 2 populations soupçonnées de suivre une même loi

 De l’indépendance de deux populations

Méthode

On répartit les valeurs de l'échantillon (de taille N) dans k classes distinctes et on calcule les effectifs de ces classes. Si l’on regroupe certaines classes pour les doter d’un effectif plus important, k diminue en conséquence.
Appelons o_i (i=1,...,k) les effectifs observés et T_i les effectifs théoriques.

On calcule

La statistique donne une mesure de l'écart existant entre les effectifs théoriques attendus et ceux observés dans l'échantillon. En effet, plus sera grand, plus le désaccord sera important. La coïncidence sera parfaite si =0.

Le degré de liberté (d) de la variable soumise au test (o_i) est obtenu en soustrayant à k le nombre de relations entre les k valeurs qui ont été utilisées dans le paramétrage de la loi de référence.

Par exemple si on a une relation de type Σ o_i = n (loi B(n,p)) le degré de liberté devient k – 1

Si, de plus on a eu besoin de calculer la moyenne m des o_i pour tester l’adéquation à la loi B(n,p) (p déduit de m) ou P(m) (m paramètre de la loi de Poisson) le degré de liberté deviendra k – 2.

La table donne, pour d degrés de libertés, une fonction de répartition de : la probabilité pour que soit plus grand qu’une valeur donnée q.

En situant dans l’échelle des valeurs de q on sait que a entre x% et y% de chances d’être dépassé. Plus la probabilité de d’être dépassé est grande, plus l’adéquation de la loi à la série est judicieuse

Pour 5 degrés de libertés
P(X²> q)	q
0.9	1,61
0.8	2,34
0.7	3
0.5	4,35
0.3	6,06
0.2	7,29
0.1	9,23
0.05	11,07
0.02	13,39
0.01	15,08

Exemple

On a lancé un dé 90 fois et on a obtenu les issues 1 à 6 (k=6) avec les effectifs suivants: 12, 16, 20, 11, 13, 18. Si le dé n'est pas pipé (notre hypothèse), on attend comme effectifs moyens théoriques 15 pour toutes les issues. On pose = Q

Pour k-1=5 degrés de liberté on trouve dans la table Q entre les valeurs

0.7	3
0.5	4,35

Ce qui signifie que la probabilité pour Q d’être dépassé est un peu supérieure à 50% . L’adéquation de la loi à la série n’est pas fameuse.

Fonction de répartition de la loi du c² pour 5 degrés de liberté.

Exemples :

Les Oi sont les effectifs des classes pour lesquelles X = Xi .

On a une série de 7 valeurs Oi avec pour seule relation Σ O_i = 100.

Donc d = 7 – 1 = 6 degrés de liberté.

On nous demande si on peut ajuster cette série par une loi B(100 ; 0,04).

On calcule les 7 effectifs théoriques correspondants T_i.

Puis . On trouve = 0,45

Dans la table pour d = 6 on lit P( > 2,2) = 0,9

Donc à fortiori P( > 0,45) > 0,9

On en déduit qu’on peut sans problème ajuster la série par la loi B(100 ; 0,04).

Pour la même série, on calcule la moyenne m de l’échantillon.

m = 3,9 pour un effectif de 100.

On nous demande si l’on peut ajuster la série par la loi B(100 ; 0,39)

Cette fois on a 2 relations entre les paramètres de la loi et les données:

Σ o_i = 100

et 0,39 = (Σ o_iX_i ) / 100

Donc il faudra regarder dans la table de d =7 – 2 = 5 degrés de liberté.

Où l’on trouvera P( > 1,6) = 0,9

Et comme nous calculerons un de 0,4 nous en déduirons que là aussi l’ajustement est acceptable.

Puis pour la même série on peut tenter l’ajustement par une loi normale.

N(m , s) .

Pour cela il faut calculer s ce qui nous donne une 3^e relation aux côtés de

Σ o_i = 100 et 0,39 = (Σ o_iX_i ) / 100

On aura donc d = 7 – 3 = 4 degrés de libertés.

Dans la table on trouvera P( > 1,06) = 0,9

On voit que plus l’ajustement est ambitieux (accroissement du nombre de paramètres exigés par la loi) plus l’exigence en est sévère (plus le doit être faible)