Statistiques : notions de
base
Collecte
et présentation des données
Vocabulaire
Statistique : ensemble de données chiffrées
sur un ensemble nombreux
Population : ensemble sur lequel portent les
statistiques (humains, automobiles,
objets sortant d’une usine)
Individu : élément d’une
population
Caractères : caractéristiques de la
population soumises à l’étude (couleur des yeux, durée de vie,…)
modalités : valeurs que
peut prendre le caractère (caractère sexe : modalités masculin et féminin)
modalité qualitative : modalité non
mesurable comme la couleur des yeux ou le sexe
modalité quantitative : exprimée par
un nombre appelé variable statistique
variable discrète :
prenant des valeurs nettement distinctes les unes des autres
nombre d’enfants d’un couple Î { 0 , 1 , 2, ……, 30}
variable continue : pouvant prendre toutes
les valeurs dans un intervalle donné
Taille en mètres d’un
individu de 20 ans Î [ 0,5 ; 2,5]
Classe : sous ensemble de la population pour
lequel les caractères prennent une modalité donnée
classe
des humains qui ont les yeux verts et les cheveux bruns
classe
des familles qui ont 3 télévisions
classe
des échantillons de fil de fer dont la charge de rupture se situe entre 10 et
15 kg
classe
des élèves qui ont obtenu la note 12 à un devoir
Effectif : nombre d’éléments d’un ensemble
dénombrable
Effectif global :
nombre total des éléments soumis à l’étude (30 élèves ont passé l’examen)
Effectif d’une classe :
nombre des éléments d’une classe (5 élèves
ont eu la note 12)
Fréquence d’une modalité ou d’une classe :
fraction ou pourcentage que représente l’effectif de la classe par rapport à
l’effectif global. (5 élèves sur 30 (ou
16,66%) ont eu la note 12) .
La fréquence peut aussi être
exprimée par un nombre décimal compris entre 0 et 1: par exemple 16%
= 0,16.
La fréquence (0.) de 12 dans
l’effectif global est 0,16.
Tableaux
et graphiques
Diagramme en bâtons
Diagramme à barres
Histogramme
Diagramme à bandes en fréquences
Diagramme à secteurs ou
« fromage »
Etude
des séries statistiques simples
L’effectif
global de la population soumise à l’étude est N
Le caractère
étudié est unique.
La modalité est quantitative
(variable numérique qui prend les valeurs X1 , X2 ,
…..Xt).
En tout t valeurs qui peuvent
être discrètes ou groupées.
Cela signifie que pour le caractère étudié
on a déterminé t classes recouvrant
la totalité de l’effectif.
Dans la classe
numéro i ,
le caractère étudié prend la valeur Xi
Ces
valeurs peuvent être discrètes :
X1 = 12 , X2
= 15 … Dans la classe 1 : X =
12 Dans la classe 2 : X = 15 ….
Ou constituer des intervalles de valeurs
continues :
Dans la classe 1 X
varie entre 0 et 15 , Dans la classe 2 X varie entre 15 et 30 ……….
L’effectif de
la classe i est Ni
On a compté N1 éléments pour lesquels X
= X1
N2 éléments pour
lesquels X = X2
La fréquence
(0.) de la classe i est fi = .
Pour avoir la fréquence en % : Fi
= fi x 100
On peut donc constituer le tableau suivant
Classe |
1 |
2 |
…… |
t |
TOTAL |
Valeur du caractère X |
X1 |
X2 |
…… |
Xt |
|
Effectif de la classe |
N1 |
N2 |
……. |
Nt |
N |
Fréquence (0.) de la classe |
f1 |
f2 |
……. |
ft |
1 |
Fréquence (%) de la classe |
F1 |
F2 |
……. |
Ft |
100 % |
X enfants |
0 |
1 |
2 |
3 |
4+ |
total |
N couples |
50 |
40 |
20 |
10 |
8 |
128 |
fréquence |
0.39 |
0.31 |
0.16 |
0.08 |
0.06 |
1 |
Moyenne
arithmétique
Si la variable mesurée est X sa moyenne est notée
.
L’effectif global étant N , on a effectué
N mesures de X (ou prélevé N valeurs
de X) qu’on peut regrouper en t classes pour lesquelles on a trouvé
la même valeur de X .
La classe numéro i a un effectif Ni
et dans cette classe la valeur de X
est Xi
Dans une classe i la somme des mesures effectuées est NiXi
La somme totale des N mesures effectuées est donc
Par définition
La moyenne est une valeur telle qu’en la multipliant par N je trouve la somme des mesures
effectuées pour X sur toute la population : N
= åNiXi.
Il revient au même de dire
que si pour chacun de N individus de
la population, la valeur de X était , la somme de toutes les valeurs mesurées
pour X ne changerait pas.
On a donc par
définition :
=
å (Xi )
= å (Xi fi ) = å (Xi )
On peut exprimer la moyenne
en fonction de l’effectif Ni des classes ou en fonction de leur fréquence.
X enfants |
0 |
1 |
2 |
3 |
4 |
total |
N couples |
50 |
40 |
20 |
10 |
8 |
128 |
fréquence |
0.39 |
0.31 |
0.16 |
0.08 |
0.06 |
1 |
Moyenne = 1,11
Si les classes correspondent
à un intervalle de valeurs (valeurs groupées) ?
Soit on connaît la moyenne de
chaque classe et on prend Xi = cette moyenne
Soit on ne la connaît pas et
on prend pour Xi la moyenne des 2 bornes
de l’intervalle (le centre de classe)
Par exemple pour X entre 30 et 40 on prend Xi = 35.
Le mode
ou classe modale :
C’est la valeur que la
variable statistique X prend le plus
fréquemment.
Quand la variable est
discrète et les valeurs non groupées le mode est le Xi de la classe qui a le plus grand effectif.
X enfants |
0 |
1 |
2 |
3 |
4+ |
total |
N couples |
50 |
40 |
20 |
10 |
8 |
128 |
fréquence |
0.39 |
0.31 |
0.16 |
0.08 |
0.06 |
1 |
Mode 0
Mais quand les valeurs sont
groupées, la
classe modale est celle qui a le plus grand effectif par unité de
largeur de la plage couverte par la variable.
Par exemple soit une
population partitionnée en 2 classes :
une classe 1 où X varie de
10 à 12 (largeur 2) avec un effectif de 20 (effectif 10 par unité de largeur)
une classe 2 où X varie de 13 à 16 (largeur 3) pour
un effectif de 27 (effectif 9 par unité de largeur) .
La classe 1 est la classe
modale bien que l’effectif soit plus important dans la classe 2 .
Effectifs
ou fréquence cumulée.
On range les classes par
valeur croissante ou décroissante de X .
Puis pour chaque valeur Xi de
X on se pose les questions suivantes
Quel est l’effectif pour
lequel X < Xi ? On le note N(X < Xi) et il correspond à une
fréquence F(X < Xi)
Quel est l’effectif pour
lequel X > Xi ? On le note N(X > Xi) et il correspond à une
fréquence F(X > Xi)
On parle d’effectifs ou de
fréquences cumulés, « moins de … » ou
« plus de …. ».
X enfants |
0 |
1 |
2 |
3 |
4 |
total |
N couples |
50 |
40 |
20 |
10 |
8 |
128 |
fréquence |
0.39 |
0.31 |
0.16 |
0.08 |
0.06 |
1 |
N (X < Xi) |
0 |
40 |
90 |
110 |
120 |
|
F (X < Xi) |
0 |
0.39 |
0.70 |
0,86 |
0,94 |
|
N(X > Xi) |
78 |
38 |
18 |
8 |
0 |
|
F(X < Xi) |
0,61 |
0,30 |
0,14 |
0,06 |
0 |
|
On peut aussi définir le
cumul par N (X ≤ Xi) ou F(X ≥
Xi) par exemple .
La
médiane
C’est la valeur Xi pour
laquelle ni N(X < Xi) ni N(X > Xi) ne sont supérieurs à la moitié de l’effectif.
Moins de la moitié de
l’effectif a un Xi supérieur ou
inférieur à la médiane.
X enfants |
0 |
1 |
2 |
3 |
4 |
total |
N couples |
50 |
40 |
20 |
10 |
8 |
128 |
fréquence |
0.39 |
0.31 |
0.16 |
0.08 |
0.06 |
1 |
N (X < Xi) |
0 |
40 |
90 |
110 |
120 |
|
N(X > Xi) |
78 |
38 |
18 |
8 |
0 |
|
Médiane = 1 car N(X > 1) = 38 et N (X < 1) = 40
les deux étant inférieurs à 128/2 = 64 .
Autrement dit si on numérote
tous les individus de 1 à N par X croissant
(ou décroissant) , la médiane est le Xi de l’individu
numéroté N/2 si N est pair ou (N+1) / 2 si N est impair.
Médiane = 1 car
si l’on numérote les individus de 1 à 128 de telle façon que leur numéro
croisse avec leur Xi, l’individu no 64 (sur 128) appartiendra à la
classe pour laquelle Xi = 1 .
Dispersion
X série 1 |
98 |
99 |
100 |
101 |
102 |
N série 1 |
1 |
1 |
1 |
1 |
1 |
X série 2 |
80 |
90 |
100 |
110 |
120 |
N série 2 |
1 |
1 |
1 |
1 |
1 |
Série 1 : moyenne 100 , médiane 100
Série 2 : moyenne 100, médiane 100
Ces 2 séries ont même médiane
et même moyenne mais la seconde (amplitude de variation de X = 120 – 80 = 40 ) est beaucoup plus dispersée que la première (amplitude
de variation de X = 102 – 98 = 4) .
Ecart
absolu moyen
On mesure les écarts de
chaque valeur Xi de la série à la
moyenne : il s’agit de Xi
–
X série 1 |
98 |
99 |
100 |
101 |
102 |
N série 1 |
1 |
1 |
1 |
1 |
1 |
Xi – |
–2 |
–1 |
0 |
+1 |
+2 |
X série 2 |
80 |
90 |
100 |
110 |
120 |
N série 2 |
1 |
1 |
1 |
1 |
1 |
Xi – |
–20 |
–10 |
0 |
+10 |
+20 |
Si l’on prenait la moyenne
arithmétique de ces écarts on trouverait 0 ce qui ne rendrait pas compte de la dispersion . Aussi on fait la moyenne des valeurs absolues | Xi – | de ces écarts :
C’est l’écart absolu moyen.
Série 1 :
Série 2 :
On trouve un écart absolu
moyen 10 fois plus fort pour la 2e série, ce à quoi on pouvait
s’attendre.
Variance et Ecart type.
Plutôt que prendre les
valeurs absolues, pour rendre compte de la dispersion, on élève les écarts à la
moyenne aux carré ce qui supprime l’effet du signe .
La variance est la moyenne
des carrés des écarts à la moyenne :
Variance :
Et pour gommer un peu l’effet
du carré, on définit l’écart type qui est la racine carrée de la
variance :
Ecart type
X série 1 |
98 |
99 |
100 |
101 |
102 |
N série 1 |
1 |
1 |
1 |
1 |
1 |
Xi – |
–2 |
–1 |
0 |
+1 |
+2 |
(Xi – )2 |
4 |
1 |
0 |
1 |
4 |
X série 2 |
80 |
90 |
100 |
110 |
120 |
N série 2 |
1 |
1 |
1 |
1 |
1 |
Xi – |
–20 |
–10 |
0 |
+10 |
+20 |
(Xi – )2 |
400 |
100 |
0 |
100 |
400 |
Série 1 : V = 2 s ==
1,4 (e = 1,2)
Série 2 : V = 200 s ==
14 (e = 12)
Au contraire de l’écart
absolu moyen, la variance et l’écart type sont très utilisés en statistique
pour rendre compte de la dispersion d’une série.
Théorème de Koenig :
Dans le calcul de la
variance :
On peut remplacer (Xi – )2 par Xi2
-2Xi
+2
Au dénominateur on a donc å Ni (Xi2 -2Xi
+2)
= å NiXi2 – å2NiXi + 2åNi
= å NiXi2 – 2åNiXi + 2N
et comme å NiXi = N
= å NiXi2 – N2.
Donc V =
V = moyenne des carrés – carré de la moyenne |
Ce qui simplifie en général
le calcul de la variance et de l’écart type
Position
Quartiles
,
déciles, centiles
L’effectif cumulé maximum est
N .
En cumulant l’effectif des
classes å Ni dans le sens des
X croissants ,
il arrive un moment où je franchis le seuil correspondant à une fraction donnée
de la population N / k (k
fractionnaire). Ce franchissement se produit dans une classe et à cette classe
correspond une valeur de X dont le
nom dépend du seuil franchi . Voici :
Le seuil franchi
Le nom de la variable de la classe correspondante
N/4 2N/4 3N/4 1er
, 2e , 3e quartiles (au 2e correspond la médiane)
N/10 2N/10
… 9N/10 1er
, 2e , …., 9e
déciles
(au 5e correspond la médiane)
N/100 2N/100 ..
99N/100 1er , 2e , …, 99e centiles (au 50e correspond la
médiane)
Par exemple, la valeur de la variable X dans la
classe dont l’effectif, en le cumulant à l’effectif des classes de X inférieur franchit la ligne des 8N/10 (huit dixièmes de l’effectif global) est appelée 8e décile.
Nombre d’enfants, effectifs cumulés
On a interrogé N = 128 couples pour savoir leur nombre
d’enfants.
En ordonnée on a porté
l’effectif cumulé. Sur ce diagramme, on voit comment chacune des 5 classes
contribue au cumul. A chaque classe correspond une couleur et la légende donne
le nombre d’enfants correspondant.
La médiane est le nombre
d’enfants de la classe contenant le point d’ordonnée N/2 soit 64.
Ce point appartient à la
classe bleue dont le nombre d’enfants est 1
(X = 1) .
Donc la médiane est 1
.
Nombre
d’enfants déciles
Cette fois on a porté en
ordonnée le pourcentage de l’effectif
cumulé.
Ainsi, les graduations de 10%
en 10% correspondant aux déciles.
Le décile est la valeur de la
variable « X enfants » dans la classe contenant la fraction exacte de
l’effectif global recherchée (par exemple 50% pour le 5e décile
tombe dans la zone bleue où X = 1. Le 5e décile est 1).
1er décile 10% = 0
enfant
2e décile 20% = 0 enfant
3e décile 30% = 0 enfant
4e décile 40% = 1
enfant
5e décile 50% = 1
enfant
6e décile 60% = 1
enfant
7e décile 70% = 2
enfants
8e décile 80% = 2
enfants
9e décile 90% = 3
enfants
Il faudrait diviser en
centiles (10 fois plus de graduations)
pour que le nombre 4 apparaisse aux alentours du centile 96.
Si les seules graduations
apparaissant sur le graphique étaient 25%, 50%, 75% elles correspondraient aux
quartiles.
Etude
des séries statistiques doubles
On peut étudier une
population non pas selon un caractère comme nous venons de le faire mais selon n caractères.
Dans ce qui suit nous nous bornerons
à 2 caractères ce qui donne une série statistique double.
Par exemple on peut examiner
une population humaine sous l’angle de la couleur des yeux et de la teinte des
cheveux.
On peut étudier une
corrélation entre le poids et la consommation quotidienne de calories. Entre la
période de rotation des planètes autour du soleil et leur distance à celui-ci.
Nous appellerons le 1er
caractère X et pour un individu donné il pourra prendre
les valeurs X1, X2 , ..Xn
Nous appellerons le 2e caractère Y et pour un individu donné
il pourra prendre les valeurs Y1, Y2 , ..Yp.
Ce qui fait qu’il y a np combinaisons
possibles pour les 2 caractères et donc en théorie np classes élémentaires différentes d’individus (certaines pouvant
être vides).
Bien sûr, il est impossible
qu’un individu appartienne à plusieurs classes élémentaires.
Nous appellerons Cij la classe correspondant à X = Xi et Y = Yj et nous noterons son effectif Nij
On a effectif global ce que l’on peut aussi noter
Les séries doubles sont présentées dans des tableaux
à double entrée lorsque les variables sont discrètes ou groupées:
X Y |
X1 |
X2 |
… |
Xn |
Y1 |
N11 |
N21 |
|
Nn1 |
Y2 |
N12 |
N22 |
|
Nn2 |
…. |
|
|
|
|
Yp |
N1p |
N2p |
|
Nnp |
Mais on peut aussi définir
des classes non élémentaires par regroupement, par exemple la classe pour
laquelle X = X1 (indépendamment de Y). L’effectif de cette nouvelle classe est
le cumul de l’effectif des classes pour lesquelles X = X1 (colonne X1 du tableau) .
Quand les variables sont continues et (ou) qu’on
prélève n échantillons au hasard pour tenter de voir si une loi mathématique
lie X et Y , on utilise un tableau à 2 lignes ou 2
colonnes :
X |
0,5 |
1 |
1,5 |
2 |
2,5 |
3 |
3,5 |
4 |
4,5 |
5 |
Y |
1,2 |
3,2 |
4 |
6 |
8,3 |
9,1 |
10,9 |
12,4 |
13,1 |
15,3 |
C’est plutôt à ce type de
série double que nous allons nous intéresser maintenant
Ajustements,
corrélations
Si nous plaçons les points de
la série précédente dans un repère cartésien, il semble qu’ils s’alignent à peu
prés ce qui suggère qu’il pourrait y avoir entre Y et X une relation de type Y
=aX ou Y = aX+b
Tout le problème est de
savoir
1) S’il est judicieux de voir
une droite d’équation Y = aX + b dans ce
graphique ?
2) Si c’est le cas, comment
faire pour déterminer a et b les paramètres qui caractérisent la droite ?
Le
test de corrélation linéaire
Covariance
Il s’appuie sur le calcul de
la covariance
de X et de Y qui est définie par
La covariance est à une série
double ce que la variance est à une série simple.
D’ailleurs si dans la formule
on fait X = Y, on retrouve la formule de la variance.
En ce qui concerne notre
série on a
X |
0,5 |
1 |
1,5 |
2 |
2,5 |
3 |
3,5 |
4 |
4,5 |
5 |
= 2,75 |
Y |
1,2 |
3,2 |
4 |
6 |
8,3 |
9,1 |
10,9 |
12,4 |
13,4 |
15,3 |
= 8,38 |
XiYi |
0,6 |
3,2 |
6 |
12 |
20,75 |
27,3 |
38,15 |
49,6 |
60,3 |
76,5 |
å = 294.4 |
Cov (X, Y) = 29.44 – 23,045 = 6.395
Coefficient
de corrélation linéaire
La covariance va maintenant
servir au calcul du coefficient de corrélation linéaire r défini par
Nous avons donc besoin des
écarts types de X et de Y (sX
et sY )
X |
0,5 |
1 |
1,5 |
2 |
2,5 |
3 |
3,5 |
4 |
4,5 |
5 |
= 2,75 |
X2 |
0,25 |
1 |
2,25 |
4 |
6,25 |
9 |
12,25 |
16 |
20,25 |
25 |
å= 96.25 |
Y |
1,2 |
3,2 |
4 |
6 |
8,3 |
9,1 |
10,9 |
12,4 |
13,4 |
15,3 |
= 8,38 |
Y2 |
1,44 |
10,24 |
16 |
36 |
68,89 |
82,81 |
118,81 |
153,76 |
179,56 |
234,09 |
å= 901,6 |
sX = sY = 4,4649
sX sY = 6.411
r = = 0.997
r doit être compris entre –1 et +1 Plus r est proche de 1 (droite avec a > 0) ou de –1 (droite avec a < 0) plus Y
et X ont des chances d’être
liés par une relation de type Y = aX +b (a et b constantes, b
peut être nul). Plus r est proche de 0 moins X et Y ont des chances
d’être liés par une relation de type Y
= aX + b. On considère que l’approximation d’une série double par une relation
de type linéaire ou affine est acceptable pour 0,7
< |r | ≤ 1 bonne pour 0,95 < |r | ≤ 1. Dans notre exemple on peut dire qu’elle est excellente. |
La
méthode des moindres carrés
Il s’agit maintenant de
définir la droite y = aX + b qui épouse le mieux la série de points que nous avons situés
dans le repère cartésien.
y est
le y estimé tandis que Y est le y observé.
| Yi – yi |= |
Yi – aXi – b | représente la distance di
entre le point expérimental (Xi , Yi) et le
point de la droite qui a l’abscisse Xi
.
Pur s’affranchir du signe et
des valeurs absolues, on élève au carré et on considère que å di2 doit être minimum
S = å ( Yi – aXi – b )2 qui est une fonction de a et de b variables doit être minimum
S = å (Yi2 + a2Xi2 + b2
–2aYiXi –2bYi + 2abXi) = åYi2 + a2åXi2
+Nb2 –2aå(XiYi) -2båYi +2abåXi
Toutes les sommes et N sont
connus d’après la série.
[Dans notre exemple
S = 901.6 + 96,25a2
+ 10b2 – 2(294,4)a –2(8,38)b +2(2,75)ab
doit être minimum]
On considère d’abord S comme un trinôme en b : mb2
+nb+p (m , n et p étant fonctions de a)
et on trouve qu’il doit être minimum pour
b = –
a |
Ensuite b
étant déterminé, on considère S
comme un trinôme en a et on trouve qu’il est minimum pour
On trouve a =
et en divisant par n dénominateur et numérateur
Dans notre exemple
a = =3,10
b = 8,38 –
(3,10)2,75 = 0,14
L’équation de droite trouvée
est donc y = 3,1x + 0,14
En réalité nous nous sommes vaguement
appuyés sur la droite y = 3X mais il
est probable que la droite trouvée est plus proche en moyenne de notre série de
points que la droite y = 3x.
Contrôle :
l’autre droite
Dans notre exemple, nous
avons supposé les valeurs de X fiables et nous avons ajusté les valeurs de Y .
Nous devons maintenant faire
le contraire et essayer de trouver la droite d’équation x = a’Y +b’ qui se rapproche le plus de nos points
On a
b’ = –
a’
Dans notre exemple
a’ = = 0.32
b’ = 2,75 – (0.32)8.38 = 0,06
On passe bien
approximativement de y = 3x à x =
En théorie en cas de relation
linéaire ou affine on devrait avoir a’ =
Et comme on démontre
facilement que
r2 = a.a’ |
Cela explique que r doit être
proche de 1 si l’approximation par une droite est bonne.
Cas des
données groupées
X Y |
X1 |
X2 |
… |
Xn |
Y1 |
N11 |
N21 |
|
Nn1 |
Y2 |
N12 |
N22 |
|
Nn2 |
…. |
|
|
|
|
Yp |
N1p |
N2p |
|
Nnp |
On peut sans problème
considérer chaque variable indépendamment et calculer par exemple la moyenne,
la variance ou l’écart type de X (ou de
Y) .
On peut aussi calculer ligne
par ligne la moyenne des X pour Y donné qu’on appelle moyenne
conditionnelle de X pour Y donné qu’on note Y
et tracer la courbe
de régression de X en Y (Yi ,Y)
On procède aussi par colonne,
on calcule les moyennes conditionnelles X et on peut tracer la courbe de régression de Y
en X (Xi, X)
Ensuite on peut
éventuellement chercher une approximation linéaire.
Ajustements
non linéaires
Si l’on soupçonne que Y = a Ln X par exemple on peut toujours
pratiquer le changement de variable
Z = Ln X
Et on peut procéder à un ajustement
linéaire sur la série double Y, Z
après avoir calculé la série Z .
En effet ,
on devrait avoir Y = a Z (relation
linéaire) .