acpstid2 copy .pdf



Nom original: acpstid2_copy.pdf

Ce document au format PDF 1.2 a été généré par TeX output 2004.12.16:1115 / dvipdfm 0.13.2c, Copyright © 1998, by Mark A. Wicks, et a été envoyé sur fichier-pdf.fr le 28/12/2011 à 21:55, depuis l'adresse IP 41.104.x.x. La présente page de téléchargement du fichier a été vue 1563 fois.
Taille du document: 374 Ko (35 pages).
Confidentialité: fichier public


Aperçu du document


Statistique
´matiques pour l’entreprise
Master 2 : Mathe
´ Paris 6
Universite

Arnak S. DALALYAN

Table des mati`eres
Chapitre 1. SAS et Statistique Descriptive
1.1. Introduction au logiciel SAS
1.2. Statistique descriptive unidimensionnelle

5
5
6

Chapitre 2. Analyse en composantes principales
2.1. Donn´ees multivari´ees
2.2. L’id´ee de l’Analyse en composantes principales (ACP)
2.3. ACP : cadre th´eorique
2.4. ACP : cadre empirique
2.5. Etude des corr´elations : cadre th´eorique
2.6. Etude des corr´elations : cadre empirique
2.7. Repr´esentation graphique des r´esultats de l’ACP
2.8. Limites d’utilisation de l’ACP

9
9
10
11
13
14
16
17
19

Chapitre 3. R´egression lin´eaire multivari´ee
3.1. Le probl`eme d’estimation de r´egression multivari´ee
3.2. M´ethode des moindres carr´es
3.3. Propri´et´es statistiques de la m´ethode des moindres carr´es
3.4. R´egression lin´eaire normale
3.5. Application au probl`eme de pr´evision
3.6. Application aux tests sur le param`etre θ
3.7. Propri´et´es empiriques de l’EMC et coefficient de d´etermination
3.8. S´election de mod`ele : crit`ere de Mallow
3.9. Analyse de variance `a un facteur (One way ANOVA)

21
21
22
24
25
26
27
30
31
33

3

1

SAS et Statistique Descriptive
1.1. Introduction au logiciel SAS
Le but de cette section est de d´ecrire les bases de l’utilisation du logiciel SAS destin´e `a effectuer
un traitement statistique des donn´ees.
SAS = Statistical Analysis System

Le logiciel SAS contient un language de programmation qu’on va d´ecrire ci-dessous. Les fichiers
contenant le code d’un programme SAS ont pour terminaison .sas. Pour ex´ecuter le programme
SAS, il faut soumettre (submit) le fichier contenant le code `a la compilation. Le r´esultat sera affich´e
et un fichier ayant pour terminaison .log et contenant un rapport sur les erreurs eventuelles sera
cr´e´e. Pour traiter des donn´ees, il faut les enregistrer dans un fichier ayant la terminaison .dat.
On conviendra que dans une table de donn´ees les colonnes sont les variables et les lignes sont les
valeurs observ´ees de chaque variable.
Tout programme SAS contient deux ´etapes : l’´etape (dite ´etape DATA) qui d´eclare et d´ecrit
les donn´ees et l’´etape PROC qui d´eclare les proc´edures utilis´ees pour traiter les donn´ees. Un
programme SAS peut avoir plusieurs d´eclarations DATA et PROC. Chaque d´eclaration DATA ou
PROC doit se terminer par la d´eclaration RUN. Un programme SAS, peut contenir ´egalement des
instructions sp´ecifiant les options de l’affichage et de l’impression des r´esultats. Ces instructions
peuvent ˆetre incluses dans un endroit quelconque du code. Toute instruction est suivie d’un pointvirgule ’ ;’.
L’exemple le plus simple et le plus utile de d´eclaration DATA est le suivant :
'
1.
2.
3.
4.
5.
6.
7.
8.

DATA EXEMPLE1 ;
INFILE ’/home/p6ens/dupont/tpsa.dat’ ;
INPUT Taille Poids Sexe $ Age ;
LABEL Taille=’Taille (en cm)’ Poids=’Poids (en kg)’ ;
RUN ;
OPTIONS LINESIZE=70 PAGESIZE=66 NODATE ;
TITLE ;
FOOTNOTE ’Mon Premier Programme’ ;

&

$

%

Dans cet exemple, on commence par cr´eer la table nomm´ee EXEMPLE1. On d´eclare ensuite que
les donn´ees de cette table se trouvent dans le fichier tpsa.dat du repertoire /home/p6ens/dupont/.
5

6

1. SAS ET STATISTIQUE DESCRIPTIVE

La troisi`eme ligne indique que la premi`ere colonne du fichier contient les valeurs de la variable
Taille, la deuxi`eme les valeurs de la variable Poids, etc. Le fait que la variable Sexe est suivie de
$ d´esigne le caract`ere qualitatif de cette variable. La quatri`eme ligne permet de d´ecrire clairement
les variables. Elle est tr`es utile lorsque la description d’une variable est longue. Par exemple, si
la variable d’int´erˆet est la dur´ee du travail, on peut la d´eclarer dans l’instruction INPUT comme
variable duree et ajouter l’instruction LABEL duree=’Duree du travail’. Ainsi, `a chaque impression de table de donn´ees on aura Duree du travail au lieu de duree en entˆete de colonne
correspondante, `a condition que la proc´edure PRINT soit appel´ee avec l’option LABEL. On termine
cette instruction DATA par la commande RUN. Les trois derni`eres lignes contiennent les options
d’affichage :
– afficher 70 caract`eres par ligne,
– afficher 66 lignes par page,
– ne pas afficher la date,
– ne pas afficher de titre,
– afficher Mon Premier Programme en bas de chaque page.
On termine cette section par donner un exemple d’´etape PROC.

1. PROC PRINT LABEL DATA=EXEMPLE1 NOOBS ;
2.
VAR Sexe Poids ;
3. RUN ;

µ

³

´

La premi`ere ligne appelle la proc´edure PRINT, dont le but est d’afficher les donn´ees, avec les
options LABEL, DATA et NOOBS. On a d´ej`a expliqu´e la fonction de l’option LABEL. L’option DATA
indique la table de donn´ees `a afficher. Si cette option n’est pas sp´ecifi´ee, la derni`ere table d´eclar´ee
sera affich´ee. L’option NOOBS (provenant de NO OBServations) permet de ne pas afficher la colonne
contenant les num´eros des observations. La deuxi`eme ligne indique que seules les variables Sexe
et Poids doivent ˆetre affich´ees.

1.2. Statistique descriptive unidimensionnelle
Dans cette section, on se place dans le cadre suivant : on dispose n observations x1 , . . . , xn
d’une variable quantitative X. Le but est de donner la d´efinition des quantit´es statistiques et de
d´ecrire leur champs d’utilisation. On se concentre surtout sur les quantit´es statistiques calculables `a
l’aide de la proc´edure UNIVARIATE de SAS (avec l’option VARDEF=N, indiquant que le d´enominateur
dans le calcul de l’´ecart-type est n).
On appelle souvent la suite x1 , . . . , xn ´echantillon ; n est alors la taille de cet ´echantillon.
`tres de position
Parame
– la moyenne (mean) : x
¯ = (x1 + . . . + xn )/n,
– la m´
ediane (median) : la valeur qui d´ecoupe l’´echantillon en deux parties comportant le
mˆeme nombre d’´el´ements,
– le mode (mode) : la valeur observ´ee la plus fr´equente.
`tres de variabilite
´ ou de dispersion
Parame






¡ Pn
¢1/2
l’´
ecart-type (std deviation) : σ
ˆ = n1 i=1 (xi − x
¯)2
,
la variance (variance) : σ
ˆ2,
l’´
etendue (range) : la diff´erence entre les valeurs extrˆemes,
l’´
ecart interquartile (interquartile range) : la diff´erence entre le 1er et le 3`eme quartiles,
le coefficient de la variation (coeff variation) : = 100 · σ
ˆ /¯
x.

1.2. STATISTIQUE DESCRIPTIVE UNIDIMENSIONNELLE

7

`tres de forme
Parame
Pn
– le coefficient d’asym´
etrie (skewness) : α = nˆ1σ3 i=1 (xi − x
¯)3 . Si la distribution est
sym´etrique, α = 0. Si α < 0, on dit qu’il y a une asym´etrie `a gauche et cela signifie que la
moyenne est plus petite que la m´ediane (c’est-`a-dire, le nombre d’observations sup´erieures
`a la moyenne est plus grand que le nombre d’observations inf´
erieures `a la moyenne).
P
n
– le coefficient d’applatissement (kurtosis) : β = nˆ1σ4 i=1 (xi − x
¯)4 − 3. C’est une
quantit´e mesurant l’´epaisseur des queues de la distribution. Si β = 0, la distribution a des
queues gaussiennes. Pour β > 0, les queues sont plus ´epaisses que celles de la loi normale.
Pour β < 0, les queues sont plus minces (ou plus l´eg`eres) que celles de la loi normale.
Statistiques de test et p-values
Lorsqu’on effectue la proc´edure UNIVARIATE de SAS, les deux hypoth`eses suivantes sont automatiquement test´ees : m = µ0 et M ed = µ0 . La valeur de µ0 par d´efaut est 0, mais on peut la
changer en sp´ecifiant l’option MU0=.
Afin de tester l’hypoth`ese
u m est la moyenne, la proc´edure UNIVARIATE utilise la
√ m = µ0 , o`
statistique de Student : t = n(¯
x − µ0 )/ˆ
σ . Cette statistique n’est calcul´ee que dans le cas o`
u le
d´enominateur de l’´ecart-type est n − 1 (ce qui est la valeur par d´efaut). Pour accepter l’hypoth`ese
m = µ0 , il faut que la p-value ne soit pas trop petite. Par convention, on accepte l’hypoth`ese si la
p-value d´epasse 0.05.
La proc´edure UNIVARIATE utilise deux tests afin de tester l’hypoth`ese M ed = µ0 : le test de
signes et le tests des rangs sign´es. On ne donnera pas ici les d´efinitions exactes de ces tests.

2

Analyse en composantes principales
2.1. Donn´
ees multivari´
ees

Soit x ∈ Rp un vecteur al´eatoire : x = (ξ1 , . . . , ξp )T , o`
u vT d´esigne le transpos´e du vecteur v.
Un ´echantillon multidimensionnel est une suite x1 , . . . , xn de r´ealisations al´eatoires du vecteur x,
c’est-`a-dire que chaque xi est de mˆeme loi que x pour tout i = 1, . . . , n.
Dans ce chapitre, Xij d´esigne la j `eme composante du vecteur xi , c’est-`a-dire la i `eme r´ealisation
de la variable al´eatoire ξj . Les Xij forment la matrice al´eatoire

  T
X11 · · · X1p
x1

  
X =  ... . . . ...  =  ... 
xTn

Xn1 · · · Xnp

que l’on appelle matrice des donn´
ees ou tableau des donn´
ees. A partir de la matrice des
donn´ees X, on peut calculer les statistiques suivantes :
a) Les moyennes empiriques
n

X
¯k = 1
X
Xik ,
n i=1

k = 1, . . . , p,

qui forment le vecteur
 
 
¯1
1
X
n
X
1
1 T
 .. 
 .. 
¯= . =
x
xi = X 1 avec 1 =  .  ∈ Rn .
n i=1
n
¯n
X
1
b) Les covariances empiriques
n

sjk

1X
¯j X
¯k ,
=
Xij Xik − X
n i=1

k, j = 1, . . . , p

qui forment la matrice
S = (sjk )k,j=1,...,p
que l’on appelle matrice de covariance empirique.
c) Les corr´elations empiriques
sjk
,
k, j = 1, . . . , p
rjk = √
skk sjj
9

10

2. ANALYSE EN COMPOSANTES PRINCIPALES

qui forment la matrice
R = (rjk )k,j=1,...,p
que l’on appelle matrice de corr´
elation empirique.
Il est facile de voir que
S=

1
1
1
1 T
¯x
¯ T = XT X − 2 XT 11T X = XT HX
X X−x
n
n
n
n

o`
u la matrice H = In − n−1 11T est appel´ee matrice centring.
Exercice 2.1. Montrer que H est un projecteur, i. e. H = H 2 et H T = H. Sur quel sous-espace
vectoriel de Rn projette-t-il ?
Notons que la matrice de covariance empirique S est positive, en effet pour tout vecteur a ∈ Rp
on a
1
1
1
aT Sa = aT XT HXa = aT XT HHXa = yT y ≥ 0,
n
n
n


o`
u y = H T Xa. De plus, si l’on note par D la matrice diagonale diag{ s11 , . . . , spp }, on obtient
S = DRD, donc la matrice de corr´elation empirique R est aussi positive.
2.2. L’id´
ee de l’Analyse en composantes principales (ACP)
L’Analyse en composantes principales (ACP) est une m´ethode de traitement des donn´ees
multidimensionnelles qui poursuit les deux objectifs suivants :
– visualiser les donn´ees,
– r´eduire la dimension effective des donn´ees.
G´eom´etriquement, les donn´ees multidimensionnelles repr´esentent un nuage des points dans Rp
(un point ce ce nuage correspond `a un xi ). Si la dimension p est sup´erieure `a 3, ce qui est le plus
souvent le cas, on ne peut pas visualiser ce nuage. Le seul moyen de visualiser les donn´ees est alors
de consid´erer leurs projections sur des droites, sur des plans ou ´eventuellement sur des espaces
de dimension 3. Ainsi, si a = (a1 , . . . , ap ) ∈ Rp est une direction de projection (c’est-`a-dire un
vecteur de norme un : kak2 = a21 + · · · + a2p = 1), les donn´ees projet´ees (aT x1 , . . . , aT xn ) forment
un ´echantillon de dimension 1 que l’on peut visualiser et qui est donc plus facile `a interpr´eter que
l’´echantillon de d´epart (x1 , . . . , xn ).
Si la dimension p est grande, elle est d’habitude redondante. En r´ealit´e la “vraie” dimension
des donn´ees p∗ est souvent beaucoup plus petite que p. L’ACP a pour objectif de trouver un
sous-espace lin´eaire de Rp de dimension p∗ ¿ p tel que la projection sur ce sous-espace “capte”
presque toute la structure des donn´ees.






Fig. 2.1. Bonne et mauvaise directions de projection.

Dans l’exemple de la Figure 2.1, on voit que si l’on projette les donn´ees xi (repr´esent´ees par des
points noirs) sur la direction a(1) , certaines projections co¨ıncideront. Par contre, la projection de
ces donn´ees sur la direction a(2) donne des valeurs deux `a deux distinctes. On voit que la projection
sur cette derni`ere direction est plus informative que sur la premi`ere, donc plus int´eressante.

´
2.3. ACP : CADRE THEORIQUE

11

L’id´ee de base de l’ACP est de chercher la direction a ∈ Rp “la plus int´eressante”, pour laquelle
les donn´ees projet´ees seront le plus dispers´ees possibles, c’est-`a-dire la direction qui maximise en
a la variance empirique de l’´echantillon unidimensionnel (aT x1 , . . . , aT xn ) (cf. d´efinition de la
variance empirique au Chapitre 4) :
µ X
¶2
n
n
1X T 2
1
s2a =d´ef
(a xi ) −
(aT xi )
n i=1
n i=1

µX
µX

n
n
n
X
1
1 T
xi xTi a − 2 aT
=
a
xi
xTi a = aT Sa,
n
n
i=1
i=1
i=1
o`
u S d´esigne la matrice de covariance empirique introduite au paragraphe pr´ec´edent. Il en r´esulte
que la direction la plus int´eressante a
ˆ est une solution de
max

a∈Rp :kak=1

aT Sa = a
ˆT Sˆ
a,

o`
u k · k est la norme euclidienne de Rp . On peut ´ecrire cette ´egalit´e sous la forme ´equivalente
a
ˆ = arg

max

a∈Rp :kak=1

aT Sa.

(2.1)

Le vecteur a
ˆ ainsi d´efini maximise la variance empirique unidimensionnelle s2a en a tels que kak = 1.
De la mˆeme mani`ere, on peut d´efinir la direction “id´eale” pour projeter les donn´ees, comme le
vecteur a∗ qui maximise la variance th´eorique :
a∗ = arg

max

a∈Rp :kak=1

Var[aT x].

(2.2)

Pour que cette variance soit bien finie, on suppose que E[kxk2 ] < ∞. Dans ce qui suit, on utilisera
les notations suivantes pour la moyenne et la matrice de covariance de x :
E(x) = µ,

V (x) = Σ.

(ici µ est un vecteur de Rp et Σ est une matrice sym´etrique et positive de dimension p ×p).
2.3. ACP : cadre th´
eorique
Nous nous int´eresserons ici `a la solution du probl`eme de maximisation (2.2). Soit Σ = ΓΛΓT
une d´ecomposition spectrale de la matrice de covariance, o`
u Γ est une matrice p × p orthogonale
et Λ est une matrice p × p diagonale. On notera


λ1 0 · · · 0
 0 λ2 · · · 0 
¡
¢


Λ= . . .
Γ = γ(1) , . . . , γ(p) ,
..  ,
.
.
.
.
. . .
0 0 · · · λp
o`
u les λi sont les valeurs propres de Σ et les γ(i) sont les vecteurs propres orthonorm´es de Σ
correspondants,
T
kγ(i) k = 1,
γ(j)
γ(k) = 0, j 6= k.
T

efinition 2.1. La variable al´eatoire ηj = γ(j)
(x − µ) est dite j`eme composante principale du
p
vecteur al´eatoire x ∈ R .

Exemple 2.1. Soit x un vecteur al´eatoire de R2 de moyenne nulle et de matrice de covariance
µ

1 ρ
Σ=
,
0 ≤ ρ ≤ 1.
ρ 1
Consid´erons les vecteurs propres orthonorm´es de cette matrice
µ ¶
µ ¶
1 1
1
1
γ(1) = √
,
γ(2) = √
.
1
−1
2
2

12

2. ANALYSE EN COMPOSANTES PRINCIPALES

Donc si les coordonn´ees de x sont ξ1 et ξ2 , les composantes principales de x valent
η1 =

ξ1 + ξ2
√ ,
2

η2 =

ξ1 − ξ2
√ .
2

exmp7.1 D’une part, on peut facilement v´erifier que la variable al´eatoire ηj est centr´ee, c’est-`adire E[ηj ] = 0. D’autre part, en utilisant le fait que les γ(j) sont les vecteurs propres de la matrice
de covariance Σ du vecteur al´eatoire x, on obtient
T
T
T
Var[ηj ] = E[γ(j)
(x − µ)(x − µ)T γ(j) ] = γ(j)
Σγ(j) = γ(j)
λj γ(j) = λj ,

o`
u λj d´esigne la valeur propre correspondant au vecteur propre γ(j) . De mˆeme, pour j 6= k,
T
T
T
(x − µ)(x − µ)T γ(k) ] = γ(j)
Σγ(k) = γ(j)
λk γ(k) = 0,
Cov(ηj , ηk ) = E[γ(j)

car les vecteurs γ(j) sont orthonorm´es.
Th´
eor`
eme 2.1. Soit x ∈ Rp un vecteur al´eatoire tel que E(kxk2 ) < ∞. Alors a
ˆ = γ(1) est une
solution du probl`eme (2.2), c’est-`
a-dire :
Var[ˆ
aT x] =

max

a∈Rp : kak=1

Var[aT x] =

max

a∈Rp : kak=1

Var[aT (x − µ)].


emonstration. La d´ecomposition spectrale de la matrice Σ est de la forme
Σ = ΓΛΓT =

p
X

T
λj γ(j) γ(j)
.

j=1

On a donc
Var[aT x] =

p
X

T
λj (aT γ(j) )(γ(j)
a) =

p
X

λj c2j ,

j=1

j=1

o`
u cj = aT γ(j) est la projection du vecteur a sur la direction γ(j) . Puisque les vecteurs γ(j) forment
une base orthonorm´ee de Rp , on a c21 + · · · + c2p = kak2 . Comme λj ≤ λ1 , on en d´eduit que
Var[aT x] =

p
X

λj c2j ≤ λ1

j=1

p
X

c2j = λ1 kak2 = λ1 .

j=1

Par ailleurs, si a = a
ˆ = γ(1) , les coefficients cj sont tous nuls sauf le premier c1 = 1. On a
donc Var[ˆ
aT x] = λ1 . Par cons´equent, a
ˆ est une solution du probl`eme de maximisation (2.2) et
Var[ˆ
aT x] = λ1 = Var[η1 ].
¤
Deuxi`eme composante principale. De la mˆeme fa¸con, on peut prouver que γ(2) est l’un des vecteurs
qui maximise la variance Var[aT x] sur l’ensemble A1 = {a ∈ Rp : kak = 1 et a ⊥ γ(1) }. En effet,
comme a est orthogonal `a γ(1) = a
ˆ, sa projection c1 sur γ(1) est nulle. Par cons´equent, pour tout
vecteur de A1 , on a
p
p
X
X
Var[aT x] =
λj c2j ≤ λ2
c2j = λ2 kak2 = λ2 .
j=2

j=2

T
On voit donc que Var[γ(2)
x] = λ2 = Var(η2 ).

k-`eme composante principale. On d´emontre de la mˆeme mani`ere que γ(k) est l’un des vecteurs
a ∈ Rp qui maximise Var[aT x] sur l’ensemble Ak−1 de tous les vecteurs de norme 1 orthogonaux
aux γ(1) , . . . , γ(k−1) . On trouve dans ce cas maxa∈Ak−1 Var[aT x] = Var[ηk ].
On voit donc que, du point de vue math´ematique, l’ACP se r´eduit `a la diagonalisation de la
matrice de covariance de x.

2.4. ACP : CADRE EMPIRIQUE

13

2.4. ACP : cadre empirique
Consid´erons maintenant le probl`eme de maximisation (2.1). Nous pouvons obtenir une solution
de ce probl`eme par la mˆeme m´ethode qu’au paragraphe pr´ec´edent, en rempla¸cant la matrice de
covariance Σ par la matrice de covariance empirique S (il suffit de noter que dans (2.2) Var[aT x] =
aT Σa et de comparer (2.1) et (2.2)).
Comme S est une matrice sym´etrique, il existe une matrice orthogonale G et une matrice
diagonale L telles que S = GLGT . Bien ´evidemment, ces matrices d´ependent de l’´echantillon
(x1 , . . . , xn ). Les ´el´ements diagonaux l1 , . . . , lp , de la matrice L sont alors les valeurs propres de S.
De plus, les lj sont positifs, car S est une matrice positive. On suppose que les lj sont num´erot´es
par ordre d´ecroissant :
l1 ≥ l2 ≥ . . . ≥ lp ≥ 0.
On note g(j) le vecteur propre de norme 1 associ´e `a la valeur propre lj .

efinition 2.2. On appelle la j `eme composante principale empirique associ´ee `
a l’´echantillon
(x1 , . . . , xn ) la fonction yj : Rp → R d´efinie par
T
¯)
yj (z) = g(j)
(z − x

pour

z ∈ Rp .

Soit yij = yj (xi ). Consid´erons la matrice Y = (yij )i=1,...,n,j=1,...,p, de dimension n × p. Elle
remplace la matrice des donn´ees X initiale. Les vecteurs-lignes y1 , . . . , yn de la matrice Y peuvent
ˆetre consid´er´es comme un nouveau ´echantillon de donn´ees transform´ees (il s’agit d’une transformation affine de l’´echantillion initial x1 , . . . , xn ). Dans la pratique, l’application de l’ACP est
int´eressante s’il s’av`ere que les yi r´esident “essentiellement” dans un sous-espace affine de Rp de
dimension beaucoup plus petite que p.
Remarques.
(1) Si les variables ξi sont de nature diff´erente (par exemple, ξ1 est le prix d’un produit
en dollars et ξ2 est son poids en kilogrammes), dans la pratique on utilise l’ACP sur la
matrice de corr´elation R plutˆot que l’ACP sur la matrice de covariance S, i.e. on cherche
`a maximiser aT Ra au lieu de maximiser aT Sa. Ceci est motiv´e par le fait que les ´el´ements
de R n’ont pas d’unit´e de mesure.
(2) Si tous les ´el´ements de la matrice S sont strictement positifs, comme dans l’exemple
num´erique qui sera analys´e `a la fin de ce chapitre, toutes les coordonn´ees de g(1) ont
le mˆeme signe (cf. Th´eor`eme de Perron – Frobenius d´emontr´ee ci-apr`es). Dans ce cas,
la premi`ere composante principale empirique y1 (·) s’appelle facteur de taille. La valeur
y1 (xi ) est alors interpr´et´ee comme une caract´eristique de “taille” ou d’importance de
l’individu i. Ainsi, dans l’exemple num´erique qui sera examin´e `a la fin de ce chapitre,
y1 (xi ) peut ˆetre consid´er´ee comme une caract´eristique du niveau g´en´eral de l’´etudiant
num´ero i calcul´ee `a partir de ses notes.
Proposition 2.1. (Th´
eor`
eme de Perron – Frobenius.) Soit A = (aij )i,j=1,...,p une matrice
p × p sym´etrique dont tous les ´el´ements sont strictement positifs. Alors toutes les coordonn´ees du
premier vecteur propre de A ont le mˆeme signe.

emonstration. Soit g = (g1 , . . . , gp ) un vecteur propre orthonorm´e de A correspondant `a sa
plus grande valeur propre. Notons g˜ = (|g1 |, . . . , |gp |) le vecteur dont les coordonn´ees sont les
valeurs absolues des coordonn´ees respectives de g. D’une part, il est ´evident que kgk = k˜
g k = 1 et
g T Ag = max g¯T A¯
g,

g k=1

ce qui implique que g T Ag ≥ g˜T A˜
g . D’autre part, comme tous les ´el´ements aij de A sont positifs,
on obtient
p
p
X
X
g T Ag =
aij gi gj ≤
aij |gi ||gj | = g˜T A˜
g.
i,j=1

i,j=1

14

2. ANALYSE EN COMPOSANTES PRINCIPALES

On a alors g T Ag = g˜T A˜
g . De plus, g˜T Ag = g T A˜
g , car la matrice A est sym´etrique. Ces deux
´egalit´es impliquent que
(g − g˜)T A(g + g˜) = 0.
(2.3)
Soit maintenant w = A(g + g˜). Comme tous les ´el´ements de A sont strictement positifs et gi +|gi | ≥
0, toutes les coordonn´ees du vecteur w sont positives.
On peut avoir les deux cas suivants.
Cas 1 : toutes les coordonn´ees w1 , . . . , wp de w sont strictement positives. Dans ce cas, les relations
(g − g˜)w = 0 et g˜i ≥ gi impliquent que gi = g˜i pour tout i = 1, . . . , p. Par cons´equent, tous les gi
sont positifs.
Cas 2 : il existe j0 tel que wj0 = 0. Comme w = A(g + g˜), la coordonn´ee wj0 vaut
X
wj0 =
aij0 (˜
gi + gi ).
i

D’apr`es l’hypoth`ese de la proposition, tous les coefficients aij0 sont strictement positifs. Il en r´esulte
que g˜i + gi = 0 pour tout i. On en d´eduit que toutes les coordonn´ees de g sont n´egatives.
¤
2.5. Etude des corr´
elations : cadre th´
eorique
Soit x ∈ Rp un vecteur al´eatoire de moyenne µ et de matrice de covariance Σ. On d´efinit la
variance totale de x par
¡
¢
¡
¢
E(kx − µk2 ) = E (x − µ)T (x − µ) = E (x − µ)T ΓΓT (x − µ) .
o`
u, d’apr`es les d´efinitions introduites au Paragraphe 2.3,
 T
  
γ(1) (x − µ)
η1

  ..  d´ef
.
T
.
Γ (x − µ) = 
 =  .  = y.
.
T
γ(p)
(x − µ)

ηp

Compte tenu de ces notations et de l’´egalit´e E(ηi2 ) = λi , o`
u λi est la i`eme valeur propre de Σ, on
obtient l’expression suivante pour la variance totale :
E(kx − µk2 ) = E(η12 + · · · + ηp2 ) = λ1 + · · · + λp = Tr(Σ).
Rappelons que la trace Tr(Σ) est la somme de ses ´el´ements diagonaux de la matrice Σ.
2.5.1. La part de variance explique´
e.

efinition 2.3. On appelle part de la variance totale de x expliqu´
ee par les k premi`
eres
composantes principales (η1 , . . . , ηk ) la quantit´e
λ1 + · · · + λk
λ1 + · · · + λk
=
.
λ1 + · · · + λp
Tr(Σ)
On appelle part de la variance totale de x expliqu´ee par la j `eme composante principale ηj la quantit´e
λj
.
λ1 + · · · + λp
Si pour un k < p, la part de la variance totale expliqu´ee par les k premi`eres composantes
principales est ´egale `a 1, alors on dit que la variance totale est enti`erement expliqu´ee par les
composantes η1 , . . . , ηk . Cela signifie que seules les k premi`eres composantes principales contribuent
`a la variance totale du vecteur x, les (p − k) composantes restantes ´etant des valeurs d´eterministes.
Analysons maintenant l’influence de la composante principale ηj sur la variable ξi , la i`eme
coordonn´ee du vecteur al´eatoire x. Nous allons caract´eriser cette influence par la valeur du coefficient de corr´elation Corr(ηj , ξi ). Plus la valeur absolue de Corr(ηj , ξi ) est proche de 1, mieux la
composante principale ηj “explique” la variable ξi . Calculons d’abord la matrice de covariance des
vecteurs al´eatoires x et y. On a
C(x, y) = E[(x − µ)yT ] = E[(x − µ)(x − µ)T Γ] = ΣΓ = ΓΛΓT γ = ΓΛ.

´
´
2.5. ETUDE DES CORRELATIONS
: CADRE THEORIQUE

15

Comme Cov(ξi , ηj ) est le (i, j)`eme ´el´ement de cette matrice, on obtient
Cov(ξi , ηj ) = γij λj .
La corr´elation ρ˜ij = Corr(ηj , ξi ) entre ξi et ηj vaut
Cov(ξi , ηj )
= γij
Var(ξi )Var(ηj )

r

ρ˜ij = p

λj
.
σii

Proposition 2.2. Soit x ∈ Rp un vecteur al´eatoire, tel que E(kxk2 ) < ∞ et σii > 0 pour tout
i = 1, . . . , p. Alors,
p
X
ρ˜2ij = 1 pour i = 1, . . . , p.
j=1


emonstration. Soit P˜ la matrice carr´ee dont les ´el´ements sont les corr´elations ρ˜ij , i = 1, . . . , p,
j = 1, . . . , p. Soit encore ∆ une matrice diagonale dont les ´el´ements diagonaux sont σii :
∆ = diag(σ11 , . . . , σpp ).
Il est facile alors de v´erifier que P˜ = ∆−1/2 ΓΛ1/2 . Par cons´equent,
P˜ P˜ T = ∆−1/2 ΓΛ1/2 Λ1/2 ΓT ∆−1/2 = ∆−1/2 Σ∆−1/2 = P,

(2.4)

o`
u P est la matrice form´ee par les corr´elations ρij = Corr(ξ, ξj ) entre les coordonn´ees ξi et ξj
de x. P
Pour conclure, il suffit de remarquer que d’une part ρii = 1 et d’autre part, d’apr`es (2.4),
p
¤
ρii = j=1 ρ˜2ij .

efinition 2.4. On appelle ρ˜2ij part de variance de la variable ξi expliqu´
ee par la j `eme
composante principale ηj .
Proposition 2.3. Supposons que les hypoth`eses de la Proposition 2.2 soient v´erifi´ees. Alors, pour
tout sous-ensemble J de {1, . . . , p},
X

o`
u ρ˜2iJ =

λj =

p
X
i=1

j∈J

P
j∈J

σii ρ˜2iJ ,

ρ˜2ij .


emonstration.

p
X
i=1

σii ρ˜2iJ =

p
X

σii

i=1

X
j∈J

p

2
γij

X X
λj
2
.
γij
=
λj
σii
i=1
j∈J

Le r´esultat de la proposition d´ecoule du fait que la derni`ere somme vaut 1, car kγ(j) k2 =
1.

Pp
i=1

2
γij
=
¤

2.5.2. Disque des corr´
elations. D’apr`es la Proposition 2.2, la somme des carr´es des deux
corr´elations ρ˜2i1 + ρ˜2i2 est inf´erieure ou ´egale `a 1, donc tous les points de R2 ayant les coordonn´ees

ρi1 , ρ˜i2 ) appartiennent au disque de rayon 1 centr´e en 0, que l’on appelle dans le contexte de
l’ACP disque des corr´
elations. Sa fronti`ere est appel´ee cercle des corr´
elations. Plus le point

ρi1 , ρ˜i2 ) est proche du cercle des corr´elations, mieux la variable ξi est expliqu´ee par les deux
premi`eres composantes principales. Consid´erons maintenant la situation id´eale quand les points

ρi1 , ρ˜i2 ) et (˜
ρk1 , ρ˜k2 ) se trouvent exactement sur le cercle, ce qui correspond au fait que les
variables ξi et ξk sont enti`erement expliqu´ees par les deux premi`eres composantes principales.
Proposition 2.4. Soient ξi et ξk deux variables enti`erement expliqu´ees par les deux premi`eres
composantes principales, i.e.
ρ˜2i1 + ρ˜2i2 = 1

et

ρ˜2k1 + ρ˜2k2 = 1.

Alors, la corr´elation de ξi et ξk est donn´ee par la formule
ρik = ρ˜i1 ρ˜k1 + ρ˜i2 ρ˜k2 = cos(ϕ),

16

2. ANALYSE EN COMPOSANTES PRINCIPALES

o`
u ϕ est l’angle form´e par les vecteurs (˜
ρi1 , ρ˜i2 ) et (˜
ρk1 , ρ˜k2 ).

emonstration. Vu que la variable ξi est enti`erement expliqu´ee par η1 et η2 , on a ρ˜im = 0, quel
que soit m ≥ 3. De mˆeme, pour ξk , on a ρ˜km = 0 pour tout m ≥ 3. Comme P = P˜ P˜ T , cela
implique que
ρik = ρ˜i1 ρ˜k1 + ρ˜i2 ρ˜k2 .
Soit ϕ1 l’angle form´e par les vecteurs (˜
ρi1 , ρ˜i2 ) et (1, 0), et ϕ2 l’angle form´e par les vecteurs

ρk1 , ρ˜k2 ) et (1, 0). Il est ´evident que ϕ = |ϕ1 − ϕ2 | et
ρ˜i1 ρ˜k1 + ρ˜i2 ρ˜k2 = cos(ϕ1 ) cos(ϕ2 ) + sin(ϕ1 ) sin(ϕ2 ) = cos(ϕ1 − ϕ2 ) = cos(ϕ).
¤
D’apr`es cette proposition, si les variables ξi et ξk sont enti`erement expliqu´ees par les deux
premi`eres composantes principales, l’angle form´e par les vecteurs (˜
ρi1 , ρ˜i2 ) et (˜
ρk1 , ρ˜k2 ) d´ecrit la
d´ependance mutuelle de ces variables. En effet, si l’angle ϕ est z´ero, alors ρik = 1, ce qui signifie
qu’il y a un lien lin´eaire d´eterministe entre ces variables :
∃ a > 0, b ∈ R

tels que

ξi = aξk + b.

Si les deux points (˜
ρi1 , ρ˜i2 ) et (˜
ρk1 , ρ˜k2 ) de R2 sont diam´etralement oppos´es, alors cos ϕ = ρik = −1
et
∃ a > 0, b ∈ R tels que ξi = −aξk + b.
Dans le contexte de l’ACP, on dit dans ce cas que les variables ξi et ξk sont oppos´ees. Finalement,
si l’angle ϕ est de 90◦ , alors ρik = 0, donc les variables ξi et ξk sont non-corr´el´ees.
2.6. Etude des corr´
elations : cadre empirique
Dans ce paragraphe, on se place dans le cadre, habituel pour une ´etude statistique, o`
u la
moyenne µ et de la matrice de covariance Σ ne sont pas connues. Comme cela a d´ej`a ´et´e fait
pr´ec´edemment, on remplace dans toutes les d´efinitions du Paragraphe 2.5 les param`etres inconnus
¯ , Σ par S, γ(j) par g(j) , λj par lj et
par leurs estimateurs empiriques. Ainsi, µ est remplac´e par x
ηj par yj . On donne maintenant les versions empiriques des d´efinitions principales du paragraphe
pr´ec´edent.

efinition 2.5. On appelle part de la variance empirique expliqu´
ee par les k premi`
eres
composantes principales (y1 , . . . , yk ) la quantit´e suivante :
l1 + · · · + lk
l1 + · · · + lk
=
.
l1 + · · · + lp
Tr(S)
On appelle la quantit´e li /Tr(S) part de la variance empirique expliqu´ee par la i`eme composante
principale yi .
Pour introduire la d´efinition suivante, rappelons que les sii d´esignent les ´el´ements diagonaux
de la matrice de covariance empirique S et lj est la j `eme valeur propre de S. Notons gij la i`eme
coordonn´ee du vecteur propre g(j) .
2
2

efinition 2.6. On appelle r˜ij
= gij
lj /sii part de la variance empirique de la i`eme variable
`
eme
expliqu´
ee par la j
composante principale.

En utilisant le mˆeme raisonnement qu’au paragraphe pr´ec´edent (cf. Propositions 2.2 et 2.3),
on trouve que
p
X

2
r˜ij
= 1 pour tout i = 1, . . . , p,

j=1

X
j∈J

lj =

p
X
i=1

2
sii r˜iJ

2
avec r˜iJ
=

X
j∈J

2
r˜ij
.

´
´
2.7. REPRESENTATION
GRAPHIQUE DES RESULTATS
DE L’ACP

17

On introduit ´egalement le disque des corr´elations auquel appartiennent les points (˜
ri1 , r˜i2 ) pour
i = 1, . . . , p. Les r´esultats de l’ACP sont facilement interp´etables si ces points sont proches du
cercle des corr´elations. L’interpr´etation est bas´ee sur la comparaison du graphique obtenu avec
l’une des trois configurations id´eales :

(1) L’angle ϕ form´e par les vecteurs (˜
ri1 , r˜i2 ) et (˜
rk1 , r˜k2 ) est z´ero : la i`eme et la k`eme variables
sont li´ees par une relation lin´eaire d´eterministe avec la pente strictement positive.
(2) L’angle ϕ est de 180◦ : la i`eme et la k`eme variables sont li´ees par une relation lin´eaire
d´eterministe avec la pente strictement n´egative.
(3) L’angle ϕ est de 90◦ : la i`eme et la k`eme variables sont non-corr´el´ees.

Il est clair que, dans la pratique, ces trois possibilit´es peuvent se r´ealiser seulement de fa¸con approximative, car il s’agit ici de corr´elations empiriques r˜ij qui approchent les corr´elations th´eoriques
ρ˜ij seulement quand la taille d’´echantillon n est assez grande.

2.7. Repr´
esentation graphique des r´
esultats de l’ACP
1. Scree graph. Il s’agit de repr´esenter dans un rep`ere orthogonal l’interpolation lin´eaire des parts
de la variance empirique expliqu´ees par la premi`ere, deuxi`eme, . . . , p`eme composantes principales.
Par exemple, si p = 5 et
l1
P5

= 62%,

l4
P5

= 8%,

j=1 lj

j=1 lj

l2
P5

j=1 lj

l5
P5

j=1 lj

= 18%,

l3
P5

j=1 lj

= 9%,

(2.5)

= 3,

le scree graph est la courbe pr´esent´ee dans la Figure 2.3. On utilise le scree graph pour choisir le
nombre des composantes principales qu’il faut retenir. Plus pr´ecis´ement, on se donne un seuil α
(par exemple, α = 0, 05) et on retient toutes les composantes principales pour lesquelles la part
de la variance expliqu´ee est sup´erieure `a ce seuil.
2. Projection des individus. Dans le contexte de l’ACP, on appelle individus les n porteurs des
donn´ees x1 , . . . , xn . Le vecteur xi repr´esente l’ensemble des caract´eristiques observ´ees de l’individu
num´ero i. Si les xi sont de dimension sup´erieure `a deux, on ne peut pas repr´esenter ces donn´ees
de fa¸con graphique sur le plan. Afin de visualiser les donn´ees statistiques multidimensionnelles, on
les projette sur le plan engendr´e par les deux premiers vecteurs propres g(1) et g(2) de la matrice
de covariance empirique S. On obtient ainsi la projection bidimensionnelle de l’´echantillon initial :
¡

¢ ¡
¢
¡
¢
y1 (x1 ), y2 (x1 ) , y1 (x2 ), y2 (x2 ) , . . . , y1 (xn ), y2 (xn ) ,

(2.6)

qui peut ˆetre visualis´ee `a l’aide d’un nuage des points sur le plan. Ici y1 (·) et y2 (·) sont les
deux premi`eres composantes principales empiriques. Le graphique du nuage des points (2.6) sur
R2 s’appelle projection des individus. Pour l’exemple num´erique du paragraphe pr´ec´edent, la

18

2. ANALYSE EN COMPOSANTES PRINCIPALES

projection des individus est :
Projection des individus

40

+
+

20

+

+
+
+

0

+

+

+

+

+
+

++

+
+

+
+
+

+

+
+ +

+

+

+
+

+
+

++

+

+

+

+

+
+
+
+
+++
+
++
+ + + ++ +
+
+
++ +
+
+
+ +
+
++
++
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
+

−20

2ème composante principale

+

+
+

+
+
−60

−40

−20

0

20

40

60

1ère composante principale

Fig. 2.2. Projection des individus.

500

0.5

600

1.0

700

3. Projection des variables. Les deux premi`eres composantes principales sont souvent les plus
importantes, en ce sens qu’elles expliquent la part dominante de la variance empirique. Dans ce
cas, les corr´elations empiriques r˜i1 , r˜i2 , i = 1, . . . , p, entre les p variables et les deux premi`eres
composantes principales sont beaucoup plus informatives que les corr´elations restantes r˜ij pour
j ≥ 3. Cette remarque justifie l’utilisation de l’outil graphique appel´e projection des variables
sur le disque des corr´
elations (ou, en abr´eg´e, projection des variables). C’est un graphique
sur lequel on trace le cercle des corr´elations et les p points (˜
ri1 , r˜i2 ), i = 1, . . . , p, qui se trouvent
dans le disque des corr´elations. Si ces points sont proches du cercle, le graphique nous permet de
juger de la d´ependance lin´eaire ou de l’absence de corr´elation entre la i`eme et la k`eme variables en
utilisant les remarques faites `a la fin du Paragraphe 2.5 (cf. Proposition 2.4) et du Paragraphe 2.6.

1

400
300

0.0

3

−0.5

200

4

5

−1.0

100

Variances

2

Comp.1

Comp.2

Comp.3

Comp.4

Fig. 2.3. Scree graph.

Comp.5

−1.0

−0.5

0.0

0.5

Fig. 2.4. Projection des variables.

1.0

2.8. LIMITES D’UTILISATION DE L’ACP

19

2.8. Limites d’utilisation de l’ACP
Comme il a ´et´e expliqu´e au Chapitre 2, les coefficients de corr´elation sont essentiellement
adapt´es pour d´ecire un lien lin´eaire entre des variables al´eatoires, si un tel lien existe. L’ACP est
aussi un outil lin´
eaire, en ce sens qu’elle est bas´ee sur l’information contenue dans les corr´elations.
C’est pourquoi l’ACP est souvent sans int´erˆet si les donn´ees pr´esentent des liens non-lin´eaires, tels
que, par exemple, des liens quadratiques.

2
x
xxx
x
xx

0

x

x

x x
x

x

x

x
x

xx

x
x

−2

−1

x
x
xx
xx x
x xx x x
xx
xx x x x
x
xx
x
x
x
x
x
x
x x x
x x
x x
x
x
xx
x
xx
x
xxx
xx
x xxx
x
xx
x
2

3

4

xx
x

x
x x
x x x x
xx
x x x
x xx x
x
x x
x
x
xx x
x xx
x
xxx x x
x x xx xxx x
x
x
xx
x x
x
x x
x
xxx
x
x
x
x
x

x
x
x x
xx

x

xx

x

x
x
x
xx
x
x x x
xx
xx x
x
x
x
x
x x
xxxx xx x
x x
x x
x
xx
x
x
xx xx xx xxxx
xxx
x
xx
x
x
x
x
x
x
x
xx xx x
x
xx
x
x
x
xxx xxxx xx x
x x x x xxx
x
x
x xx
x xx xxx
x
x xxxxx x x x
x x
x x
x x xx
x
xx x xx x xx
x x
x x
x x
x
xx
x x x
x
x
x x
x
x x
x xx
xx x x
x x
x x
x
x
x
x
x
x
xx xx x
x
xx x
x
xx
x
x xx
x
xxx x
x
x
x
x x
x
x
x
x
xx
x
x
x
x
x x xx
xx
xx
x
x x

0

x

x

x

−1

xx

x

x

x
x

xx

x
xx

x

x
x

−2

1

x
x

1

2

De mani`ere sch´ematique, on peut consid´erer que l’ACP fournit un bon r´esultat lorsque les
donn´ees xi forment un nuage des points dans Rp de structure ellipso¨ıdale, alors qu’elle donne
un r´esultat peu satisfaisant si les donn´ees ont une structure tr`es diff´erente de l’ellipso¨ıdale, par
exemple, celle de “banane” qui correspond plutˆot `a un lien quadratique (cf. Figure 2.5).

5

6

7

−1.0

−0.5

0.0

0.5

1.0

3

R´egression lin´eaire multivari´ee
3.1. Le probl`
eme d’estimation de r´
egression multivari´
ee
Soient x un vecteur al´eatoire p-dimensionnel et Y une variable al´eatoire r´eelle, tels que
E(kxk2 ) < ∞ et E(Y 2 ) < ∞, o`
u k · k d´esigne la norme Euclidienne. La fonction de r´egression de
Y sur x est une fonction g : Rp → R d´efinie par :
g(z) = E(Y | x = z),

z ∈ Rp .

Cette fonction, comme dans le cas unidimensionnel, jouit de la propri´et´e de meilleure pr´evision,
i.e.
£¡
¢2 ¤
£¡
¢2 ¤
E Y − g(x)
= min E Y − h(x) ,
h(·)

o`
u le minimum est cherch´e dans l’ensemble de toutes les fonctions bor´eliennes h(·). On peut alors
´ecrire
Y = g(x) + ξ, o`
u E(ξ | x) = 0.
Dans ce chapitre, nous supposerons que l’on dispose d’un ´echantillon (x1 , Y1 ), . . . , (xn , Yn ) tel que
Yi = g(xi ) + ξi ,

i = 1, . . . , n,

o`
u les ξi sont des variables al´eatoires centr´ees et mutuellement ind´ependantes. Nous consid´er-erons
le probl`eme statistique de l’estimation de la fonction de r´egression g `a partir de cet ´echantillon.
Plus particuli`erement, nous nous int´eresserons `a la situation quand la r´egression est lin´eaire :
g(x) = θT x,
o`
u θ ∈ Rp est un param`etre vectoriel : θ = (θ1 , . . . , θp )T . Les observations Yi sont alors de la forme
Yi = θT xi + ξi ,

i = 1, . . . , n,

(3.1)

et l’estimation de la fonction g se r´eduit `a l’estimation du param`etre inconnu ϑ. Le mod`ele statistique d´efini par (3.1) s’appelle mod`
ele de r´
egression lin´
eaire multidimensionnelle (ou
multivari´ee). L’importance de ce mod`ele pour les appications statistiques s’explique d’une part
par sa relative simplicit´e et d’autre part par le fait qu’il permet d’inclure comme des cas particuliers un certain nombre de mod`eles qui semblent, `a la premi`ere vue, non-lin´eaires.
Exemple 3.1. R´egression lin´eaire simple. Posons θ = (a, b)T et x = (1, Z)T avec a, b ∈ R, o`
uZ
une variable al´eatoire r´eelle. Notons que dans ce cas la premi`ere composante du vecteur al´eatoire
21

22

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE

x est d´eterministe (non al´eatoire). Les observations Yi sont alors de la forme
Yi = a + bZi + ξi ,

i = 1, . . . , n,

o`
u les Zi sont des r´ealisations de la variable Z.
Exemple 3.2. R´egression polynomiale. Soit Z une variable al´eatoire r´eelle. Puisque toute fonction
suffisamment r´eguli`ere peut ˆetre d´ecompos´ee selon la formule de Taylor, il est naturel de chercher
la d´ependance entre Y et Z sous une forme polynomiale :
g(Z) = θ1 + θ2 Z + · · · + θp Z p−1 ,
o`
u p ≥ 1 est un entier et θ1 , . . . , θp sont des coefficients inconnus. Si l’on d´efinit les vecteurs
x = (1, Z, . . . , Z p−1 )T et θ = (θ1 , . . . , θp )T , on obtient
g(x) = θT x.
On voit donc que la r´egression polynomiale est un cas particulier de la r´egression lin´eaire multidimensionnelle. Dans ce cas aussi, comme pour la r´egression lin´eaire simple, la premi`ere composante
du vecteur al´eatoire x est d´eterministe.
Exemple 3.3. R´egression non-lin´eaire transform´ee. Ils existent des mod`eles non-lin´eaires de
r´egression qui peuvent ˆetre r´eduits aux mod`eles lin´eaires par une transformation. Par exemple,
supposons que la fonction de r´egression g(·) est de la forme
g(x) = A ev

T

x

avec x, v ∈ Rk ,

o`
u v est un vecteur des param`etres inconnus et A > 0 est une constante inconnue. Des fonctions de
r´egression de ce type sont utilis´es, par exemple, dans les applications en ´economie, pour mod´eliser
la productivit´e des entreprises. En prenant les logarithmes, on obtient
ln g(x) = ln A + v T x.
Afin de se ramener `a une r´egression lin´eaire, on pose θ = (ln A, v T )T , x0 = (1, xT )T et on obtient
Yi0 = ln Yi = θT x0i + ξi0 ,

i = 1, . . . , n.

(3.2)

C’est un mod`ele de r´egression lin´eaire par rapport `a l’´echantillon transform´e
(x01 , Y10 ), . . . , (x0n , Yn0 ).
Notons que formellement on arrive `a (3.2) `a partir du mod`ele Yi = g(xi )ξi de r´egression o`
u
les erreurs ξi interviennent de fa¸con multiplicative et non pas additive (on a alors ξi0 = ln ξi ).
N´eanmoins, souvent la transformation logarithmique est utilis´ee sans mentionner cette nuance de
mani`ere explicite.
3.2. M´
ethode des moindres carr´
es
Une m´ethode usuelle et tr`es r´epandue pour estimer le param`etre θ ∈ Rp est celle des moindres
carr´es. Elle consiste `a chercher une valeur θ = θˆ qui minimise la somme des carr´es des d´eviations :
n
X

(Yi −

ˆ2
xTi θ)

= minp

i=1

θ∈R

n
X

(Yi − xTi θ)2 .

i=1

Il est facile de voir qu’il existe toujours une solution θˆ de ce probl`eme de minimisation que l’on
appelle estimateur des moindres carr´
es de θ. On ´ecrit alors
θˆ = arg minp
θ∈R

n
X

(Yi − xTi θ)2 .

i=1

L’estimateur des moindres carr´es n’est pas toujours unique. La condition de l’unicit´e est donn´ee
dans la proposition suivante.

´
´
3.2. METHODE
DES MOINDRES CARRES

23

Proposition 3.1. Supposons que la matrice
n
X
xi xTi ∈ Rp×p
B=
i=1

soit strictement positive. Alors, l’estimateur des moindres carr´es est unique et il s’´ecrit sous la
forme
θˆ = B −1

n
X

xi Yi .

i=1


emonstration. La condition n´ecessaire pour que θˆ soit un point de minimum pour h(θ) =
Pn
T 2
ˆ
equivaut `a
i=1 (Yi − xi θ) est (∂h/∂θi )(θ) = 0 pour tout i = 1, . . . , p. Cette condition ´
2

n
X

ˆ =0
xi (Yi − xTi θ)

i=1

ou encore
B θˆ =

n
X

xi Yi .

(3.3)

i=1

C’est un syst`eme de p ´equations lin´eaires qui admet une solution unique car la matrice B est
inversible. Cette solution vaut
n
X
θˆ = B −1
xi Yi .
i=1

Comme la fonction h(θ) est convexe et positive, ce vecteur θˆ fournit le minimum global de h.

¤

Il est convenable d’´ecrire le mod`ele de r´egression lin´eaire sous la forme matricielle :
y = X θ + ξ,
T

T

o`
u y = (Y1 , . . . , Yn ) , θ = (θ1 , . . . , θp ) , ξ = (ξ1 , . . . , ξp )T et X = (x1 , . . . , xn )T . Avec ces notations, on a B = XT X, et on peut ´ecrire l’estimateur des moindres carr´es sous la forme
θˆ = (XT X)−1 XT y.
Le syst`eme des ´equations lin´eaires (3.3) s’appelle syst`
eme des ´
equations normales pour la
m´ethode des moindres carr´es. On peut l’´ecrire sous la forme
Bθ = XT y.
Proposition 3.2. La matrice
B=

n
X

xi xTi = XT X

i=1

est toujours positive. Afin qu’elle soit strictement positive, il est n´ecessaire et suffisant que le rang
de la matrice X soit ´egal `
a p.

emonstration. Notons d’abord que B est positive, car tout v ∈ Rp \ {0} v´erifie l’in´egalit´e
v T Bv = v T XT Xv = wT w =

p
X

wi2 ≥ 0,

i=1

o`
u w = Xv = (w1 , . . . , wp ). Il est ´evident que l’in´egalit´e pr´ec´edente devient ´egalit´e si et seulement si
w = Xv = 0. Or, Xv = 0 pour un vecteur v diff´erent de 0 implique que le rang de X est strictement
inf´erieur `a p. On a donc montr´e que si B n’est pas strictement positive, alors Rang(X) < p.
La preuve de la r´eciproque est similaire. Si Rang < p, alors il existe un vecteur v ∈ Rp \ {0}
tel que Xv = 0. Il en r´esulte que v T Bv = v T XT Xv = 0. Par cons´equent, B n’est pas strictement
positive.
¤

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE

24

Une cons´equence imm´ediate de cette proposition est la suivante : si la taille d’´echantillon n
est strictement inf´erieure `a la dimension p des observations, la matrice B est d´eg´en´er´ee. En effet,
n < p implique que Rang(X) < p, car le rang d’une matrice M est le nombre maximal des lignes
de M qui forment une famille de vecteurs libre. Une autre formulation de cette propri´et´e est :
B>0

=⇒

n ≥ p.

3.2.1. Interpr´
etation g´
eom´
etrique de la m´
ethode des moindres carr´
es. Le prob-l`eme
de minimisation de la somme des carr´es des d´eviations peut s’´ecrire sous la forme suivante :
min ky − Xθk2 = min ky − vk2

θ∈Rp

v∈D

(3.4)

o`
u D d´esigne le sous-espace lin´eaire de Rn d´efini par
ª
©
D = v ∈ Rn : v = Xθ, θ ∈ Rp .
En mots, D est le sous-espace lin´eaire de Rn engendr´e par les p colonnes de la matrice X. Si X
est une matrice de rang p, ce qui est vrai lorsque B > 0, alors D est un sous-espace lin´eaire de
dimension p :
Rang(X) = p ⇐⇒ B > 0 ⇐⇒ dim(D) = p.
Si B > 0, la solution du probl`eme (3.4) est vˆ = Xθˆ = X(XT X)−1 XT y =d´ef Ay.

efinition 3.1. Soit B > 0. La matrice
A = X(XT X)−1 XT ∈ Rn×n
est dite matrice chapeau (“hat” matrice).
Proposition 3.3. Supposons que B > 0. Alors la matrice A est sym´etrique, idempotente et de
rang p. Plus pr´ecis´ement, A est le projecteur dans Rn sur le sous-espace vectoriel (s.e.v.) D.

emonstration. Il vient
AT = X[(XT X)−1 ]T XT = X[(XT X)T ]−1 XT = X(XT X)−1 XT = A
et
A2 = X(XT X)−1 XT X(XT X)−1 XT = X(XT X)−1 XT = A.
Donc A est sym´etrique et idempotente, ce qui signifie que A est un projecteur. En outre, pour
tout y ∈ Rn , on a Ay = Xθˆ = vˆ ∈ D. Donc A projette sur un sous-ensemble de D. Mais ce
sous-ensemble co¨ıncide avec D, car pour tout vecteur v ∈ D il existe θ ∈ Rp tel que v = Xθ et,
par cons´equent,
Av = X(XT X)−1 XT v = X(XT X)−1 XT Xθ = Xθ = v.
Cela signifie que A est le projecteur sur D. Comme D est un sous-espace de Rn de dimension p,
le rang de A est ´egal `a p.
¤
3.3. Propri´
et´
es statistiques de la m´
ethode des moindres carr´
es
Supposons que l’hypoth`ese suivante soit v´erifi´ee.
Hypoth`
ese (R).
(R1) Les vecteurs x1 , . . . , xn appartenant `
a Rp sont d´eterministes et n > p.
(R2) La matrice B est strictement positive.
(R3) Le vecteur al´eatoire ξ est de moyenne E(ξ) = 0 et de matrice de covariance V (ξ) =
σ 2 In , o`
u σ 2 > 0 et In est la matrice unit´e de dimension n × n.

´
´
3.4. REGRESSION
LINEAIRE
NORMALE

25

Th´
eor`
eme 3.1. Sous l’Hypoth`ese (R), l’estimateur des moindres carr´es est sans biais :
ˆ =θ
E(θ)
£
¤
ˆ = E (θˆ − θ)(θˆ − θ)T vaut
et sa matrice de covariance V (θ)

(3.5)

ˆ = σ 2 B −1 .
V (θ)

emonstration. Il vient
θˆ = B −1 XT y = B −1 XT (Xθ + ξ) = θ + B −1 XT ξ,

(3.6)

d’o`
u d´ecoule (3.5). En utilisant (3.6) on obtient aussi
¤
£
ˆ = E (θˆ − θ)(θˆ − θ)T = E[(B −1 XT ξ)(ξ T XB −1 )] = B −1 XT E[ξξ T ]XB −1 .
V (θ)
Comme V (ξ) = E[ξξ T ] = σ 2 In , on a
B −1 XT E[ξξ T ]XB −1 = σ 2 B −1 XT XB −1 = σ 2 B −1 .
¤
Th´
eor`
eme 3.2. Sous l’Hypoth`ese (R), la statistique

ef

σ
ˆ2 =

n

ˆ 2
ky − Xθk
1 X
ˆ2
(Yi − xTi θ)
=
n−p
n − p i=1

est un estimateur sans biais de la variance σ 2 :
E(ˆ
σ2 ) = σ2 .

emonstration. Notons d’abord que les observations y proviennent du mod`ele y = Xθ + ξ, ce
ˆ + ξ. Vu (3.6), il en r´esulte que
qui implique que y − Xθˆ = X(θ − θ)
y − Xθˆ = −XB −1 XT ξ + ξ = (In − XB −1 XT )ξ = (In − A)ξ.
(3.7)
Par cons´equent,
ˆ 2 ] = E[ξ T (In − A)T (In − A)ξ] = E[ξ T (In − A)2 ξ] = E[ξ T (In − A)ξ],
E[ky − Xθk
o`
u on a utilis´e le fait que A est une matrice idempotente. D´esignons par aij les ´el´ements de A. On
a alors
n
n
n
X
X
X
E[ξ T (In − A)ξ] =
(δij − aij ) E[ξi ξj ] = σ 2
(δij − aij ) δij = σ 2
(1 − aii ) = σ 2 (n − Tr(A)),
i,j=1

i,j=1

i=1

o`
u δij est le symbole de Kronecker. Comme A est un projecteur, ses valeurs propres valent 0 ou
1. D’apr`es la Proposition 3.3, Rang(A) = p, donc il y a exactement p valeurs propres ´egales `a 1.
On en d´eduit que Tr(A) = p, d’o`
u le r´esultat.
¤
3.4. R´
egression lin´
eaire normale
Supposons maintenant que les variables al´eatoires ξi suivent la loi normale N (0, σ 2 ). Dans ce
cas la condition (R3) entraˆıne l’ind´ependance des variables al´eatoires ξi .
Hypoth`
ese (NR). L’Hypoth`ese (R) est v´erifi´ee et ξ est un vecteur gaussien.
Sous l’Hypoth`ese (NR), θˆ est l’estimateur du maximum de vraisemblance du param`etre θ.
ˆσ
Le th´eor`eme suivant permet de d´eduire la loi jointe de (θ,
ˆ 2 ) sous l’Hypoth`ese (NR).
Th´
eor`
eme 3.3. Si l’Hypoth`ese (NR) est v´erifi´ee, alors
θˆ ∼ Np (θ, σ 2 B −1 ),
(i)
(ii)
(iii)

θˆ ⊥⊥ y − Xθˆ et y − Xθˆ ⊥⊥ X(θˆ − θ),
−2
ˆ 2 ∼ χ2
σ −2 ky − Xθk
kX(θˆ − θ)k2 ∼ χ2p .
n−p et σ

26

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE


emonstration. D’apr`es (3.6) et (3.7),
θˆ − θ = B −1 XT ξ,

y − Xθˆ = (In − A) ξ.

(3.8)

La premi`ere ´egalit´e, compte tenu du fait que B et X sont d´eterministes, implique que θˆ est
un vecteur gaussien. D’apr`es le Th´eor`eme 3.1, la moyenne de ce vecteur est θ et sa matrice de
covariance vaut σ 2 B −1 , d’o`
u le r´esultat (i).
¡
ˆ θ)
ˆ ∈ Rn+p est gaussien comme transformation affine du
Vu (3.8), le vecteur al´eatoire y − Xθ,
vecteur gaussien ξ. De plus, la matrice de covariance entre θˆ et y − Xθˆ est
ˆ y − Xθ)
ˆ = E[(θˆ − θ)(y − Xθ)
ˆ T ] = E[B −1 XT ξξ T (In − A)] = σ 2 (B −1 XT − B −1 XT A) = 0.
C(θ,
En utilisant la propri´et´e (N6) de la loi normale multidimensionnelle d´emontr´ee au Chapitre 3, on
obtient la premi`ere partie du r´esultat (ii). Sa deuxi`eme partie en d´ecoule vu la pr´eservation de
l’ind´ependance par transformations mesurables.
Pour prouver le r´esultat (iii) du th´eor`eme, introduisons le vecteur al´eatoire ξ 0 = ξ/σ et
appliquons le Th´eor`eme de Cochran (cf. Chapitre 3). D’apr`es (3.8), y − Xθˆ = σ(In − A)ξ 0 et
X(θˆ − θ) = σXB −1 XT ξ 0 = σAξ 0 . Par ailleurs, la Proposition 3.3 implique que les matrices A et
In − A sont sym´etriques et idempotentes, (In − A)A = 0, Rang(A) = p et Rang(In − A) = n − p.
D’apr`es le Th´eor`eme de Cochran, ceci entraˆıne le r´esultat (iii).
¤
3.5. Application au probl`
eme de pr´
evision
Consid´erons d’abord un exemple de probl`eme de pr´evision qui motive ce qui va suivre.
Exemple 3.4. Pr´evision dans le mod`ele de r´egression sur le temps. Supposons que l’on dispose
des donn´ees statistiques (Yi , xi ), i = 1, . . . , n, o`
u xi = i∆ et ∆ > 0 est un nombre fix´e, telles que
Yi = θxi + ξi , i = 1, . . . , n, avec θ ∈ R. On peut penser `a Yi comme `a la valeur `a l’instant i∆ d’une
variable Y ´evoluant dans le temps de mani`ere al´eatoire (exemples : la temp´erature, le niveau de
l’eau dans un fleuve, le cours d’une option financi`ere, etc). Le probl`eme de pr´evision consiste `a
donner un estimateur Yˆ0 qui approche bien la valeur de la fonction de r´egression g(x0 ) = θx0 `
a
l’instant donn´e x0 tel que x0 > xn = n∆. Une m´ethode tr`es r´epandue est de chercher une pr´evision
¯ 0 , o`
lin´eaire de la forme Yˆ0 = θx
u θ¯ est un estimateur convenable de θ. Le plus souvent on utilise
¯
ˆ
θ = θ, l’estimateur des moindres carr´es de θ.
Consid´erons maintenant le cas g´en´eral quand les xi sont multidimensionnels. Soit x0 ∈ Rp
un vecteur donn´e. Le probl`eme est formul´e de mani`ere similaire : trouver une pr´evision Yˆ0 de
g(x0 ) = θT x0 , ´etant donn´e un ´echantillon (x1 , Y1 ), . . . , (xn , Yn ) provenant du mod`ele de r´egression
lin´eaire
Yi = θT xi + ξi ,

i = 1, . . . , n.
La recherche d’une pr´evision lin´eaire de la forme Yˆ0 = θ¯T x0 revient `a la recherche d’un estimateur
ˆ l’estimateur des moindres carr´es de θ. La valeur
θ¯ du param`etre θ. Un choix possible est θ¯ = θ,
Yˆ0 = θˆT x0 est donc une pr´evision de g(x0 ). Les propri´et´es de cette pr´evision sont donn´ees dans le
th´eor`eme suivant.
Th´
eor`
eme 3.4.
(i) Si l’Hypoth`ese (R) est v´erifi´ee,
E(Yˆ0 ) = θT x0

et

Var(Yˆ0 ) = σ 2 xT0 B −1 x0 .

(ii) Si l’Hypoth`ese (NR) est v´erifi´ee,
Yˆ0 ∼ N (θT x0 , σ 2 xT0 B −1 x0 )

et

ˆ
Yˆ0 − θT x0 ⊥⊥ y − X θ.


emonstration. Elle est imm´ediate d’apr`es les Th´eor`emes 3.1 et 3.3.

¤

`
3.6. APPLICATION AUX TESTS SUR LE PARAMETRE
θ

27

La seconde partie de ce th´eor`eme nous permet de construire un intervalle de confiance pour
g(x0 ) = θT x0 . En effet, d’apr`es la partie (ii) du Th´eor`eme 3.4, si l’Hypoth`ese (NR) est satisfaite,

ef

Yˆ0 − θT x0

η= q

σ 2 xT0 B −1 x0

∼ N (0, 1).

Cette relation implique, en particulier, que
P (g(x0 ) ∈ [g, g]) = 1 − α,
o`
u

q
N
σ 2 xT0 B −1 x0 q1−α/2
,
q
N
g = Yˆ0 + σ 2 xT0 B −1 x0 q1−α/2
.
g = Yˆ0 −

Donc, dans le cas o`
u la variance σ est connue, l’intervalle [g, g] est un intervalle de confiance de
taille exacte 1 − α pour g(x0 ).
Lorsque la variance σ 2 est inconnue, il est naturel de la remplacer par son estimateur sans
biais σ
ˆ 2 d´efini dans le Th´eor`eme 3.2. Pour pouvoir construire un intervalle de confiance exacte, il
nous faut connaˆıtre la loi de la v. a.
Yˆ0 − θT x0

ef
.
t= q
σ
ˆ 2 xT0 B −1 x0
ˆ 2 /σ 2 sont
D’apr`es le Th´eor`eme 3.4, les variables al´eatoires η et χ =d´ef (n − p)ˆ
σ 2 /σ 2 = ky − Xθk
ind´ependantes. Par cons´equent, la variable al´eatoire t peut ˆetre repr´esent´ee sous la forme
η
t= p
,
χ/(n − p)
o`
u η ∼ N (0, 1), χ ∼ χ2n−p et η ⊥⊥ χ. Il en r´esulte que t suit la loi de Student tn−p avec n − p
degr´es de libert´e. On en d´eduit que [g 0 , g 0 ] est un intervalle de confiance de taille exacte 1 − α pour
g(x0 ) si
q
g 0 = Yˆ0 − σ
ˆ 2 xT0 B −1 x0 q1−α/2 (tn−p ),
q
g 0 = Yˆ0 + σ
ˆ 2 xT0 B −1 x0 q1−α/2 (tn−p ).
Soulignons que l’hypoth`ese de normalit´e des erreurs ξi est cruciale pour que [g 0 , g 0 ] soit un intervalle
de confiance de taille exacte 1 − α.
3.6. Application aux tests sur le param`
etre θ
Dans ce paragraphe, on supposera que les erreurs ξi du mod`ele de r´egression sont normales et
que l’Hypoth`ese (NR) est v´erifi´ee. Notre premier objectif est de tester l’hypoth`ese
H0 : θ j = a
contre l’hypoth`ese alternative
H1 : θj 6= a,
o`
u a ∈ R est une valeur donn´ee et θj est la j `eme coordonn´ee du vecteur θ. D´esignons par θˆj la j `eme
coordonn´ee de l’estimateur des moindres carr´es θˆ et par bj le j `eme ´el´ement diagonal de la matrice
B −1 . L’Hypoth`ese (R2) implique que bj > 0 pour j = 1, . . . , p.
Corollaire 3.1. Si l’Hypoth`ese (NR) est v´erifi´ee,
θˆj − θj
p
∼ N (0, 1).
σ bj

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE

28


emonstration. D’apr`es le Th´eor`eme 3.3, θˆ − θ ∼ N (0, σ 2 B −1 ). Soit vj le vecteur de Rp dont
toutes les coordonn´ees sont nulles sauf la j `eme qui vaut 1. La v. a. (θˆj − θj ) est donc ´egale `a
(θˆ − θ)T vj , ce qui entraˆıne qu’elle suit une loi gaussienne. Afin d’identifier cette loi, il suffit de
calculer sa moyenne et sa variance :
E(θˆj − θj ) = E[(θˆ − θ)T vj ] = 0,
¢2 ¤
£¡
Var(θˆj − θj ) = E (θˆ − θ)T vj
= vjT E[(θˆ − θ)(θˆ − θ)T ]vj = σ 2 vjT B −1 vj = σ 2 bj .
On a alors θˆj − θ ∼ N (0, σ 2 bj ) ou encore (σ 2 bj )−1/2 (θˆj − θ) ∼ N (0, 1).

¤

Si le param`etre σ est inconnu, nous ne pouvons pas utiliser la statistique (σ 2 bj )−1/2 (θˆj − θ).
Dans ce cas, il faut la modifier en rempla¸cant σ par son estimateur σ
ˆ d´efini au Paragraphe 3.3.
Corollaire 3.2. Si l’Hypoth`ese (NR) est v´erifi´ee,
θˆj − θj
p
∼ tn−p .
σ
ˆ bj
ˆ 2 /σ 2 . D’apr`es

emonstration. Soit η =d´ef (σ 2 bj )−1/2 (θˆj − θ) et χ =d´ef (n − p)ˆ
σ 2 /σ 2 = ky − Xθk
2
le Th´eor`eme 3.3 et le Corollaire 3.1, η ∼ N (0, 1), χ ∼ χn−p et η ⊥⊥ χ. Par ailleurs,
η
θˆj − θj
p
=p
,
σ
ˆ bj
χ/(n − p)
d’o`
u le r´esultat.

¤

Ce corollaire implique que sous l’hypoth`ese H0 : θj = a, la loi de la v. a.
t=

θˆj − θj
p
σ
ˆ bj

est tn−p (loi de Student avec n − p degr´es de libert´e). Par cons´equent, si l’on d´efinit la r´egion
critique du test par
¯
½¯ ˆ
¾
¯ θj − a ¯
¯
¯
R = ¯ p ¯ > cα
σ
ˆ b
j

avec une constante cα > 0 convenablement choisie, alors le risque de premi`ere esp`ece est
¯
µ¯ ˆ

¯ θj − a ¯
¯
¯
sup Pθ (R) = sup Pθ ¯ p ¯ > cα ,
σ
ˆ bj
θ∈Θ0
θ∈Θ0
©
ª
o`
u Θ0 = θ ∈ Rp : θj = a (soulignons que H0 est une hypoth`ese composite, car on peut la
r´e´ecrire comme H0 : θ ∈ Θ0 ). Sur l’ensemble Θ0 le param`etre θj vaut a, donc la variable t suit la
loi de Student tn−p . On a alors
¯
µ¯ ˆ

¯ θj − a ¯
¡
¢
¡
¢
¯
¯
sup Pθ ¯ p ¯ > cα = P |tn−p | > cα = P |tn−p | > cα .
σ
ˆ bj
θ∈Θ0
Pour avoir le risque de premi`ere esp`ece ´egal `a α, il faut choisir la valeur critique cα = q1−α/2 (tn−p ).
Ainsi, on obtient la r´egion critique du test de niveau (et de taille) α :
R=
On rejette donc l’hypoth`ese H0 si

¯
½¯ ˆ
¾
¯ θj − a ¯
¯ p ¯ > q1−α/2 (tn−p ) .
¯σ
ˆ bj ¯
¯
¯
¯ θˆj − a ¯
¯ √ ¯ > q1−α/2 (tn−p )
¯σ
ˆ bj ¯

et on ne la rejette pas dans le cas contraire.

(3.9)

`
3.6. APPLICATION AUX TESTS SUR LE PARAMETRE
θ

29

Dans les applications, on est souvent confront´e aux tests des hypoth`eses plus g´en´erales, en
particulier, de l’hypoth`ese
H0 : θj1 = a1 , . . . , θjm = am
contre l’alternative
H1 : ∃ k ∈ {1, . . . , m}

tel que θjk 6= ak ,

o`
u {j1 , . . . , jm } est un sous-ensemble de {1, . . . , p}. Notons que H1 est le compl´ementaire de H0 .
Exemple 3.5. Test de “ s´election des variables” dans la r´egression polynomiale :
Yi = g(xi ) + ξi = θ1 + θ2 Zi + · · · + θp Zip−1 + ξi ,

i = 1, . . . , n.

On veut tester l’hypoth`ese
H0 : θj+l = 0,

l = 1, . . . , p − j.

contre l’alternative H1 : il existe l ≥ 1 tel que θj+l 6= 0.
3.6.1. Hypoth`
ese lin´
eaire g´
en´
erale. F-test. Supposons que l’on souhaite tester l’hypoth`ese
H0 : Gθ = b
contre l’alternative
H1 : Gθ 6= b,
o`
u G est une matrice m × p et b est un vecteur de Rm .
Proposition 3.4. Si l’Hypoth`ese (NR) est v´erifi´ee,
Gθˆ ∼ Nm (Gθ, σ 2 GB −1 GT ).

emonstration. Elle est imm´ediate d’apr`es le Th´eor`eme 3.3.

¤

D’apr`es cette proposition, sous l’hypoth`ese H0 : Gθ = b on a :
Gθˆ ∼ Nm (b, D) avec D = σ 2 GB −1 GT .
Soit D > 0. D´efinissons la variable al´eatoire

ef
η = (Gθˆ − b)T D−1 (Gθˆ − b).

D’apr`es le Th´eor`eme de Cochran,
η ∼ χ2m .
Si σ 2 est inconnu, on ne peut pas se servir de η pour d´efinir la r´egion critique du test. C’est
pourquoi on replace σ 2 par son estimateur σ
ˆ 2 . On obtient ainsi l’estimateur de la matrice de
covariance D suivant :
ˆ 2
ky − Xθk
ˆ =σ
D
ˆ 2 GB −1 GT avec σ
ˆ2 =
.
n−p
Introduisons maintenant la variable al´eatoire
T ˆ −1
ˆ
(Gθˆ − b)

ef (Gθ − b) D
F =
m
que l’on appelle F-statistique et d´efinissons la r´egion critique du test bas´e sur cette statistique :
R = {F > cα }.
Ici cα > 0 est `a choisir de fa¸con que le test soit de niveau α. On peut remarquer que F est une
sorte de distance entre Gθˆ et b. On d´ecidera donc de rejeter H0 si cette distance F est assez grande
(> cα ).
En utilisant le Th´eor`eme 3.3, on peut facilement v´erifier que sous H0 la v. a. F suit la loi de
Fisher-Snedecor `a degr´es de libert´e m et n − p, ce qui nous conduit au choix suivant de la valeur

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE

30

critique : cα = q1−α (m, n − p), o`
u q1−α (m, n − p) d´esigne le quantile d’ordre 1 − α de la loi de
Fisher-Snedecor Fm,n−p `a degr´es de libert´e m et n − p. On obtient finalement la r´egion critique
n
o
R = F > q1−α (m, n − p) .

(3.10)

Le test bas´e sur la r´egion critique (3.10) est appel´e F-test.
3.7. Propri´
et´
es empiriques de l’EMC et coefficient de d´
etermination
Dans cette section, on suppose que la matrice X contient une colonne constante α1n =
(α, . . . , α)T ∈ Rn \ {0}. Ceci correspond `a la recherche d’une approximation de la variable `a
expliquer par une fonction affine des variables explicatives. Cette condition peut ˆetre l´eg`erement
affaiblie :
Hypoth`
ese (I). Le sous-espace vectoriel D de Rn engendr´e par les colonnes de X contient
la droite {α1n : α ∈ R}.

efinition 3.2. On appelle
- yb = X θb = Ay vecteur des valeurs ajust´ees,
- u
b = y − yb = (I − A)y vecteur des r´esidus estim´es,
- σ
bj2 = σ
b2 [B −1 ]jj erreur standard de θbj .
Voici quelques abr´eviations fr´equemment utilis´ees dans la litt´erature anglo-saxone :
SSE = Sum of Squares of Errors = variance empirique des r´esidus estim´es = kb
uk2 ,
Pn b ¯ 2
SSR = Sum of Squares of Regression = variance emp. des valeurs ajust´eP
es = i=1 (Yi − Y ) ,
n
TSS = Total Sum of Squares = variance emp. des valeurs observ´ees = i=1 (Yi − Y¯ )2 ,
MSE = Mean Squared Error = estimateur de la variance = σ
b2 = SSE/(n − p).
Pour justifier ces d´efinitions, nous avons besoin du r´esultat suivant.
Proposition 3.5. Sous l’Hypoth`ese (I), on a
1) la moyenne empirique des valeurs ajust´ees co¨ıncide avec la moyenne empirique des va¯
leurs observ´ees : Yb = Y¯ .
¯ = 0.
2) la moyenne empirique des r´esidus estim´es est ´egale `
a z´ero u
b
3) la variance empirique des valeurs observ´ees se d´ecompose en la somme de la variance
empirique des valeurs ajust´ees et de la variance empirique des r´esidus estim´es : T SS =
SSR + SSE.

emonstration. Pour d´emontrer 1), on remarque que :
¯
nYb = ybT 1n = (Ay)T 1n = y T (A1n ) = y T 1n = nY¯ ,
o`
u l’´egalit´e A1n = 1n d´ecoule du fait que la matrice A est le projecteur orthogonal sur le s.e.v. D
et 1n ∈ D d’apr`es l’hypoth`ese (I).
La deuxi`eme assertion est une cons´equence imm´ediate de la premi`ere.
Pour la troisi`eme assertion, il suffit d’utiliser le th´eor`eme de Pythagore :
n
X

(Yi − Y¯ )2 = ky − Y¯ 1n k2 = kA(y − Y¯ 1n )k2 + k(I − A)(y − Y¯ 1n )k2 = kb
y − Y¯ 1n k2 + kb
uk2 ,

i=1

car A1n = 1n et (I − A)1n = 0.

¤

Cette proposition indique qu’on peut mesurer la qualit´e de la pr´ediction ou de l’explication
de y par les facteurs repr´esentant les colonnes de X `a l’aide du rapport SSR/T SS. Le cas id´eal
correspond `a un ajustement parfait : yb = y. Dans ce cas ce rapport est ´egal `a 1. Sinon, cette
quantit´e est toujours entre 0 et 1. Ceci nous am`ene `a la d´efinition suivante.

´
`
`
3.8. SELECTION
DE MODELE
: CRITERE
DE MALLOW

31


efinition 3.3. On appelle coefficient de corr´elation multiple ou coefficient de d´etermination ou
encore proportion de variance expliqu´ee la quantit´e :
Pn
(Yi − Y¯ )(Ybi − Y¯ )
R = qP i=1
= ρb(y, yb),
n
¯ )2 Pn (Ybi − Y¯ )2
(Y

Y
i
i=1
i=1
o`
u ρb(y, yb) d´esigne le coefficient de corr´elation empirique entre y et yb.
En statistique, on utilise plus souvent le carr´e du coefficient de d´etermination, car on a
Pn b
(Yi − Y¯ )2
SSR
SSE
2
R = Pi=1
=
=1−
.
n
2
¯
T
SS
T SS
(Y

Y
)
i=1 i
Pour d´emontrer cette r´elation, il suffit de v´erifier que d’une part
(y − Y¯ 1n )T (b
y − Y¯ 1n ) = (b
y − Y¯ 1n )T (b
y − Y¯ 1n ) + (y − yb)T (b
y − Y¯ 1n ).
D’autre part,
(y − yb)T (b
y − Y¯ 1n ) = y T (I − A)(b
y − Y¯ 1n ) = (y − yb)T ((I − A)Ay − Y¯ (I − A)1n ) = 0.
L’´egalit´e R2 = SSR/T SS explique pourquoi le coefficient de d´etermination s’appelle ´egalement la
proportion de variance expliqu´ee. Dans une sortie SAS (si l’on utilise l’une des proc´edures REG,
GLM, ANOVA), le carr´e du coefficient de d´etermination apparaˆıt sous le nom R-square.
3.8. S´
election de mod`
ele : crit`
ere de Mallow
Dans cette section, on consid`ere toujours le probl`eme d’explication d’une variable quantitative
Y par p variables explicatives ζ1 , . . . , ζp . On dispose de n observations ind´ependantes
 




Y1
x11
x1p
 




y =  ...  , ζ1 =  ...  , . . . , ζp =  ...  .
Yn

xn1

xnp

On suppose que y est une observation bruit´ee de la combinaison lin´eaire θ1 ζ1 +. . . θp ζp , c’est-`a-dire
 T
x1
 
y = θ1 ζ1 + . . . θp ζp + ξ = Xθ + ξ,
X = (ζ1 , . . . , ζp ) =  ...  ,
xTn
o`
u le bruit ξ est suppos´e ˆetre Gaussien N (0, σ 2 In ).
En pratique, le nombre de variables explicatives qui peuvent ´eventuellement contribuer aux
fluctuations de la variable `a expliquer Y est tr`es grand. Dans cette situation, il est souvent utile de
r´eduire la dimension de mod`ele ; c’est-`a-dire, de choisir un sous-ensemble de facteurs {ζi1 , . . . , ζiq },
q < p, tel que la perte de pr´ecision dans la pr´ediction de y avec ces facteurs n’est pas significative
par rapport au gain de simplicit´e due `a un nombre de facteurs plus petit.
L’objectif de cette section est donc de d´eterminer le sous-ensemble {ζi1 , . . . , ζiq } fournissant
le meilleur rapport pr´ecision/simplicit´e. Chaque sous-ensemble {ζi1 , . . . , ζiq } d´efinit le mod`ele y =
θb1 xi1 + . . . + θbq xiq qui servira `a pr´edire les valeurs de Y . On appelle q la dimension de ce mod`ele.
On cherche le mod`ele qui garantit, dans la mesure du possible, une pr´ediction `a la fois rapide et
pr´ecise. Pour cette raison, on parle du probl`eme de s´election de mod`ele.
Pour deux mod`eles {ζi1 , . . . , ζiq } et {ζj1 , . . . , ζjq0 } ayant le mˆeme nombre de facteurs q = q 0 ,
il est naturel de pr´ef´erer celui dont le coefficient de d´etermination est le plus grand. Cela revient
`a choisir le mod`ele dont les valeurs ajust´ees yb sont le plus corr´el´ees avec les valeurs observ´ees y.
En revanche, pour q 6= q 0 , la comparaison des coefficients de d´etermination de deux mod`eles est
moins utile, car en g´en´eral cela conduit `a choisir le mod`ele complet {ζ1 , . . . , ζp } et par cons´equent
`a avoir affaire `a des matrices de tr`es grande dimension. C’est pourquoi on utilise d’autres crit`eres
pour comparer des mod`eles ayant des dimensions diff´erentes.

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE

32

Les crit`eres les plus utilis´es sont Cp de Mallow (1973), AIC (Akaike (1974)) et BIC (Schwarz
(1978)). Nous ne d´ecrirons ici que le premier de ces crit`eres. Dans nos notations, il est convenable
de l’appeler Cq plustˆot que Cp .

efinition 3.4. Pour le mod`ele {ζi1 , . . . , ζiq }, on appelle Cq de Mallow la quantit´e
µ 2

σ
bq
k(I − Aq )yk2
− (n − 2q) = (n − q) 2 − 1 + q
Cq =
σ
b2
σ
b
o`
u Aq est le projecteur orthogonal sur le s.e.v. de Rn engendr´e par les vecteurs ζi1 , . . . , ζiq .
Pour expliquer cette d´efinition, nous avons besoin de quelques notations. Soit Xq la matrice
n × q ayant les colonnes ζi1 , . . . , ζiq . D’apr`es les r´esultats des sections pr´ec´edentes, les valeurs
pr´edites yb(q) `a l’aide des variables explicatives ζi1 , . . . , ζiq sont donn´ees par la formule
yb(q) = Xq (XqT Xq )−1 XqT y = Aq y.
La pr´ecision esp´er´ee de pr´ediction en utilisant ce mod`ele est
R(θ, Xq ) = Eθ [kb
y (q) − Xθk2 ].
Il serait naturel de choisir le mod`ele qui minimise cette quantit´e. Mais comme cette quantit´e
d´epend du param`etre inconnu θ, elle ne peut pas ˆetre calcul´ee. En revanche, Cq ne d´epend pas de
θ et elle jouit de la propri´et´e suivante.
Proposition 3.6. Sous l’hypoth`ese (R), σ
b2 Cq est un estimateur sans biais de R(θ, Xq ).

emonstration. D’une part, on peut simplifier R(θ, Xq ) comme suit :
R(θ, Xq ) = Eθ [kb
y (q) − Xθk2 ] = Eθ [kAq y − Xθk2 ]
= Eθ [kAq Xθ + Aq ξ − Xθk2 ]
= k(I − Aq )Xθk2 + Eθ [kAq ξk2 ]
= k(I − Aq )Xθk2 + Eθ [Tr(Aq ξξ T Aq )]
= k(I − Aq )Xθk2 + σ 2 q.
D’autre part, comme σ
b2 est un estimateur sans biais de σ 2 ,
Eθ (b
σ 2 Cq ) = Eθ [k(I − Aq )yk2 ] − (n − 2q)σ 2
= Eθ [k(I − Aq )Xθ + (I − Aq )ξk2 ] − (n − 2q)σ 2
= k(I − Aq )Xθk2 + Eθ [k(I − Aq )ξk2 ] − (n − 2q)σ 2
¡
¢
= k(I − Aq )Xθk2 + Eθ [Tr (I − Aq )ξξ T (I − Aq ) ] − (n − 2q)σ 2
= k(I − Aq )Xθk2 + (n − q)σ 2 − (n − 2q)σ 2
= k(I − Aq )Xθk2 + σ 2 q,
d’o`
u le r´esultat d´esir´e.

¤

Ce r´esultat indique que Cq est un bon estimateur du risque R(θ, Xq ) divis´e par σ 2 . C’est
pourquoi, si l’on a deux mod`eles ζi1 , . . . , ζiq et ζj1 , . . . , ζjq0 , on calculera les quantit´es Cq et Cq0
pour ces mod`eles, et on choisira le mod`ele ζi1 , . . . , ζiq si Cq est plus petit que Cq0 . Dans le cas
contraire, on choisira le mod`ele ζj1 , . . . , ζjq0 .
Ces consid´erations nous am`enent `a l’algorithme suivant : pour chaque q = 1, . . . , p fix´e, on
choisit le mod`ele Xq qui minimise R2 parmi tous les mod`eles `a q facteurs. On obtient les mod`eles
M1 , . . . , Mp tels que Mq contient q variables explicatives. On calcule pour chacun de ces mod`eles
la quantit´e Cq et on choisit le mod`ele M ∗ pour lequel Cq est minimal.

` UN FACTEUR (ONE WAY ANOVA)
3.9. ANALYSE DE VARIANCE A

33

3.9. Analyse de variance `
a un facteur (One way ANOVA)
L’objectif de l’analyse de variance est d’´etudier l’influence d’une variable qualitative f (dite
facteur) sur une variable quantitative Y (dite variable `a expliquer ou variable d´ependante). On
suppose que f a p modalit´es f1 , . . . , fp , c’est-`a-dire f ∈ {f1 , . . . , fp }. Sur n individus, on observe
les valeurs de f et de Y , et on groupe les observations selon les valeurs de f . En d’autres termes,
si ni d´esigne le nombre d’observations pour lesquelles f = fi , i = 1, . . . , p, alors on note
Y11 , . . . , Y1n1 les observations correspondant `a f = f1 ,
Y21 , . . . , Y2n2 les observations correspondant `a f = f2 ,
..
.
Yp1 , . . . , Ypnp les observations correspondant `a f = fp .
La question faisant l’objet de l’analyse de la variance est :
le facteur f a-t-il une influence significative sur la variable Y ?

(3.11)

Pour r´epondre `a cette question, on utilise le mod`ele
Yij = θi + ξij ,

j = 1, . . . , ni ,

i = 1, . . . , p,

o`
u θi repr´esente l’effet moyen de la modalit´e fi sur Y et ξij sont des erreurs al´eatoires distribu´ees
selon la loi normale N (0, σ 2 In ). On a bien sˆ
ur n1 + . . . + np = n.
Pour r´epondre `a la question (3.11), on teste l’hypoth`ese
H0 : θ1 = . . . = θp ,
contre l’alternative
H1 : ils existent i, i0 ∈ {1, . . . , q} tels que θi 6= θi0 .
On r´e´ecrit ce mod`ele sous forme matricielle :
¡
¢T
y = Xθ + ξ,
y = Y11 , . . . , Y1n1 , . . . , Yp1 , . . . , Ypnp ,
¡
¢
ξ = ξ11 , . . . , ξ1n1 , . . . , ξp1 , . . . , ξpnp
¡
¢T
θ = θ1 , . . . , θp
et la matrice X est donn´ee par



1n1 0n1 . . . 0n1

..
. 
X =  ...
. · · · ..  .
0np 0np . . . 1np
Th´
eor`
eme 3.5. Soit Y¯i la moyenne empirique de la suite (Yi1 , . . . , Yini ) et Y¯ la moyenne empirique globale
p ni
1 XX
¯
Y =
Yij .
n i=1 j=1
Si le vecteur des erreurs ξ suit la loi N (0, σ 2 I), alors
(1) l’EMC est donn´e par θb = (Y¯1 , . . . , Y¯p )T ,
(2) sous H0 , σ −2

p
X

ni (Y¯i − Y¯ )2 ∼ χ2p−1 ,

i=1

(3) sous H0 ,

p
X
i=1

ni (Y¯i − Y¯ )2 ⊥⊥

p X
ni
X
i=1 j=1

(Yij − Y¯i )2 ,

´
´
´
3. REGRESSION
LINEAIRE
MULTIVARIEE

34

(4) sous H0 ,
(n − p)
F =
(p − 1)

p
X

¯ − Y¯ )2

ni (Yi
i=1
p X
ni
X

∼ F(p − 1, n − p).

(Yij − Y¯i )2

i=1 j=1


emonstration. La premi`ere assertion d´ecoule du fait que l’EMC se calcule par la formule
θb = B −1 XT y o`
u

 

 T T
1n1 0n2 . . . 0Tnp
n1 0 . . . 0
1n1 0n1 . . . 0n1

.
.  . .
..
.  .
..
B = XT X =  ...
. · · · ..  =  .. .. · · · ..  ,
. · · · ..   ..
0 0 . . . np
0np 0np . . . 1np
0Tn1 0Tn2 . . . 1Tnp
et


Pn1

1Tn1 0Tn2 . . . 0Tnp
j=1 Y1j



..
. 
.
XT y =  ...
.
. · · · ..  y = P ..
np
T
T
T
0n1 0n2 . . . 1np
j=1 Ypj


D’o`
u on obtient θb = (Y¯1 , . . . , Y¯p )T .
Quant `a la deuxi`eme assertion, comme B est une matrice diagonale, on a
X
ni (Y¯i − Y¯ )2 = (θb − Y¯ 1p )T B(θb − Y¯ 1p ) = (θb − Y¯ 1p )T XT X(θb − 1p Y¯ ) = kX(θb − 1p Y¯ )k2 .
D’une part, on a Xθb = Ay.
D’autre part, X1p = 1n , par cons´equent
X1p Y¯ =
On en d´eduit que

X

1
1n (1Tn y) = (n−1 1n 1Tn )y.
n

ni (Y¯i − Y¯ )2 = k(A − n−1 1n 1Tn )yk2 .

Il est facile de v´erifier que n−1 1n 1Tn est le projecteur orthogonal dans Rn sur la droite {α1n :
α ∈ R}. Il est ´evident que cette droite est incluse dans le s.e.v. D engendr´e par les colonnes de
X (car la somme de ces colonnes est ´egale `a 1n ). Donc la matrice A − n−1 1n 1Tn est le projecteur
orthogonal sur le s.e.v.
D0 = {v ∈ D : v ⊥ 1n }.
Sous l’hypoth`ese H0 , tous les coefficients du vecteur θ sont ´egaux, d’o`
u θ = θ1 1p . On en d´eduit
−1
T
facilement que Xθ = θ1 1n . Par cons´equent, AXθ = n 1n 1n Xθ et on a
σ −2

p
X

ni (Y¯i − Y¯ )2 = σ −2 k(A − n−1 1n 1Tn )Xθ + (A − n−1 1n 1Tn )ξk2 = k(A − n−1 1n 1Tn )(σ −1 ξ)k2 .

i=1

Vu que σ −1 ξ suit la loi normale N (0, In ) est A − n−1 1n 1Tn est un projecteur orthogonal sur un
s.e.v. de dimension p − 1, la derni`ere expression suit la loi khi-deux `a p − 1 degr´es de libert´e.
Pour v´erifier la troisi`eme assertion du th´eor`eme, on utilise l’´egalit´e
p X
ni
X

(Yij − Y¯i )2 = ky − Xθb k2 = k(I − A)yk2 = k(I − A)Xθ + (I − A)ξk2 .

i=1 j=1

Sous H0 , on a (I − A)Xθ = θ1 (I − A)1n = 0, donc
p X
ni
X
(Yij − Y¯i )2 = k(I − A)ξk2 .
i=1 j=1

` UN FACTEUR (ONE WAY ANOVA)
3.9. ANALYSE DE VARIANCE A

35

Il est ´evident que (I − A) projette sur le s.e.v. D ⊥ de Rn orthogonal `a D. Comme D0 ⊂ D, les
s.e.v. D ⊥ et D0 sont orthogonaux, d’o`
u l’ind´ependance de
p
p X
ni
X
X
(Yij − Y¯i )2 = k(I − A)ξk2 et
ni (Y¯i − Y¯ )2 = k(A − n−1 1n 1Tn )ξk2 .
i=1 j=1

i=1

La preuve de la derni`ere assertion d´ecoule des mˆemes calculs : posons
p X
ni
X
η1 =
(Yij − Y¯i )2 = k(I − A)ξk2
i=1 j=1

et
η2 =

p
X

ni (Y¯i − Y¯ )2 = k(A − n−1 1n 1Tn )ξk2 .

i=1

Il est clair que σ −2 η1 ∼ χ2n−p et σ −2 η2 ∼ χ2p−1 . En cons´equence,
(n − p)η2
σ −2 η2 /(p − 1)
= −2
∼ F(p − 1, n − p).
(p − 1)η1
σ η1 /(n − p)
Ceci compl`ete la d´emonstration du th´eor`eme.
F =

¤

Dans ce mod`ele, les valeurs pr´edites sont

  

1n1 0n1 . . . 0n1
Y¯1
Y¯1 1n1

..
.  .   . 
yb = Xθb =  ...
. · · · ..   ..  =  ..  .
0np 0np . . . 1np
Y¯p
Y¯p 1np
Il r´esulte de cette ´egalit´e que
η1 =

p X
ni
X
(Yij − Y¯i )2 = ky − ybk2 = SSE
i=1 j=1

est la variance r´esiduelle et
η2 =

p
X

ni (Y¯i − Y¯ )2 = kb
y − Y¯ k2 = SSR

i=1

est la variance expliqu´ee par le facteur f . Comme X v´erifie l’hypoth`ese (I), on a T SS = SSR +
SSE, ce qui implique
n − p η2
n−p
SSR
F =
·
=
·
.
p − 1 η1
p − 1 T SS − SSR
Si le facteur f n’a pas d’influence significative sur Y , alors les moyennes Y¯i , i = 1, . . . , p, sont
proches de la moyenne globale Y¯ . Par cons´equent, si H0 est vraie, la variance expliqu´ee SSR est
petite, ce qui traduit le fait que f explique mal la variable Y . Par cons´equent, il est naturel de
d´efinir la r´egion critique du test de la mani`ere suivante :
R = {y : F > c}
o`
u la constante c doit ˆetre choisie en sorte que ce test soit de niveau α. Soit Θ0 = {θ ∈ Rp : θ1 =
. . . = θp }. Pour que ce test soit de niveau α, il faut que supθ∈Θ0 Pθ (R) ≤ α. Or, il d´ecoule de
l’assertion (4) du Th´eor`eme 3.5 que, pour tout θ ∈ Θ0 ,
Pθ (R) = 1 − Pθ (F ≤ c) = 1 − FF (p−1,n−p) (c).
En cons´equence, ce test est de niveau α, si c ≥ q1−α (p − 1, n − p) o`
u q1−α (p − 1, n − p) d´esigne le
quantile d’ordre 1 − α de la loi de Fisher F(p − 1, n − p). Parmi toutes ces valeurs de c, celle qui
fournit le test le plus puissant est c = q1−α (p − 1, n − p). C’est pourquoi le test ANOVA est d´efini
comme suit :



on rejette l’hypoth`ese H0 si F > q1−α (p − 1, n − p),
on accepte l’hypoth`ese H0 , si F ≤ q1−α (p − 1, n − p).


acpstid2_copy.pdf - page 1/35
 
acpstid2_copy.pdf - page 2/35
acpstid2_copy.pdf - page 3/35
acpstid2_copy.pdf - page 4/35
acpstid2_copy.pdf - page 5/35
acpstid2_copy.pdf - page 6/35
 




Télécharger le fichier (PDF)


acpstid2_copy.pdf (PDF, 374 Ko)

Télécharger
Formats alternatifs: ZIP



Documents similaires


master biostat sous r et rcmdr1
master biostat sous spss1
master biostatistique sous r et spss 1
ch1
exercices facultatifs
examen 2 statistique

Sur le même sujet..