afcjanvier copy .pdf



Nom original: afcjanvier_copy.pdfTitre: CoursSM.totAuteur: fabrice

Ce document au format PDF 1.4 a été généré par Texturesª: LaserWriter 8 FU1-8.7 / Acrobat Distiller 5.0.1 pour Macintos, et a été envoyé sur fichier-pdf.fr le 28/12/2011 à 22:38, depuis l'adresse IP 41.104.x.x. La présente page de téléchargement du fichier a été vue 1008 fois.
Taille du document: 233 Ko (14 pages).
Confidentialité: fichier public


Aperçu du document


Chapitre 6

L’analyse des correspondances
6.1

Contexte: d´
ependance entre deux variables cat´
egorielles

On s’int´eresse `a l’interaction de deux variables cat´egorielles X et Y , prenant respectivement m1 et m2
modalit´es. On dispose d’une table de contingence N (m1 × m2 ) dont les composantes njk repr´esentent
le nombre d’individus class´es dans la modalit´e j pour la variable X et la modalit´e k pour la variable
Y . On d´efinit les marges en ligne nj• et les marges en colonne n•k par:
nj• =

m2


njk

n•k =

n=

m2
m1


njk

(6.1)

j=1

k=1

L’effectif total n est alors:

m1


njk =

j=1 k=1

m1

j=1

nj• =

m2


n•k

(6.2)

k=1

Si les variables X et Y ´etaient ind´ependantes, on s’attendrait, conditionnellement aux marges, a` des
effectifs th´eoriques ou attendus
nj• n•k
nth
(6.3)
jk :=
n
En g´en´eral ce n’est pas le cas, et la quantit´e khi2 d´efinie par:
khi2 =

m1
m2
2

(njk − nth
jk )
j=1 k=1

nth
jk

m1
m2


n2jk
= n((
) − 1)
n n
j=1 k=1 j• •k

(6.4)

est une mesure (dite du khi-carr´e) de l’´ecart `a l’ind´ependance entre X et Y . La quantit´e φ2 := khi2/n
est appel´ee phi-carr´e ou inertie: si, en gardant les mˆemes profils, on doublait la taille n de l’´echantillon,
le khi-carr´e doublerait tandis que le phi-carr´e resterait constant. φ2 varie de 0 (cas de l’ind´ependance)
`a min(m1 − 1, m2 − 1) (cas de la d´ependance fonctionnelle, o`
u une variable cat´egorielle d´etermine
enti`erement l’autre).
khi2 = nφ2 est la variable de d´ecision pour tester :
H0 : “X et Y sont ind´ependantes” (dans la population dont a ´et´e extrait l’´echantillon)
H1 : “X et Y sont d´ependantes”.
On rejette H0 au niveau α si khi2 > χ21−α [(m1 − 1)(m2 − 1)] .
Exemple: On a relev´e la commune de domicile (X) et le niveau maximum de formation (Y ) de
n = 169 836 personnes de plus de quinze ans habitant le district de Lausanne.

81

Figure 1: effectifs observ´es

Figure 2: effectifs th´eoriques
Les m1 = 12 communes sont: “1=Belmont”, “2=Cheseaux”, “3=Crissier”, “4=Epalinges”, “5=Jouxtens”, “6=Lausanne”, “7=Le Mont”, “8=Paudex”, “9=Prilly”, “10=Pully”, “11=Renens”, “12=Romanel”. Les m2 = 8 formations sont: “aucune formation”, “scolarit´e obligatoire”, “apprentissage”,
“baccalaur´eat”, “formation professionnelle sup´erieure”, “´ecole professionnelle sup´erieure”, “universit´e”, “autre formation”. Les effectifs observ´es et th´eoriques (sous l’hypoth`ese d’ind´ependance) sont
donn´ees en figures 1 et 2.
L’hypoth`ese d’ind´ependance est naturellement rejet´ee (khi2[77] = 5508.39, p est tr`es petit, bien
au-del`
a de la marge de droite de toutes les tables connues); c’est g´en´eralement le cas lorsque les effectifs
totaux sont aussi grands, ce qui a pour effet d’amplifier le moindre ´ecart `a l’ind´ependance constat´e au
niveau des fr´equences relatives.
82

6.2

Profils et distances entre profils

Il serait dommage d’en rester l`a: constater une d´ependance, c’est bien, l’expliciter (en indiquant,
de fa¸con aussi synth´etique que possible, quelles sont les modalit´es de X sur- ou sous-repr´esent´ees
relativement `a telle ou telle modalit´e de Y ), c’est mieux! L’analyse factorielle des correspondances
(AFC) vise pr´ecis´ement `a “d´ecomposer” cette d´ependance selon un ensemble de facteurs ind´ependants
(en un sens qui sera explicit´e par la suite), de mˆeme que l’ACP d´ecompose la variance totale selon un
ensemble de facteurs non corr´el´es.

Figure 3: profils lignes
Le profil de la j-`eme modalit´e-ligne (de X) est le vecteur ligne wj := (wj1 , wj2 , ..., wjm2 ) obtenu
par division de la j-`eme ligne de la table de contingence par l’effectif marginal nj• : le profil-ligne donne
les r´epartitions en pourcentage a` l’int´erieur de chaque ligne (figure 3). On d´efinit de mani`ere analogue
∗ , w ∗ , ..., w ∗
le profil-colonne (transpos´e) wk∗ := (wk1
eme modalit´e de Y (figure 4):
k2
km1 ) de la k-`
wjk :=

njk
nj•


wkj
:=

njk
n•k

(6.5)

Dans le tableau des profils-ligne, les marges de ligne sont de 100%. On a repr´esent´e en marges de
colonne la quantit´e ρk := n•k /n, qui est le pourcentage d’occupation ou masse de chaque cat´egorie
colonne, appel´e aussi profil-ligne moyen ou centre de gravit´e. Par exemple, les bacheliers forment
ρ4 = 8.83% de l’effectif, ind´ependamment du lieu de domicile.
De fa¸con analogue, on trouve dans le tableau des profils-colonne des marges en ligne de 100%, et
en marges en colonne la quantit´e ρ∗j := nj• /n, qui est le pourcentage d’occupation ou masse de chaque
cat´egorie ligne, appell´e aussi profil-colonne moyen. Par exemple, les habitants de Lausanne forment
ρ∗6 = 64.9% de l’effectif, toutes formations confondues.
Par construction, chaque profil-ligne wj (ou profil-colonne wk∗ ) d´efinit une distribution de proba



bilit´e, satisfaisant k wjk = 1 (et j wkj
= 1).
La d´enomination “profil moyen” est justifi´ee par les propri´et´es
m1


m2


ρ∗j wjk = ρk

j=1

k=1

83


ρk wkj
= ρ∗j

(6.6)

Il s’agit donc de moyennes pond´er´ees, avec pond´eration ρ∗j pour la j-`eme ligne, et ρk pour la k-`eme




colonne. Naturellement, j ρ∗j = k ρk = 1.

Figure 4: profils colonne
On d´efinit encore fjk := njk /n qui est la proportion d’individus poss´edant la j-`eme modalit´e de
X et la k-`eme modalit´e de Y (proportion jointe). S’il y avait ind´ependance, il y aurait par exemple
ρ∗11 ρ7 = 8.88% × 8.19% = 0.73% individus dans l’´echantillon qui habiteraient Renens et poss´ederaient
une formation universitaire. Or, on en observe f11 7 = 437/169836 = 0.26%: cette sous-repr´esentation
(relativement `a l’hypoth`ese d’ind´ependance) peut se d´ecrire en termes de r´epulsion entre les cat´egories
“Renens” et “universit´e”. De fa¸con g´en´erale, il y a attraction entre les cat´egories j et k si fjk > ρ∗j ρk ,
et r´epulsion si fjk < ρ∗j ρk . Si fjk = ρ∗j ρk pour toutes les cat´egories j et k, il y a ind´ependance. Dans
ce dernier cas, il est facile de voir que tous les profils-ligne (respectivement les profils-colonne) sont
´egaux entre eux, et ´egaux au profil-ligne moyen (respectivement au profil-colonne moyen). En d’autres
termes, la d´ependance observ´ee entre X et Y est due `a une diff´erence entre profils-ligne (ou, de fa¸con
´equivalente, entre profils-colonne).



Comment mesurer ces diff´erences? La quantit´e dist2e (j, j ) := k (wjk − wj k )2 , dite distance euclidienne, est une mesure de dissimilarit´e entre les profils-ligne j et j ; elle a cependant le d´esavantage
de d´ependre trop fortement des masses-colonne les plus ´elev´ees (scolarit´e obligatoire ou apprentissage,


dans notre exemple). On lui pr´ef`ere alors la mesure dist2χ (j, j ) := k (wjk − wj k )2 /ρk , dite distance
du khi-carr´e. Son nom est motiv´e par le fait que la somme pond´er´ee des carr´es des distances des
profils-ligne au profil-ligne moyen ρk n’est autre que le phi-carr´e:
m1


ρ∗j dist2χ (j, ρ) = φ2 =

j=1

khi2
n

(6.7)

On d´efinit de mˆeme la distance du khi-carr´e entre profils-colonne par
dist2χ (k, k ) :=

m1
∗ − w ∗ )2

(wkj
k j
j=1

ρ∗j

avec

m2

k=1

ρk dist2χ (k, ρ∗j ) = φ2 =

khi2
n

(6.8)

Une autre propri´et´e remarquable de la distance (ou m´etrique) dist2χ est son invariance par agr´egation:
dist2χ (j, j ) reste en effet inchang´ee si l’on regroupait deux colonnes k et k poss´edant le mˆeme profil
84

(ce qui ferait passer le nombre de modalit´es de Y de m2 `a m2 − 1): dans notre exemple, les cat´egories
professionnelles retenues l’ont ´et´e principalement en raison de la disponibilit´e des donn´ees; on peut
tr`es bien imaginer d’autres d´ecoupages, plus ou moins fins. La propri´et´e d’invariance par agr´egation
assure une certaine insensibilit´e (ou stabilit´e) de l’analyse au choix du d´ecoupage en cat´egories, ce qui
est rassurant.
Une propri´et´e analogue a bien sˆ
ur lieu pour les colonnes: les modalit´es “3=Crissier” et “11=Renens”
ayant par exemple un profil quasiment identique, on pourrait les regrouper sans que cela ne modifie
sensiblement les distances dist2χ entre les diff´erents niveaux de formation.

6.3

Interp´
etation g´
eom´
etrique de l’AFC

Comme le montrent (6.7) et (6.8), l’inertie s’interpr`ete comme une variance pond´er´ee des profils;
rappelons que, comme l’indique (6.6), ρ et ρ sont les profils moyens (respectivement de ligne et de
colonne). On peut alors, comme en ACP, d´eterminer la projection sur un plan de dimension k (k = 2
le plus souvent) maximisant la variance projet´ee (ou, de fa¸con ´equivalente, minimisant la somme des
carr´es des distances au sens de la m´etrique dist2χ ). En contraste avec l’ACP cependant, il ne s’agira
ici plus de projeter des variables quantitatives X1 , ..., Xp , mais des modalit´es-ligne j = 1, ..., m1 de X
ou des modalit´es-colonne k = 1, ..., m2 de Y .
Supposons, pour commencer, que soient d´etermin´es dans ce plan les m1 points x1 , ..., xm1 correspondant aux profils-ligne w1 , ..., wm1 (o`
u wj = (wj1 , wj2 , ..., wjm2 )), ainsi que le profil moyen ρ plac´e
`a l’origine (x0 = 0). On peut alors repr´esenter le k-`eme point-colonne par le point yk correspondant a`
la moyenne pond´er´ee des xj selon le profil-colonne wk∗ , i.e.
yk =

m1



wkj
xj

(6.9)

j=1

Chaque point yk ´etant une moyenne pond´er´ee des points xj , le nuage y sera contenu dans le nuage x,
comme le montre la figure 5.

Figure 5: profils-colonne = moyenne pond´er´ee des profils-ligne (repr´esentation principale en lignes)

85

Figure 6: profils-ligne = moyenne pond´er´ee des profils-colonne (repr´esentation principale en colonnes)
On pourrait proc´eder invers´ement: `a partir de m2 points y1 , ..., ym2 correspondant aux profilscolonne (avec y0 = 0 correspondant a` ρ), les points-ligne x1 , ..., xm1 seraient alors d´etermin´es par
xj =

m2


wjk yk

(6.10)

k=1

Le nuage x sera alors contenu dans le nuage y (figure 6).
Comme on le constate, les nuages int´erieurs ne sont pas tr`es lisibles! D’autre part, les ´equations (6.9)
et (6.10) ne peuvent pas ˆetre satisfaites simultan´ement (cela ´equivaudrait a` demander que chaque nuage
se trouve `a l’int´erieur de l’autre). On essaiera alors de dilater chaque nuage int´erieur d’un coefficient
commun constant (un coefficient de dilatation par axe1 ), ce qui ´equivaut a` multiplier les membres
de droite de (6.9) et (6.10) par une certaine matrice diagonale2 , cette derni`ere ´etant d´etermin´ee
par la condition de validit´e simultan´ee des deux ´equations ainsi modifi´es. On aboutit alors a` une
repr´esentation sym´etrique des modalit´es-ligne et des modalit´es-colonne (figure 7).

Figure 7: repr´esentation sym´etrique des profils-colonne et profils-ligne
1
2


le coefficient relatif `
a l’axe α se trouvera ˆetre 1/ λα , d´efini plus loin.
−1/2
a savoir, Λ
`
.

86

6.4

Factorisation et contributions

Quelle sont les “bons” coefficients de dilatation, et surtout, quel est le plan “optimal” sur lequel
repr´esenter simulatan´ement profils-ligne et profils-colonne? L’analyse des correspondances r´epond a`
ces questions en factorisant le phi-carr´
e en une somme de contributions ind´
ependantes. A
chaque contribution correspond un axe factoriel. Ces axes forment une base sur laquelle on pourra
repr´esenter simultan´ement profils-ligne et profils-colonne par leurs scores factoriels.
La quantit´e `a factoriser peut s’´ecrire, en vertu de (6.4):
m1
m1
m2
m2
2


n2jk
fjk
khi2


−1=
= φ2 =
∗ ρ − 1 = Tr(AA ) − 1 = Tr(A A) − 1
n
n
n
ρ
j•
•k
k
j=1 k=1
j=1 k=1 j

(6.11)

o`
u la composante ajk de la matrice A (m1 × m2 ) est d´efinie par
fjk
ajk =
ρ∗j ρk

A = diag(ρ∗ )− 2 P diag(ρ)− 2
1

c’est-`a-dire

1

(6.12)

o`
u P est la matrice (m1 × m1 ) contenant les fjk , qui sont les fr´equences jointes, diag(ρ∗ ) est la matrice
diagonale (m1 × m1 ) contenant les poids ligne, et diag(ρ) est la matrice diagonale (m2 × m2 ) contenant
les poids colonne:





diag(ρ∗ ) = 

ρ∗1 0
0 ρ∗2
... ...
0 0

... 0
... 0
... ...
... ρ∗m1










diag(ρ) = 





ρ1 0
0 ρ2
... ...
0 0

... 0
... 0
... ...
... ρm2







(6.13)

En r´esum´e, factoriser le khi2 ou le φ2 revient, en fonction de (6.11), a` trouver les ve.p. et va.p de AA
ou A A. On peut montrer que les matrices AA et A A ont en g´en´eral r + 1 valeurs propres communes
positives λ0 ,...λr , o`
u r = min(m1 − 1, m2 − 1). Leurs vecteurs propres (norm´es) uα et v α satisfont
AA uα = λα uα

A Av α = λα v α

(6.14)

et sont li´es entre eux par les relations (voir exercice)
1
v α = √ A uα
λα

1
uα = √ Av α
λα

(6.15)

La connaissance des valeurs propres λα et vecteurs propres uαj et vkα permet de reconstituer A:
ajk =

r


λα uαj vkα

(6.16)

α=0

Cette derni`ere ´equation est une illustration du th´eor`eme de d´ecomposition singuli`ere, lui-mˆeme g´en´eralisant
le th´eor`eme de d´ecomposition spectrale `a des matrices non sym´etriques ou mˆeme non carr´ees, comme
c’est le cas ici.
Finalement, on peut v´erifier (`
a l’aide de (6.12)) que u0 , de composantes



ρ∗j , est vecteur propre

de AA pour la valeur propre maximale λ0 = 1 (dite va.p. triviale), de mˆeme que v 0 , de composantes

ρk , est vecteur propre de AA pour la mˆeme valeur propre. En d´efinitive:
r
r
r



khi2

λα − 1 = 1 +
λα − 1 =
λα
φ =
= Tr(AA ) − 1 =
n
α=0
α=1
α=1
2

(6.17)

Comme en ACP, on ordonne les va.p. non triviales en ordre d´ecroissant: 1 ≥ λ1 ≥ λ2√≥ ... ≥ λr ≥ 0.
λα repr´esente la contribution apport´ee par le α-i`eme facteur au phi-carr´e ou inertie. λα est parfois
87

appel´e α-i`eme valeur singuli`ere. Dans notre exemple, r = min(12 − 1, 8 − 1) = 7; les deux premiers
facteurs expliquent (λ1 + λ2 )/φ2 = 93.4% de l’´ecart total `a l’ind´ependance (khi2 ou φ2 ; voir figure 8),
ce qui est tr`es satisfaisant.

Figure 8: valeurs propres
` l’inertie dans la dimension α, et (vkα )2 est ap(uαj )2 est appel´e contribution de la j-`eme ligne a
pel´e contribution de la k-`eme colonne `
a l’inertie dans la dimension α (ces contributions sont parfois

1 α 2

m2 α 2
qualifi´ees d’absolues). Les vecteurs propres ´etant norm´es ( m
j=1 (uj ) =
k=1 (vk ) = 1), la somme
de leurs contributions absolues vaut 100%. La figure 7 nous indique par exemple que la premi`ere
dimension est essentiellement cr´ee par les ´ecarts (au profil moyen) de “10=Pully” d’une part et de
“3=Crissier” et “11=Renens” d’autre part pour les lignes, et de “scolarit´e obligatoire” et de “universit´e” pour les colonnes. On pourrait alors nommer cette dimension “bri`evet´e de la formation” (pour
d´eterminer l’orientation positive ou n´egative de la dimension, on pourra s’aider de la figure 7, par
exemple).

Figure 9: contributions absolues3 (uαj )2 et (vkα )2






Les quantit´es rα=1 λα (uαj )2 et rα=1 λα (vkα )2 sont appell´ees respectivement inertie de la ligne j
et inertie de la colonne k. En fonction de ce qui pr´ec`ede, l’inertie totale φ2 est alors la somme des
inerties de toutes les lignes ou de toutes les colonnes.
(6.12) et (6.16) permettent de factoriser les fr´equences jointes observ´ees, dans la formule suivante
fjk =



r
r


ρ∗j ρk
λα uαj vkα = ρ∗j ρk + ρ∗j ρk
λα uαj vkα
α=0

(6.18)

α=1

appel´ee formule de reconstitution. Lorsqu’il y a ind´ependance, λ1 = ... = λr = 0, d’o`
u fjk = ρ∗j ρk ,
comme il se doit.
3

2
α 2
souvent not´ees CTRα (j) pour (uα
j ) et CTRα (k) pour (vk ) .

88

6.5

Repr´
esentation graphique et interpr´
etation

Pour pouvoir repr´esenter les lignes j et les colonnes k sur l’espace engendr´e par les facteurs α =
1, 2, ..., r, il faut attribuer a` chaque j et k des coordonn´
ees sur chacun des axes ou dimensions
α = 1, 2, ..., r. Ces coordonn´ees, appel´ees scores factoriels des lignes et colonnes sont g´en´eralement
choisies4 comme (voir figure 10)


α λ
u
vkα λα
α
j
α
α
xj :=
et
yk := √
(6.19)
ρk
ρ∗
j

o`
u xαj est la coordonn´ee du j-`eme profil-ligne dans la dimension α, et ykα est la coordonn´ee du k-`eme
profil-colonne dans la dimension α. Ce choix est motiv´e par le fait que le carr´e de la distance (ordinaire,
i.e. euclidienne) dans le graphique entre les lignes j et j vaut alors:
dist2e (xj , xj )

=

dist2χ (j, j )

=

m2

(wjk − wj k )2
k=1

ρk

(6.20)

De mˆeme, la distance (euclidienne) entre les points repr´esentatifs des profils-colonnes correpond a` la
distance du khi2 entre les profils-colonne:
dist2e (yk , yk ) = dist2χ (k, k ) =

m1
∗ − w ∗ )2

(wkj
k j
j=1

ρ∗j

(6.21)

Deux lignes ou deux colonnes seront donc d’autant plus proches dans le plan factoriel
que leurs profils seront semblables.

Figure 10: scores factoriels xαj et ykα
Le profils-ligne moyen est ρ, de composantes ρk , k = 1, ..., m2 . Son point repr´esentatif xα0 s’obtient
comme moyenne pond´er´ee des xαj :
xα0 =


m1


ρ∗j xαj

(6.22)

j=1

On trouve, en vertu de l’orthogonalit´e de u0j = ρ∗j aux autres uαj , que xα0 = 0 pour tout α; en d’autres
termes, le nuage des scores factoriels est centr´e sur chaque dimension α, et l’origine du plan factoriel
repr´esente le profil moyen de ligne ρ (ou de colonne, ρ): des modalit´es proches de l’origine (relativement
`a toutes les dimensions α = 1, ..., r) ont donc des profils proches du profil moyen, c’est-`
a-dire de la
distribution attendue sous ind´ependance. La variance pond´er´ee du nuage de points dans la direction

1 ∗ α 2
α est ´egale `a la valeur propre correspondante: m
et´e analogue a lieu pour
j=1 ρj (xj ) = λα (une propri´
les colonnes).
4

α
et souvent not´ees ψαj pour xα
j et φαk pour yk .

89

Les sommes ci-dessus (moyenne, variance) portaient sur toutes les m1 (ou m2 ) modalit´es, la dimension α ´etant fixe. On peut aussi consid´erer des sommes portant sur toutes les dimensions, la modalit´e
j ou k ´etant fix´ee; en particulier, le carr´e de la distance de chaque point a` l’origne est reli´e `a l’inertie
de la modalit´e correspondante:
dist2e (xj , 0) = xj 2e = dist2χ (j, ρ) =
dist2e (yk , 0) = yk 2e = dist2χ (k, ρ∗ ) =

r
1
1
λα (uαj )2 = ∗ inertie de j

ρj α=1
ρj
r
1
1
λα (vjα )2 =
inertie de k
ρk α=1
ρk

(6.23)

(6.24)

Il reste `a pouvoir interpr´eter la position relative des profils-ligne xαj et profils-colonne ykα . (6.15) et
(6.19) entraˆınent les formules dites de transition:
m1
1
w∗ xα
ykα = √
λα j=1 kj j

m2
1
xαj = √
wjk ykα
λα k=1

(6.25)

a` comparer avec (6.9) et (6.10):
√ la repr´esentation sym´etrique de la figure 7 s’obtient en dilatant le
nuage int´erieur d’un facteur 1/ λα dans la direction α: dans la figure 5, dite repr´esentation principale
en lignes, le nuage int´erieur est compos´e des points ykα ; dans la figure 6, dite repr´esentation principale
en colonnes, le nuage int´erieur est compos´e des points xαj ; dans les deux cas, la dilatation du nuage


int´erieur d’un coefficient de 1/ λ1 = 6.47 selon l’axe 1 et d’un coefficient de 1/ λ2 = 13.47 selon
l’axe 2 produit la figure 7.
La formule de reconstitution permet d’´ecrire:
fjk − ρ∗j ρk =



ρ∗j ρk (Λ− 2 xj , yk ) =
1



ρ∗j ρk (xj , Λ− 2 yk )
1

o`
u (a, b) d´enote le produit scalaire a b. L’interpr´etation est alors la suivante:
1. si l’angle (xj , yk ) entre les vecteurs xj et yk , mesur´e depuis l’origine, est aigu (i.e.< 90◦ ), les
modalit´es j de X et k de Y s’attirent, i.e. fjk > ρ∗j ρk 5 .
2. si l’angle (xj , yk ) entre les vecteurs xj et yk , mesur´e depuis l’origine, est obtus (i.e.> 90◦ ), les
modalit´es j de X et k de Y se repoussent, i.e. fjk < ρ∗j ρk .
3. si l’angle (xj , yk ) entre les vecteurs xj et yk , mesur´e depuis l’origine, est droit (i.e.≈ 90◦ ), les
modalit´es j de X et k de Y n’interagissent pas, i.e. fjk ≈ ρ∗j ρk .
La plupart des interpr´etations d’une AFC ont lieu dans le plan factoriel engendr´e par les deux
premi`eres dimensions α = 1, 2. Une modalit´e proche de l’origine peut alors t´emoigner d’un faible
´ecart au profil moyen, mais aussi, peut-ˆetre, dans le cas o`
u cette modalit´e poss´ederait de grandes
composantes dans des dimensions sup´erieures α ≥ 3, d’une mauvaise repr´esentation de cette derni`ere.
On contrˆ
ole cette ´eventualit´e en ´evaluant les quantit´es

2

α 2
α=1 (xj )

r
α 2
α=1 (xj )


2
(cα )2
(y 1 )2 + (yk2 )2

rα=1 kα 2 = k
2

(x1j )2 + (x2j )2
=
xj 2e

α=1 (yk )

1

yk e

1

(6.26)

Il s’agit en fait de l’angle entre Λ− 2 xj et yk , ou, de fa¸con ´equivalente, de l’angle entre xj et Λ− 2 yk : cette complication
(qui peut avoir des cons´equences fˆ
acheuses lors de l’interpr´
` deux
√ etation
√ des relations de deux modalit´es appartenant a
quadrants diff´erents du plan factoriel, pour autant que λ1 et λ2 soient diff´erents) provient bien sˆ
ur de la dilatation
du nuage int´erieur aboutissant `
a la repr´esentation sym´etrique (dite aussi “pseudo-barycentrique”) de la figure 7; dans les
repr´esentations principales des figures 5 et 6 (dites aussi “barycentriques”), l’angle `
a consid´erer est exactement l’angle
entre xj et yk , sans avoir `
a effectuer de corrections suppl´ementaires.
5

90

appel´ees respectivement contribution des deux premiers facteurs a
` l’inertie de la ligne j et de la colonne
6
k sont proches de l’unit´e; ces contributions sont parfois qualifi´ees de relatives (voir figure 11).
Il s’ensuit que les lignes ou colonnes proches de l’origine sont souvent mal repr´esent´ees (`a moins que
xj 2e ou yk 2e soient ´egalement petits), et donc difficiles `a interpr´eter. Dans notre exemple, toutes les
lignes sont bien repr´esent´ees, ainsi que toutes les colonnes, `a l’exception notable de “autre formation”.

Figure 11: contributions relatives des dimensions a` l’inertie des modalit´es

6.6

L’analyse des correspondances multiples

6.6.1

Variables indicatrices

Toute variable cat´egorielle X `
a m modalit´es peut se mettre sous forme disjonctive: il s’agit de cr´eer
m variables Z = (z1 , ..., zm ) dont les scores sont zj = 1 si l’individu poss`ede la modalit´e j, et zj = 0
sinon. zj est appel´ee variable indicatrice de la j-`eme modalit´e. La moyenne pj := z¯j n’est autre que la
proportion d’individus dans l’´echantillon poss´edant la modalit´e j: l’introduction de la forme disjonctive
Z = (z1 , ..., zm ) permet d’effectuer des op´erations quantitatives (moyenne, variance, ...) a` partir d’une
variable cat´egorielle X. Par exemple, pour m = 3,




les scores X = 



1
3
2
1
2











 deviennent Z = 





1
0
0
1
0

0
0
1
0
1

0
1
0
0
0









(6.27)

Ce tableau disjonctif Z, de type (n × m) (o`
u n est la taille de l’´echantillon), peut ˆetre formellement
consid´er´e comme un tableau de donn´ees de m variables quantitatives. Cette repr´esentation peut se
g´en´eraliser au cas de p variables cat´egorielles X1 ,...,Xp `a m1 ,....,mp modalit´es. Par exemple, pour p = 3
variables prenant respectivement 3,2 et 2 modalit´es, les donn´ees




(X1 |X2 |X3 ) = 



6.6.2

1
3
2
1
2

1
1
1
2
2

1
2
1
1
2











 deviennent Z = (Z1 |Z2 |Z3 ) = 





1
0
0
1
0

0
0
1
0
1

0
1
0
0
0

1
1
1
0
0

0
0
0
1
1

1
0
1
1
0

0
1
0
0
1









(6.28)

Equivalence de diverses approches

A partir des formes disjonctives Zj , on peut former la table (mj × mk ) de contingence Njk entre les
variables Xj et Xk par
Njk = Zj Zk
(6.29)
6

souvent not´ees Cos2α (j) et Cos2α (k): dans (6.26), les d´enominateurs peuvent ˆetre interpr´et´es comme les carr´es de
l’hypoth´enuse

91

En particulier, la matrice diagonale Dj := Zj Zj contient les effectifs correpondants aux mj modalit´es
de la variable Xj .
Lorsque p = 2, il se trouve que la diagonalisation du tableau disjonctif Z, ou encore celle de
la matrice Z Z (tableau dit de Burt) conduisent aux mˆemes valeurs et vecteurs propres que ceux
` partir du tableau de
obtenus par la diagonalisation des matrices AA et A A, elles-mˆemes obtenues a
contingence N .: en r´esum´e, les objets principaux de l’analyse en correspondances auraient pu ˆetre
obtenus a` partir des matrices Z ou Z Z plutˆ
ot que N .
L’avantage de l’utilisation de Z ou Z Z est que ces matrices sont bien d´efinies pour un nombre quelconque p de variables cat´egorielles, alors que le tableau de contingence N fait explicitement r´ef´erence
`a p = 2 variables seulement. Cette possibilit´e permet la pratique de l’analyse des correspondances
multiples, aboutissant a` une repr´esentation factorielle simultan´ee de m1 + m2 + ... + mp cat´egories
appartenant a` p variables. En principe, l’interpr´etation d’un tel plan reste grosso modo le mˆeme;
cependant, les valeurs propres, toujours interpr´etables en termes de “variance pond´er´ee du nuage de
point” (sur chaque axe), n’ont plus le statut de “pourcentage de khi2 ou de φ2 expliqu´e”, ces derniers
n’´etant plus d´efinis.

6.7

Repr´
esentation en ´
el´
ements suppl´
ementaires

Dans les m´ethodes factorielles (ACP, AFC simple ou multiple, analyse discriminante), il arrive fr´equemment
que la cr´eation du premier ou du second axe soit presque enti`erement due `a un seul ´el´ement (individu
ou modalit´e, selon le contexte). Dans un tel cas, la pr´esence de cet ´el´ement masque (“´ecrase”) d’autres
relations, plus fines, entre les ´el´ements restants.
Si l’on d´esire ´etudier ces relations sans pour autant supprimer purement et simplement l’´el´ement
dominant, on pourra adopter le compromis dit de repr´esentation en ´el´ements suppl´ementaires, qui
consiste `a
1. effectuer l’analyse (ACP, AFC, etc..) sur la base de tous les ´el´ements `a l’exception de l’´el´ement
dominant
2. calculer les scores factoriels de l’´el´ement dominant, en utilisant la transformation lin´eaire [scores
bruts] → [scores factoriels] d´etermin´ee au point pr´ec´edent, et ne d´ependant que des ´el´ements
non dominants
3. repr´esenter alors simultan´ement les ´el´ements dominants et non dominants sur le plan factoriel
ad´equat
Par construction, l’´el´ement dominant est alors mal repr´esent´e (puisqu’il g´en`ere une dimension a` lui tout
seul, dimension n’apparaissant plus dans la repr´esentation factorielle en ´el´ements suppl´ementaires);
cependant, le rapport qu’entretient l’´el´ement dominant avec les autres ´el´ements (relativement aux
relations “fines” suppos´ees masqu´ees par l’approche directe) apparaˆıtra alors particuli`erement clairement.
La technique de la repr´esentation en ´el´ements suppl´ementaires s’applique ´egalement lorsqu’on
distingue, comme en analyse discriminante, un ´echantillon d’apprentissage (`a partir duquel sont
d´etermin´es les axes factoriels), d’un ´echantillon de travail (sur lequel sont appliqu´ees les transformations factorielles pr´ec´edemment d´etermin´ees).

6.8

Exercices

1. Soit A une matrice (m1 x m2 ). Montrer que les va. p. de AA et de A A sont identiques et que
leurs ve. p. respectifs d´efinis par
AA uα = λα uα

et
92

A Av α = λα v α

sont li´es par les relations
1
v α = √ A uα
λα

et

1
uα = √ Av α
λα

2. On ´etudie l’orientation des bacheliers fran¸cais apr`es le baccalaur´eat en 1975. Une enquˆete a
fourni les r´esultats suivants:
Bac
A
B
C
Tec.
Total

Uni
13
20
10
7
50

Destination
Gr. Ec. Autres
2
5
2
8
5
5
1
22
10
40

total
20
30
20
30
100

(“Uni” = Universit´e; “Gr.Ec.” = Pr´eparation aux Grandes Ecoles. “Tec” = Bac technique)
(a) A l’aide de la d´efinition 6.1 et de la formule 6.4, calculer la mesure khi2 de l’´ecart `a
l’ind´ependance entre TYPE DE BAC et DESTINATION apr`es le bac. En utilisant la table
du χ2 , effectuer le test d’ind´ependance `a α = 5%.
(b) Calculer les distances du khi2 entre les modalit´es Uni - Gr.Ec. et Uni - Autres.

Solutions:
1. Soit uα un vecteur propre de AA et v α un vecteur propre de A A tels que
AA uα = λα uα

et



A Av α = λα v α

En multipliant la premi`ere ´equation “`
a gauche” par A et la seconde “`a droite” par A on obtient
α
α
u = λα A
u
A A A


=:Z α

et





α
α
AA Av
= λα Av

=:W α



Z α est donc un vecteur propre de A A pour la valeur propre λα . Or v α est vecteur propre de

A A pour la valeur propre λα .

Par cons´equent λα = λα et v α = cZ α o`
u c est une constante de proportionalit´e. On a donc
v α = cA uα .
Comme uα et v α sont orthonorm´es, on a:




α
2
α 2
2
1 = v α 2 = v α v α = c2 uα AA
u = c λα u = c λα
λα uα

Par cons´equent c =

√1
λα

et on obtient finalement

1
v α = √ A uα
λα

et

1
uα = √ Av α
λα

2. Les indices j d´enotent les lignes du tableau, les indices k les colonnes; la colonne “total” fournit
les valeur des nj• (n1• = 20; n2• = 30; ...), et la ligne Total fournit les valeur des n•k ( n•1 = 50;
n•2 = 10; ...)
93

(a) Test d’ind´
ependance des variables
Le calcul de la formule 6.3 donne:
khi2 = 100([

132
22
52
202
22
82
102
52
+
+
+
+
+
+
+
+
1000 200 800 1500 300 1200 1000 200
52
72
12
222
+
+
+
] − 1) = 24.91
800 1500 300 1200

Comme 24.91 > χ20.95 [6] = 12.6, les variables TYPE DE BAC et DESTINATION sont
significativement d´ependantes a` α = 5% (et mˆeme bien en-dessous).
(b) Distance du khi-carr´
e:
En utilisant directement les effectifs (et en adaptant la formule 6.21), on obtient:
dist2χ (yUni , yGrEc ) =

1

[

nj Uni



nj GrEc

]2 =

1 13
2
[ − ]2 +
20 50 10

nj• n•Uni n•GrEc
1 20
1 10
1 7
2
5
1
[ − ]2 + [ − ]2 + [ − ]2 = 0.006067
30 50 10
20 50 10
30 50 10

En d´efinitive, distχ (yUni , yGrEc ) = 0.006067 = 0.0778
j

1

nj Autre 2
njU ni
1 13
5

] = [ − ]2 +
nj• n•Uni n•Autre
20 50 40
j
1 20
1 10
1 7
8
5
22
[ − ]2 + [ − ]2 + [ − ]2 = 0.01235
30 50 40
20 50 10
30 50 40

En d´efinitive, distχ (yUni , yAutre ) = 0.01235 = 0.111
dist2χ (yUni , yAutre ) =

[

94


Aperçu du document afcjanvier_copy.pdf - page 1/14
 
afcjanvier_copy.pdf - page 3/14
afcjanvier_copy.pdf - page 4/14
afcjanvier_copy.pdf - page 5/14
afcjanvier_copy.pdf - page 6/14
 




Télécharger le fichier (PDF)


afcjanvier_copy.pdf (PDF, 233 Ko)

Télécharger
Formats alternatifs: ZIP



Documents similaires


afcjanvier copy
mathematiques pc 2015
acp a lire copy
2016 chapitre 6 logique
cours econometrie2
2p010 cours analyse vectorielle

Sur le même sujet..