Fichier PDF

Partage, hébergement, conversion et archivage facile de documents au format PDF

Partager un fichier Mes fichiers Convertir un fichier Boite à outils PDF Recherche PDF Aide Contact



Maximum de Vraisemblance .pdf



Nom original: Maximum de Vraisemblance.pdf

Ce document au format PDF 1.4 a été généré par LaTeX with beamer class version 3.07 / pdfTeX-1.40.3, et a été envoyé sur fichier-pdf.fr le 22/09/2017 à 20:46, depuis l'adresse IP 86.245.x.x. La présente page de téléchargement du fichier a été vue 285 fois.
Taille du document: 251 Ko (31 pages).
Confidentialité: fichier public




Télécharger le fichier (PDF)









Aperçu du document


Estimation par Maximum de Vraisemblance
Rachidi Kotchoni (rachidi.kotchoni@u-paris10.fr)
Université Paris Ouest Nanterre La Défense

October 8, 2016

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

1 / 31

Principe du maximum de vraisemblance

Considérons une variable aléatoire Y

N µ, σ2

La fonction de densité de Y est donnée par:
1
f (y ) = p
exp
σ 2π

(y µ )2
2σ2

!

µ et σ2 sont inconnus.
On aimerait les estimer à partir d’observations indépendantes
y1 , y2 , ..., yn tirés de la loi de Y .

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

2 / 31

Principe du maximum de vraisemblance
Pour ce faire, on écrit la densité jointe de l’échantillon:
L y1 , y2 , ..., yn ; µ, σ2

= f (y1 )f (y2 )...f (yn )
=

1
p
σ 2π

n

exp

1
2σ2

n

∑ (yi

i =1

µ)

2

!

Fonction de vraisemblance: densité jointe de l’échantillon vue comme
fonction des paramètres µ et σ2 .
On va donc écrire: L µ, σ2

Le principe du maximum de vraisemblance consiste à maximiser
L µ, σ2 pour trouver les estimateurs de µ et σ2 .

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

3 / 31

Estimateur du maximum de vraisemblance

Si on prend le logarithme:

L µ, σ2

= log L µ, σ2
n
log (2π )
=
2

n
log σ2
2

1
2σ2

n

∑ ( yi

µ )2

i =1

Maximiser L µ, σ2 revient à maximimiser log L µ, σ2 ou minimiser
log L µ, σ2

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

4 / 31

Estimateur du maximum de vraisemblance

Conditions de premier ordre (CPO) de maximisation de L µ, σ2 :
∂L(µ,σ2 )
= σ12 ∑ni=1 (yi
∂µ
∂L(µ,σ2 )
= 2σn 2 + 2σ1 4 ∑ni=1
∂σ2

Solution:
b=
µ

R. Kotchoni ()

µ) = 0

(yi

1 n
1 n
b2 = ∑ (yi
yi et σ

n i =1
n i =1

Maximum de Vraisemblance

µ )2 = 0
µ )2

October 8, 2016

5 / 31

Régression et maximum de vraisemblance

Considérons une variable aléatoire Y

N g (θ, X ) , σ2

g (θ, X ) = E (Y jX ) est l’espérance de Y sachant X .

Régression = estimation de la moyenne conditionnelle g (θ, X ).
Si g (θ, X ) = X θ, on parle de régression linéaire.

La fonction de densité de Y est donnée par:
1
f (y jx ) = p
exp
σ 2π

(y

g (θ, x ))2
2σ2

!

θ et σ2 sont inconnus.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

6 / 31

Régression et maximum de vraisemblance

On dispose d’observations indépendantes
(x1 , y1 ) , (x2 , , y2 ) , ..., (xn , yn ) de (Y , X ).
La densité jointe de (y1 , y2 , ..., yn ) conditionnellement à (x1 , x2 , ..., xn )
est:
L θ, σ2

= f (y1 jx1 )f (y2 jx2 )...f (yn jxn )
=

1
p
σ 2π

n

exp

1
2σ2

n

∑ (yi

i =1

g (θ, xi ))

2

!

Principe du maximum de vraisemblance: maximiser L θ, σ2 pour
trouver les estimateurs de θ et σ2 .

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

7 / 31

Régression et maximum de vraisemblance

Prenons le logarithme:

L θ, σ2

= log L θ, σ2
n
log (2π )
=
2

n
log σ2
2

1
2σ2

n

∑ (yi

g (θ, xi ))2

i =1

CPO de maximisation de L θ, σ2 :
∂L(θ,σ2 )
= σ12 ∑ni=1 ∂g (∂θθ,xi ) (yi
∂θ
∂L(θ,σ2 )
= 2σn 2 + 2σ1 4 ∑ni=1 (yi
∂σ2

R. Kotchoni ()

Maximum de Vraisemblance

g (θ, xi )) = 0
g (θ, xi ))2 = 0

October 8, 2016

8 / 31

Régression et maximum de vraisemblance

La solution b
θ= b
θ 1 , ..., b
θK
équations "normales":
n



i =1

0

∂g (θ k , xi )
(yi
∂θ k

doit être trouver en résolvant les

g (θ, xi )) = 0, k = 1, ..., K

Ensuite, on remplace cette solution dans la second CPO:
b2 =
σ

R. Kotchoni ()

1 n
yi
n i∑
=1

g b
θ, xi

Maximum de Vraisemblance

2

October 8, 2016

9 / 31

Régression et maximum de vraisemblance

Les équations permettant d’obtenir b
θ sont les même que les CPO des
moindres carrés:
n

b
θ = arg min ∑ (yi
θ

g (θ, xi ))2

i =1

De ce fait, l’EMV de θ est équivalent à son estimateur des moindres
carrés.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

10 / 31

Régression et maximum de vraisemblance

Cas particulier 1
Posons g (θ, xi ) = θ. On obtient
n



i =1

Solution:

R. Kotchoni ()

∂g (θ, xi )
(yi
∂θ

∂g (θ,xi )
∂θ

= 1 et:
n

g (θ, xi )) =

∑ (yi

θ) = 0

i =1

1 n
b
θ = ∑ yi
n i =1

Maximum de Vraisemblance

October 8, 2016

11 / 31

Régression et maximum de vraisemblance
Cas particulier 2
Posons xi = (1, x1,i , ..., xK ,i )0 et g (θ, xi ) = x θ.
On a alors

∂g (θ,xi )
∂θ

n



i =1

= xi0 , de sorte que:

∂g (θ, xi )
(yi
∂θ

n

xi θ ) = 0

i =1

Solution:
b
θ=

∑ xi0 (yi

g (θ, xi )) =

n



i =1

xi0 xi

!

1

n

∑ xi0 yi

i =1

On reconnaît l’estimateur des moindres carrés ordinaires.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

12 / 31

Vraisemblance d’un modèle markovien
Une serie temporelle Yt est dite markovienne d’ordre p si sa loi
conditionnelle sachant tout sont passé se résume à sa loi
conditionnelle sachant (Yt 1 , ..., Yt p )
Exemple: modèle AR(p)
p

yt = c + ∑ ρi yt

1

= εt

i =1

Contre-exemple: Modèle ARMA(p,q)
p

yt = c + ∑ ρi yt

q

i

+ εt

i =1

∑ θ j εt

j

j =1

Le ARMA(p,q) peut en e¤et être transformé en un AR(∞) ou un
MA(∞)
R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

13 / 31

Vraisemblance d’un modèle markovien

Si Yt est un processus scalaire markovien d’ordre p, alors
(Yt , ..., Yt p +1 ) est un processus vectoriel markovien d’ordre 1.
Exemple: yt = c + ∑pi=1 ρi yt
0

yt

B yt 1
B
B
..
@
.
yt p +1

R. Kotchoni ()

1

0

C
B
C
B
C = B
A
@

c
0
..
.
0

+ εt est equivalent à:
1 0
ρ1 ρ2
ρp
C B
1
0
0
C B
.
C+B
. . ...
A B
@ 0 1
.. . .
..
.
. 0
.
i

+ (εt , 0, ..., 0)0

Maximum de Vraisemblance

10

yt
CB
C B yt
CB .
C@ .
.
A
yt

1
2

p

October 8, 2016

1
C
C
C
A

14 / 31

Vraisemblance d’un modèle markovien
La densité jointe de (yT , ..., y1 ) peut se décomposer en:
f (yT , ...y1 ) = f (yT jyT
À son tour, f (yT jyT
f (yT

1 , ...y1 )

1 , ...y1 )

1 , ...y1 ) f

(yT

1 , ...y1 )

peut s’écrire:

= f (yT

1 jyT

2 , ...y1 ) f

(yT

2 , ...y1 )

On a donc
f (yT , ...y1 ) = f (yT jyT

1 , ...y1 ) f

1 jyT

(yT

2 , ...y1 ) f

(yT

2 , ...y1 )

Si on procède récursivement, on obtient:
T

f (yT , yT

1 , ...y1 ) = f (yp , ...y1 )



t =p +1

R. Kotchoni ()

Maximum de Vraisemblance

f (yt jyt

1 , ...y1 ) .

October 8, 2016

15 / 31

Vraisemblance d’un modèle markovien
Considérons le cas d’un processus AR(p)
p

yt = c + ∑ ρi yt

i

+ εt

i =1

où εt

N (c + ∑pi=1 ρi yt i , σ2 ).

N (0, σ2 ) de sorte que yt

Tant que t
f (yt jyt

p + 1, on a:
1 , ...y1 )

= f (yt jyt
=

1 , ...yt p )

1
p exp
σ 2π

( yt

c

p
∑i =1 ρi yt i )
2σ2

2

!

pour t = p + 1, ..., T .

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

16 / 31

Vraisemblance d’un modèle markovien
Il nous reste à trouver f (yp , ...y1 ).
Le vecteur (yp , ...y1 ) suit une loi normale multivariée dont la moyenne
est le vecteur de taille p de coordonnées constantes et égales à
c
.
p
1
ρ
∑ i =1

i

La matrice de covariance de (yp , ...y1 ) peut être calculée en fonction
de σ2 et les ρi . Généralement compliqué, à part pour un AR(1) (cf.
cours précédent).

Il est plus simple de considérer la vraisemblance de l’échantillon
conditionnellement aux p observations initiales:
T

f (yT , yT

R. Kotchoni ()

1 , ...yp +1 jyp , ...y1 ) =



t =p +1

Maximum de Vraisemblance

f (yt jyt

1 , ...yt p ) .

October 8, 2016

17 / 31

Vraisemblance d’un modèle markovien

On obtient la log-vraisemblance conditionnelle suivante:

L c, ρ1 , ..., ρp , σ2
T

= log



t =p +1

=

f (yt jyt

n
log (2π )
2

1 , ...yt p )

n
log σ2
2

1
2σ2

p

n



yt

i =1

Ceci revient à une régression OLS de yt sur (1, yt

R. Kotchoni ()

Maximum de Vraisemblance

c

∑ ρi yt

i

i =1

1 , .., yt p )

0

!2

.

October 8, 2016

18 / 31

Vraisemblance d’un modèle ARMA

Considérons le modèle ARMA suivant
q

p

yt = c + ∑ ρi yt

i

+ εt

p

εt = yt

c

∑ ρi yt

j

j =1

i =1

Ceci donne

∑ θ j εt
q

i

i =1

+ ∑ θ j εt

j

j =1

L’écriture de la vraisemblance exacte du ARMA(p,q) est compliqué
(mais faisable) parce que εt n’est pas observé.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

19 / 31

Vraisemblance d’un modèle ARMA
Si on pose εp = εp
εp +1 ,...,εT .

1

= ... = ε



= 0, on peut générer récursivement

p

εp +1 = yp +1

c

∑ ρi yp +1

i

∑ ρi yp +2

i

+ θ 1 ε p +1

∑ ρi yp +3

i

+ θ 1 ε p +2 + θ 2 ε p +1

i =1
p

ε p + 2 = yp + 2

c

i =1
p

ε p + 3 = yp + 3

c

i =1
p

εT

= yT

c

∑ ρi yT

i =1

R. Kotchoni ()

q

i

+ ∑ θ j εT

Maximum de Vraisemblance

j

j =1

October 8, 2016

20 / 31

Vraisemblance d’un modèle ARMA
Ensuite, on se rappelle que εt

N (0, σ2 ) est un bruit blanc.

Donc, on a la vraisemblance conditionnelle suivante:

L c, ρ1 , ..., ρp , θ 1 , ..., θ q , σ2
T

= log



t =p +1

=

f (εT , ..., εp +1 jεp = 0, εp

n
log (2π )
2
1
2σ2



p

yt

= 0, ..., ε

n
log σ2
2

n

i =1

1

c

∑ ρi yt

q

i

i =1

+ ∑ θ j εt
j =1

j



= 0)

!2

où les errerus εt sont générées tel que vu précédemment.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

21 / 31

Inférences
Matrice de covariance des estimateurs

Pour simpli…er, considérons une série yt , t = 1, ..., T .
La vraisemblance de l’observation #t est notée f (yt , θ ).
La log-vraisemblance de l’observation #t est Lt (θ ) = log f (yt , θ )

La log-vraisemblance de l’échantillon est L (θ ) = ∑Tt=1 Lt (θ ).
∂L(b
θ)
L’EMV est obtenu en résolvant ∂θ = 0
Il est démontré que si la vraisemblance est bien spéci…é, b
θ est un
estimateur convergent et e¢ cace de θ. Donc en grande échantillon, b
θ
sera voisin de θ.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

22 / 31

Inférences
Matrice de covariance des estimateurs

On se base sur ceci pour faire une expansion de Taylor de
l’ordre 1.
0=

∂L b
θ
∂θ

'

Donc
b
θ

∂L(θ )
∂θ

θ '

=

∂2 L ( θ )
∂θ∂θ 0
1
T

T



t =1

est appelé le score et
au score.
R. Kotchoni ()

∂ L ( θ ) ∂2 L ( θ ) b
+
θ
∂θ
∂θ∂θ 0

à

θ

1

∂L (θ )
∂θ
! 1
∂2 Lt ( θ )
1
0
T
∂θ∂θ

∂ Lt ( θ )
∂θ

θ)
∂L(b
∂θ

T



t =1

∂ Lt ( θ )
∂θ

!

la contribution de l’observation #t

Maximum de Vraisemblance

October 8, 2016

23 / 31

Inférences
Matrice de covariance des estimateurs

On a donc:
θ
Cov b

= E
= E

b
θ

θ

∂2 Lt ( θ )
∂θ∂θ 0

b
θ

θ

0

1

E

∂ Lt ( θ ) ∂ Lt ( θ ) 0
∂θ
∂θ

!

∂2 Lt ( θ )
∂θ∂θ 0

1

Si le modèle est bien spéci…é, on peut montrer que
E
E
E

∂2 Lt ( θ )
∂θ∂θ 0
R. Kotchoni ()

∂ Lt ( θ )
∂θ
∂2 Lt ( θ )
∂θ∂θ 0

= 0
= E

∂ Lt ( θ ) ∂ Lt ( θ ) 0
∂θ
∂θ

!

est l’inverse de la matrice d’information de Fisher.
Maximum de Vraisemblance

October 8, 2016

24 / 31

Inférences
Matrice de covariance des estimateurs

Finalement, on obtient:
Cov b
θ =E

1

∂2 Lt ( θ )
∂θ∂θ 0

=E

∂ Lt ( θ ) ∂ Lt ( θ ) 0
∂θ
∂θ

!

1

On estime cette matrice de covariances par
b b
θ
V

b b
V
θ
R. Kotchoni ()

=
=

1
T
1
T

T



t =1
T



t =1

∂2 Lt ( θ )
∂θ∂θ 0

!

1

ou

∂ Lt ( θ ) ∂ Lt ( θ ) 0
∂θ
∂θ

Maximum de Vraisemblance

!

1

October 8, 2016

25 / 31

Inférences
Covariance robustes

Si on n’est pas certain d’avoir bien choisi la loi suivie par les données,
il vaut mieux utiliser la formule "sandwich", qui donne l’estimation
robuste des variances et covariances.
! 1
T
2L θ
1

(
)
t
b b
θ
=
V
0
T t∑
=1 ∂θ∂θ
!
! 1
1 T ∂ Lt ( θ ) ∂ Lt ( θ ) 0
1 T ∂2 Lt ( θ )
0
T t∑
∂θ
∂θ
T t∑
=1
=1 ∂θ∂θ
∂2 L ( θ )

t
Il peut arriver que T1 ∑Tt=1 ∂θ∂θ
ne soit pas inversible, signe que les
0
paramètres du modèle ne sont pas identi…able (e.g., multicolinéarité
dans un modèle linéaire).

Dans ce cas, il faut revoir les données ou corriger le modèle.
R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

26 / 31

Inférences

b b
θ , il faut isoler la diagonale qui donne les
Après avoir estimé V
variances.
Utiliser ces variances pour calculer les t de Student.

Faires les inférences usuelles (intervalles de con…ance et test) en se
basant sur la normalité asymptotique des EMV.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

27 / 31

Inférences
Choix de modèle

Il n’est pas rare qu’on ait à choisir entre deux modèles concurrents qui
ont des nombres de paramètres di¤érents.
La situation idéale est le cas où les modèles sont emboîtés, c’-à-d, on
peut restraindre le Modèle 2 pour obtenir le Modèle 1.
Exemple: (i) un AR(1) versus un AR(2); (ii) un ARMA(1,1) versus un
ARMA(2,1)
Contre exemple: un AR(2) versus un ARMA(1,1)

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

28 / 31

Inférences
Choix de modèle

Si les modèles sont emboîtés, le plus petit modèle est dit contraint et
le plus grand modèle est le non contraint.
Soit Lnc

(2 )
b
θ

et Lc

(1 )
b
θ

les log-vraisemblances respectives. Le

test du ratio de vraisemblance se base sur:
LR = 2Lnc

(2 )
b
θ

2Lc

(1 )
b
θ

Sous l’hypothèse nulle que les contraintes sont valides,
LR

(2 )
χ2 dim(b
θ )

(1 )
dim(b
θ )

On rejette l’hypothèse nulle si LR est plus grand qu’un certain seuil.
Lorsqu’on rejette l’hypothèse nulle, on garde le modèle non contraint.
Dans le cas contraire, on préfère le modèle parcimonieux.
R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

29 / 31

Inférences
Choix de modèle

Si les modèles sont non emboîtés, deux critères d’information sont le
plus souvent utilisés:
Le critère d’information d’Akaike (AIC)
AIC = 2K

2L b
θ

où K est le nombre de paramètres estimés et L (θ ) la
log-vraisemblance.
Le critère d’information Bayésien (BIC)
BIC = 2K ln T
où T est la taille de l’échantillon.

2L b
θ ,

Le meilleur modèle est celui qui minimise le AIC ou le BIC, selon
votre goût.
De deux modèles ayant la même vraisemblance, celui ayant le plus petit
nombre de paramètres sera retenu.
R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

30 / 31

Inférences
Choix de modèle

Le BIC pénalise plus fortement le nombre de paramètres que le AIC.
AIC et le BIC peuvent être utilisés pour choisir entre deux modèles
ARMA
On commence par retenir pmax et qmax en examinant les
autocorrélation et autocorrélations partielles de la série (Méthode de
Box et Jenkins)
Après le retard
Après le retard
abrupte.

qmax , l’autocorrélation décroit de manière abrupte.
pmax , l’autocorrélation partielle décroit de manière

Ensuite, on estime tous les ARMA(p,q), pour 1
1 q qmax

p

pmax et

En…n, on choisit le ou les modèles ayant le plus faible AIC ou BIC.

R. Kotchoni ()

Maximum de Vraisemblance

October 8, 2016

31 / 31


Documents similaires


maximum de vraisemblance
ch1
polycoursdb
mtefefrancais 270718
jean daniel rolle
statistiques novembre2011


Sur le même sujet..