05 10 16 10h 12h Stats Lemdani 5 6 .pdf



Nom original: 05-10-16-10h-12h-Stats-Lemdani-5-6.pdf
Auteur: Essia Joyez

Ce document au format PDF 1.4 a été généré par Writer / OpenOffice 4.1.1, et a été envoyé sur fichier-pdf.fr le 10/10/2016 à 15:57, depuis l'adresse IP 90.110.x.x. La présente page de téléchargement du fichier a été vue 365 fois.
Taille du document: 260 Ko (8 pages).
Confidentialité: fichier public




Télécharger le fichier (PDF)










Aperçu du document


2016-2017

Statistique
Régression linéaire

– UE III: Approche statistique et validation des méthodes –
Semaine : n°5 (du 03/10/16 au
07/10/16)
Date : 05/10/2016

Heure : de 10h15 à
12h15

Binôme : n°6

Correcteur : 5

Remarques du professeur: /

PLAN DU COURS

I)

Introduction
A)

Corrélation (rappel)

B)

Nuage de points

C)

Calcul de r

D)

Test de corrélation

II)

Régression linéaire

A)

Introduction

B)

Modèle et conditions

C)

Moindres carrés

D)

Exemple

III)

Professeur : Pr. Lemdani

Inférence

A)

Mesure de la linéarité

B)

Intervalles de confiance

1/8

2016-2017

I)

Statistique

Introduction
A)

Corrélation (rappel)
CORRÉLATION ENTRE DEUX VARIABLES

X et Y sont deux variables quantitatives continues.
X et Y sont liées (ou corrélées) si la variation de l'une (augmente ou diminue) entraîne celle de l'autre
(augmentation ou diminution).
On a une corrélation linéaire positive si les variations de X et de Y se font dans le même sens.
Liaison linéaire : la variation de Y (ΔY) est proportionnelle à celle de X (ΔX).
Mesure de la liaison linéaire : coefficient de corrélation linéaire (paramétrique, de Pearson).
Notation : ρxy (ou ρ) → coefficient calculé sur la population.
On a -1 ≤ ρ ≤1 :


ρ > 0 : liaison positive



p < 0 : liaison négative



ρ = 0 : pas de liaison



ρ = -1 ou 1 : liaison linéaire parfaite

B)

Nuage de points
ÉCHANTILLON DE N OBSERVATIONS

On a n observation de X (X1, X2.. Xn) et n observations de Y (Y1, Y2.. Yn).
On parle de n couples d'observations (X1, Y1), (X2, Y2)... (Xn, Yn) qui correspondent aux coordonnées de n
points dans le plan (nuage de points).
Exemple :
1

2

3

4

5

6

7

X (dose
traitement)

2

5

1

7

4

8

10

Y (% de parasites
éliminés)

15

21

10

20

21

27

25

Cas 1 : Ces 7 points dessinent une allure croissante linéaire : on a donc clairement une corrélation linéaire car si
on augmente X, Y augmente. On aura donc un coefficient de corrélation non nul et positif.

2/8

2016-2017

Statistique

Cas 2 : On a une dépendance de X par rapport à Y : on peut parler de corrélation mais elle n'est pas linéaire. Il
faudra utiliser d'autres outils plus complexes pour étudier ce type de liaison.

Cas 3 : Dans le cas du dernier nuage, on a une absence de corrélation car Y est indépendant de X quand il
augmente (par exemple).

→ Donc sur le plan graphique, une corrélation ressemblerait plus ou mois à une droite.

C)

Calcul de r
ESTIMATION DU COEFFICIENT DE CORRÉLATION

On a X et Y qui sont 2 variables quantitatives et ρxy (ρ) qui est le coefficient de corrélation.
Pour estimer le coefficient de corrélation ρ sur la population, il faut estimer rxy (r) sur l'échantillon. Donc r est le
coefficient de corrélation calculé sur l'échantillon.
Formule 19

X

2

5

1

7

4

8

10

Y

15

21

10

20

21

27

25

3/8

2016-2017

Statistique

sy = 5, 79

D)

Test de corrélation
TEST DE CORRÉLATION LINÉAIRE (PARAMÉTRIQUE)

Objectif : on a 2 variables X et Y (quantitatives), sont-elles corrélées (linéairement) ?
→ Il faut faire un test sur le coefficient de corrélation ρ.
H0 : { ρ=0} → X et Y non corrélées
contre
H1 : { ρ ≠ 0} → X et Y corrélées
Test t :
Formule 20

Conditions d'utilisation :


Normalité (du couple (X,Y) ou de l'erreur ɛ)



Ou « grand » échantillon (n > ou égal à 30)

Sous H0, t suit une loi de Student à (n-2) degrés de liberté (ddl).
4/8

2016-2017

Statistique

Exemple : r = 0,88849 (n=7, normalité admise). Sous Ho, t suit une loi de Student à 5 ddl. Dans la table de
Student, la valeur relevée est de 2,571. La zone d'acceptation pour un risque de 5% est [-2,571;2,571] (bilatéral).
Avec la formule 20, on obtient tc= 4,329 donc tc ne fait pas parti de la zone d'acceptation. On a donc un rejet de
H0. La p-value est inférieure à 0,01.

CORRÉLATION ≠ CAUSALITÉ
Exemple 1 : On prend par exemple le « nombre de voitures : X» et le « niveau de pollution:Y ». On peut s'attendre
à ce que la pollution augmente avec le nombre de voitures (causalité) et on peut donc s'attendre à ce que Y
augmente avec X. On se trouve dans le cas où l'on peut avoir un lien entre la corrélation et la causalité.
Exemple 2 : On prend la « pluviométrie: X » et le « niveau des récoltes : Y ». On peut montrer que le niveau de
récolte est en association avec la pluviométrie mais ce n'est pas sûr que l'on aura une corrélation sur le plan
statistique. En augmentant la pluviométrie, on n'augmentera pas forcément les récoltes (un niveau très très élevé de
pluviométrie peut abîmer les récoltes par exemple). Les deux phénomènes sont plus ou moins liés l'un à l'autre
mais l'on aura pas forcément de corrélation statistique.
Exemple 3 : On prend la « consommation de fuel : X » et le « nombre de pulls vendus : Y ». Lorsque l'on a une
forte consommation de fuel (du à des températures froides), le nombre de pulls vendus augmente. Donc les deux
augmentent ensemble. Il est possible d'avoir une corrélation linéaire entre les deux, mais il n'y a pas forcément de
lien de cause à effet.

II)
A)

Régression linéaire
Introduction
MODÈLE

On a X et Y qui sont 2 variables quantitatives corrélées linéairement (test) : le nuage de points est donc proche de
l'alignement. On pourrait tracer une droite pour exprimer une dépendance linéaire de Y par rapport à X (Y = aX+b)

Problème 1 : a (pente, coefficient directeur) et b (ordonnée à l'origine) sont calculés sur l'échantillon → estimation
des paramètres alpha et béta sur la population.
Modèle : Y=αX+ β
Problème 2 : X n'explique pas complètement Y car les points ne sont pas sur la droite (répartition des points
autour de la droite). Dans Y on a donc une partie qui est expliquée (Y=αX+β) et une autre inexpliquée (erreur ɛ).

5/8

2016-2017

B)

Statistique

Modèle et conditions
MODÈLE DE RÉGRESSION LINÉAIRE : Y = ALPHAX + BETA + EPSILON



Soit Y la réponse : c'est la variable à expliquer, variable dépendante.



Soit X le facteur : c'est la variable explicative, variable indépendante.

Objectif : estimer α et β à partir d'un échantillon et réaliser des tests.
L'erreur ɛ doit satisfaire 4 conditions :


L'erreur doit être de moyenne nulle (donc l'erreur doit être centrée)



Elle doit être de variance constante σ² (homoscédasticité)



Il faut une indépendance entre les erreurs : ɛ1, ɛ2... ɛn.



Il faut la normalité ( ɛ ~ N (0 ; σ))
→ Validation des hypothèses à faire à la fin de l'analyse de régression.

Estimation de α et β : il faut trouver 2 nombres a et b tels que la droite y = ax+b soit « la plus proche » du nuage
de points. Il faut donc choisir une distance droite-nuage. On a plusieurs distances possibles → choix de la distance
des moindres carrés.

C)

Moindres carrés
MÉTHODE DES MOINDRES CARRÉS

On a :


Le modèle Y= αX + β + ɛ et un échantillon d'observations



(X1, Y1), (X2, Y2)....(Xn, Yn) → nuage de points



Une droite quelconque (Δ) : y = αx + β

La distance « verticale » point-droite (Δ) est Yi-(αXi+β).
On utilise la distance quadratrique de tous les points du nuage et on l'élève au carré.
Pour un point, la distance quadratique est [Yi-(αXi+β)]² . Donc la distance des moindres carrés nuages - ( Δ) est la
somme des distance quadratiques : D (α, β) = somme n i=1 [Yi-(αXi+β)]² .
La droite de régression (moindres carrés) réalise la distance D (α, β) minimale. Il faut minimiser une fonction à 2
variables et annuler les dérivées partielles.
Après calculs on trouve :
Formule 22

(α # a, β # b)
Donc : b = YY-aXY → YY= aXY + b → La droite de régression passe par le point (XY , YY) qui est le centre de gravité du
nuage.
Le coefficient de détermination est R² = r² → niveau « explicatif » du modèle.

6/8

2016-2017
EXEMPLE

Statistique

X

2

5

1

7

4

8

10

Y

15

21

10

20

21

27

25

Rappel :
– cov(x,y) = 16,71
– s²x = 10;571
– XY = 5,29
– YY = 139/7 = 19,86
– α = 16,71/10,571 = 1,58 et β = 19,86 – 1,58 x 5,29 = 11,5
→ La droite de régression est y = 1,58x + 11,5.
Remarque : le facteur X peut être :


Aléatoire (problème de corrélation).
Exemple : X = temps, Y = taux d'humidité.



Contrôlé (plan expérimental).
Exemple : X = dose, Y = réponse.

ANALYSE DE LA VARIANCE
Le modèle de régression et d'ANOVA sont deux formes du modèle linéaire. Comme ce sont deux formes voisines,
elles vont utiliser à peu près les mêmes outils, à la différence que pour l'ANOVA on a un test pour finalité.

III)
A)

Effet

SC

Ddl

CM (variance)

F

Modèle

SCM

1

CMM

F = CMM/CMR

Résiduel

SCR

n-2

s²=CMR

Total

SCT

n-1

R²=SCM/SCT

Inférence
Mesure de la linéarité
MESURE DE LA LINÉARITÉ (DROITE D'ÉTALONNAGE)

On a une importance de la linéarité dans les problèmes de calibration (étalonnage). On a besoin de s'assurer de la
validation de la méthode sur la linéarité.


Solution 1 : suivre une recommandation (r > ou égal 0,998).



Solution 2 : réaliser un test :
H0 : { ρ= ρ0}
contre
H1 : { ρ > ρ0 ( ρ < ρ0) } : ρ0 proche de 1 (ou de -1)

7/8

2016-2017

Statistique

Variable de décision :
Formule 21

Conditions :


Normalité (de ɛ) et n > ou égal 10



Ou n > ou égal à 30

VARIANCES DES ESTIMATEURS
La droite de régression est y = ax+b : a et b estiment alpha et béta avec les variances :
Formule 23

B)

Intervalles de confiance
IC POUR ALPHA ET BETA
Formule 24 et 25

8/8



Documents similaires


s3 2015
statistiques chapitre ii
cours statistique 2015 11 25
05 10 16 10h 12h stats lemdani 5 6
l2s3 stats
econometrie regression


Sur le même sujet..