CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES .pdf



Nom original: CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdfTitre: Microsoft Word - CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREESAuteur: SMITH

Ce document au format PDF 1.4 a été généré par Microsoft Word - CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES / ScanSoft PDF Create! 4, et a été envoyé sur fichier-pdf.fr le 31/10/2019 à 19:23, depuis l'adresse IP 196.65.x.x. La présente page de téléchargement du fichier a été vue 434 fois.
Taille du document: 350 Ko (10 pages).
Confidentialité: fichier public


Aperçu du document


LA STATISTIQUE DESCRIPTIVE
SIMPLIFIEE

CHAPITRE 5
LES SERIES STATISTIQUE A
DOUBLE ENTREES
(REGRESSION LINEAIRE,
CORRELATION LINEAIRE)

AUTEUR : MATLAYA MOHAMED
PROFESSEUR AU COMPLEXE DE
FORMATION MAAMORA DE KENITRA

STATISTIQUE DESCRIPTIVE

CHAPITRE 5
LES SERIES STATISTIQUE A DOUBLE ENTREES
(REGRESSION LINEAIRE, CORRELATION LINEAIRE)
I) NOTION DE TABLEAU DE CONTINGENCE :
A) DEFINIION :
1) Tableau de contingence :
On appelle tableau de contingence ou encore séries statistiques doubles
(tableaux croisés) ; (tableaux à deux dimensions) ….. Une distribution
statistique où les observations portent sur deux caractères à la fois.
Exemple ; Répartition des étudiants selon la taille et leurs âges.
Surfaces en m² [10 – 30] [30 – 50] [50 – 70] [70 – 90]
Total
Nombre
yi
de pièces xi
1
3
1
4
2
1
14
3
18
3
1
7
4
12
4
10
7
17
5
6
6
Total
4
16
20
17
57
Il s’agit de représenter le nombre pièces par la variable x et la surface est
représentée par la variable y.
2) La distribution marginale :
De ce tableau statistique on peut tirer plusieurs informations :
a- la répartition des logements selon le nombre de pièces (X)
Nombre de pièces (x)
Nombre de logements : effectif
1

4

2

18

3

12

4

17

5

6

Total

57

Cette distribution qui concerne la seule variable x est appelé distribution
marginale (marginal car on la trouve à la marge du tableau statistique)
On peut calculer la moyenne de cette distribution, (et sa signification est le
nombre de pièces moyenne par logement)
Moyenne appelée moyenne marginale notée

Elaboré par : MATLAYA MOHAMED

1

STATISTIQUE DESCRIPTIVE
b- la répartition des logements selon la superficie :
Superficie y
Nombre de logements
[10-30[
4
[30-50[
16
[50-70[
20
[70-80[
17
Total
57
Cette distribution qui concerne la seule variable ‘ y’ est appelée distribution
marginale on peut calculer la moyenne (qui exprime la surface moy des
logements) appelée moyenne marginale notée :
3) Les distributions conditionnelles :
On appelle distribution Conditionnelle la distribution ou l’on a posé une
condition sur l’une des variables.
Ex : Réparation de logements de [30-50m2[
Cette distribution est appelée Distribution Conditionnelle parce que l’on ne
s’intéresse qu’aux logements qui satisfont la condition de surface 30-50 m2.
On peut calculer la moyenne de cette distribution (c-a-d le nombre moyen
de pièces des logements de [30-50 m2[ on appelle cette moyenne : moyenne
conditionnelle x j = x 2.
Nombre de pièces
Effectif des logements de ni . xi2
Xi2
30 à 50m2
1
1
1
2
14
28
3
1
3
4
0
0
5
0
0
Total
16
32
Dans cette distribution on calcule
x 2 = ∑ ni x’i 2 = 32 = 2
∑ni
16
Signification de x 2 : le nombre de pièces moyen pour les logements de 30 à 50
m2.
Remarque :
 j dans x j est la j ème modalité de y
 Il existe autant de distributions conditionnelles relatives au caractère
x que le caractère y a de modalités

Elaboré par : MATLAYA MOHAMED

2

STATISTIQUE DESCRIPTIVE
II)

LA REGRESSION LINEAIRE :
A) NOTION DE REGRESSION LINEAIRE :

Soit l’observation suivante :
Avant de mettre son plan en application, une entreprise étudie l’impact des
campagnes précédentes sur les ventes de son produit. Le tableau suivant
présente le nombre de produits vendus de la marque ainsi que les dépenses
en communication.
yi
xi
26

30

35

38

45

55

60

1

27

1

29

1

34

1

37

1

39

1

Ce tableau est un tableau de contingence ou les observations sont connues
individuellement, on peut présenter plus simplement ce tableau de la
manière suivante :
Quantités vendues x i
26
27
29
34
37
39
192

Budget de la communication yi
30
35
38
45
55
60
263

yi
Y= ax + b
60
55
50
45
40
35
30
25
20

x
x
x
x
x
x

10 15 20

25

30

35

38

45

xi

Nous obtenons un ensemble de points « un nuage statistique » qui nous
indique que les prix est les quantités varient dans le même sens.

Elaboré par : MATLAYA MOHAMED

3

STATISTIQUE DESCRIPTIVE
Il est possible de résumer ce nuage statistique par une par une fonction
simple càd la fonction linéaire d’équation y = ax + b. Ainsi, a et b étant des
paramètres inconnus qu’il faudra calculer.
Cette droite quand elle existe est appelée droite de régression et son équation
est appelée équation de régression et le paramètre a est appelé coefficient de
régression.
B) CALCUL DES PARAMETRES DE LA DROITE DE REGRESSION :
LA METHODE DES MOINDRES CARRES
1. Notion de moindres carrés :
Partons d’un nuage statistique simple de avec un petit nombre de points,
yi
yn
x
Y= ax + b
x
yi
x
x
y2
y1

x
x

x1
x2
xI
xn
xi
Il s’agit de résumer ce nuage par une droite. Supposons que le problème est
résolue et désignant par y la droite qui résume le mieux ce nuage de points
Soit y = ax + b l’équation de la droite recherchée.
2. L’équation de régression :
Le droite de régression recherchée s’écrit : y =ax + b
Avec :
a = Σ[(xi - X̅ )(yi - y̅ )]
(xi - X̅ )²
b = y̅ - a . X̅

Elaboré par : MATLAYA MOHAMED

4

STATISTIQUE DESCRIPTIVE
3. Application :
Soit la distribution suivante retraçant la valeur des cadeaux (en Dh) offerts
par l’entreprise à l’occasion des fêtes de fin d’année et le nombre de clients
bénéficiaires.
valeur des nombre de clients
cadeaux bénéficiaires.
(xi - X̅) (yi - y̅) (xi - X̅)(yi -y̅)
(xi - X̅)² (yi - y̅)²
xi
yi
50
75
-125
27
-3375
15625
729
35
125
-75
12
-900
5625
144
22
175
-25
-1
25
625
1
13
225
25
-10
-250
625
100
10
275
75
-13
-975
5625
169
8
325
125
-15
-1875
15625
225
Total
1200
Total 138
0,00 0,00
-7350
43750
1368
= ∑xi = 1200 = 200
N
6
y̅ = ∑yi = 138 = 23
N
6
a = Σ[(xi - X̅)(yi - y̅)] = -7350 = -0,168
(xi - X̅)²
43750
b = y̅ - a . X̅ = 23 – (-0,168 x 200) = 56,6
Donc : y = ax + b = (-0,168) x + 56,6


III)

NOTION DE CORRELATION LINEAIRE :

Il est possible dans une distribution statistique de se trouver en face d'une
population telle qu'on puisse étudier deux caractères différents pour une
même unité statistique.
Unité

Variable 1

Variable 2

Enfants d'une école

Taille

Poids

Enfants d'une école

Taille

Moyenne des notes

Mariage d'une année Age de l'époux
Age de l'épouse
Production d'acier Nombre d’unités consommées
Année
etc.
Une population étudiée d'un double point de vue signifie que pour les n unités
observées, une unité présente à la fois le mesure xi de la variable 1 et la
mesure yi de la variable 2.
Ainsi on aura les situations suivantes :
 Les variations des caractères n'ont aucun lien entre elles (les tailles et les
notes). On dit que les variables sont indépendantes.

Elaboré par : MATLAYA MOHAMED

5

STATISTIQUE DESCRIPTIVE


Les deux caractères sont liés l'un à l'autre de façon que la connaissance de
la mesure de l'une des variables entraîne la connaissance exacte de l'autre
(revenus et impôts). On dit que les variables sont en liaison fonctionnelle.
 Sans être liées rigoureusement, les deux variables sont en dépendance plus
ou moins marquées. Les valeurs varient dans le même sens ou en sens
contraire. On dit que les variables sont en corrélation positive ou négative
suivant le cas.
Dans le paragraphe précédent, nous avions estimé y en fonction de x, et nous
avions obtenu la droite de régression Dy(x)
On peut pour le même nuage statistique estimer x en fonction de y, et trouver
la droite de régression Dx(y) qui aura pour équation :
a’ = Σ[(xi - X̅ )(yi - y̅ )]
(yi - y̅ )²
b’ = X̅ - a’ . y̅
Application :
Reprenons le même exemple et calculons cette droite D(x)y
Avec :
a’ = Σ[(xi - X̅)(yi - y̅)] = -7350 = -5,37
(yi - y̅ )²
1368
b’ = X̅ - a’. y̅ = 200 – (-0,537 x 23) = 323,57
Donc : x = a’ y + b’ = (-5,37)x + 323,57
Quatre situations se présentent :
1èr Cas : Les deux droites Dy(x) et Dx(y) sont
confondues càd a et a’ = 1 : c’est une
corrélation parfaite.

2ème Cas :
Les deux droites Dy(x) et Dx(y) forment entre
elles un angle assez faible : la corrélation
est forte. Càd il y’a une interdépendance
entre x et y.

Elaboré par : MATLAYA MOHAMED

6

Dx(y)

Dy(x)

Dx(y)
Dy(x)

STATISTIQUE DESCRIPTIVE
3ème Cas :
Les deux droites Dy(x) et Dx(y) forment un
angle assez entre elles un angle assez
important : la corrélation est faible.

Dx(y)

Dy(x)

4ème Cas :
Les deux droites Dy(x) et Dx(y) sont
perpendiculaires : la corrélation est nulle.
Les deux phénomènes sont indépendants
l’un de l’autre

Dx(y)

Dy(x)

L'éventualité d'une corrélation étant admise par graphique, on peut mesurer
l'intensité de celle-ci par le calcul du coefficient de corrélation ou de
dépendance.
Si on appelle coefficient de corrélation la Quantité r tel que : r2 = a . a’, on
peut écrire : r = √a . a'
 Si r = ±1 : on a une corrélation parfaite.
 Si r = +1 : on a une corrélation parfaite positive càd que les deux variables
varient dans le même sens : quand x augmente, y augmente aussi et quand
x diminue, y diminue aussi.
 Si r = -1 : on a une corrélation parfaite négative càd que les deux variables
varient dans les ses contraire : quand x augmente, y diminue et quand x
diminue, y augmente. Par exemple le Prix et la Quantité
 Si r = 0 : la corrélation est nulle les deux phénomènes sont indépendants
l’un de l’autre
 Si 0 < r < 1 = la corrélation est positive, elle est d’autant plus forte que l’on
se rapproche de 1.
 Si -1 < r < 0 = la corrélation est négative, et elle est d’autant plus forte que
l’on se rapproche de -1.
Application :
Reprenons le même exemple et déduire le coefficient de corrélation linéaire
Avec :
r = (−0,168) x (−5,373) = 0,94
Corrélation forte négative.

Elaboré par : MATLAYA MOHAMED

7

STATISTIQUE DESCRIPTIVE

REMARQUES :
1. Une corrélation est significative lorsque r est supérieur à 0,86 : c’est une
corrélation parfaite positive si r > 0,96
2. Les formules de calcul du coefficient de corrélation linéaire, de la pente a
de la droite de régression de y par rapport à x, de la pente a' de la droite
de régression de x par rapport à y montrent que r = aa' .
3. Si a et a' sont tous deux positifs (signe d'une corrélation positive) r est égal
à la racine carrée positive du produit aa'.
Si a et a' sont tous deux négatifs (signe d'une corrélation négative) r est
égal à la racine carrée négative du produit aa'.
4. nous venons d'envisager la possibilité de calculer les équations des droites
de régression de y en x et de x en y.
Il se peut que cette recherche des fonctions de régression reste un problème
purement théorique, et que deux variables soient en corrélation sans que
les variations de l'une soient causes des variations de l'autre.
Le calcul des fonctions de régression reste toujours faisable, mais il n'a
alors guère de signification concrète.
IV)

FORMULES FACILITANTS LES CACULS.
1) Calcul de a
a = Σ [(xi - X̅)(yi - y̅)] = Formule de définition
Σ (xi - X̅)²
a = Σ (xi yi) – n X̅ y̅ =
Σxi² - nX̅²

Formule développée

2) Calcul de r :
r = √a . a'
Avec :
a = Σ(xi yi) – n X̅ y̅
Σxi² - nX̅²
Et
a’ = Σ(xi yi) – n X̅ y̅
Σyi² - n y̅ ²
D’où :
r=

Σ(xi yi) – n





(Σxi² − nX ) (Σyi −

y̅ ²)

Elaboré par : MATLAYA MOHAMED

8

STATISTIQUE DESCRIPTIVE
3) Autres formules de r:
Avec :
r=

Σ(xi yi) – n





(Σxi² − nX ) (Σyi −

y̅ ²)

On sait que la variance de x:
Et Ϭ²y = Σ (yi - y̅ )²
Ϭ²x = Σ (xi - X̅)²
N
N
donc Σ (xi - X̅)² = N Ϭ²x
et Σ (yi - )² = N Ϭ²y
En fin,
r=

Σ [(xi - X̅)(yi - y̅)]
(N . Ϭ

= Σ [(xi - X̅)(yi - y̅)]

. Ϭ² )

(N. Ϭx . Ϭy)

On remarquera que si on appelle covariance de x et de y la quantité
( x i  x )( y i  y )
N

COV (x,y) = Covariance (x,y) =
r=

Σ [(xi - X̅)(yi - y̅)]
N

Σ [(xi - X̅)(yi - y̅)]
N
Ϭ . Ϭ

Donc : r =

COV (x,y)]
(Ϭx . Ϭy)

Elaboré par : MATLAYA MOHAMED

9


CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf - page 1/10
 
CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf - page 2/10
CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf - page 3/10
CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf - page 4/10
CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf - page 5/10
CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf - page 6/10
 




Télécharger le fichier (PDF)


CHAPITRE 5 LES SERIES STATISTIQUE A DOUBLE ENTREES.pdf (PDF, 350 Ko)

Télécharger
Formats alternatifs: ZIP



Documents similaires


chapitre 5 les series statistique a double entrees
statistique desciptive generalites
chapitre 2  les prancipales caracteristiques dune serie
chapitre 1 les representations graphiques
chapitre 4 les caracteristiques de concentration
chapitre 3 les caracteristiques de dispersion

Sur le même sujet..