Techniques Statistiques Chapitre 1 (Séance 1) .pdf



Nom original: Techniques Statistiques - Chapitre 1 (Séance 1).pdf

Ce document au format PDF 1.4 a été généré par , et a été envoyé sur fichier-pdf.fr le 19/11/2014 à 17:48, depuis l'adresse IP 41.249.x.x. La présente page de téléchargement du fichier a été vue 551 fois.
Taille du document: 822 Ko (21 pages).
Confidentialité: fichier public


Aperçu du document


Techniques Statistiques 
Introduction :
Les statistiques sont aujourd’hui utilisées dans tous les secteurs d’activité :





Industrie : fiabilité, contrôle qualité, ...
Économie e t finance: sondages, enquête d’opinion, assurance, marketing 
Santé, environnement, ...
Partout où l’on dispose de données

La  Statistique   est  un  ensemble  de  méthodes  permettant  de  décrire  et  d’analyser  des 
observations  (ou  données).  Ces  observations  consistent  généralement  en  la  mesure 
d’une  ou  plusieurs  caractéristiques  communes  sur   un  ensemble  de  personnes  ou 
d’objets équivalents.

Chapitre 1 : “La Statistique Descriptive”
La  statistique  descriptive  a  pour  but  d’étudier  une  population  à  partir  de  données. 
Cette  description  se   fait  à  travers  la  présentation  des  données  (la  plus  synthétique 
possible), leur représentation graphique et le calcul de résumés numériques.
Les ensembles  étudiés sont  appelés  population.  Les  éléments de la population sont 
appelés  individus  ou  unités  statistiques.  La  population  est  étudiée  selon  un  ou 
plusieurs caractères.
Pour  recueillir  des  informations  sur  une  population  statistique,  l’on  dispose  de  deux 
méthodes : 




La méthode exhaustive ou recensement où chaque individu de la population est 
étudié selon le ou les caractères étudiés. 
La  méthode  des  sondages  ou  échantillonnage  qui  conduit  à  n’examiner 
qu’une fraction de la population, un échantillon.

On  appelle  caractère  statistique  simple  toute  application  :  X  :  P  →  R  avec  P  un 
ensemble fini appelé population ; tout élément ω de P s’appelle un individu.
Le  caractère  désigne  une  grandeur  ou  un  attribut,  observable  sur  un  individu  et 
susceptible de varier prenant ainsi différents états appelés modalités.
On  appelle  modalité  toute  valeur  :  xi  ∈  X  (P)  telle  que  :  X (P)  =  {x1 ,x2 ,x3  ,…..,  xi 
,…., xk} avec k nombre de modalités différentes de X.

I.

Les caractères statistiques :
A. Les caractères qualitatifs :

Mesurées  dans  une échelle  nominale,  les  modalités  sont  exprimables  par des noms  
et  ne  sont  pas  hiérarchisées.  Un  caractère  nominal  peut  être  dichotomique  s’il  ne 
peut prendre que deux modalités.
Exemple:  la  couleur  du  pelage,  les  groupes  sanguins,  les  différents   nucléotides  de 
l’ADN, la présence ou l’absence d’un caractère (dichotomique), etc.
Mesurées  dans  une  échelle  ordinale:  les  modalités  traduisent  le  degré  d’un  état 
caractérisant  un  individu  sans  que  ce  degré  ne  puisse  être  défini  par  un  nombre  qui 
résulte d’une mesure. Les modalités sont alors hiérarchisées.
Exemple: le stade d’une maladie.
B. Les caractères quantitatifs :
Le  caractère  est  discret  s’il  peut  prendre  seulement  certaines  valeurs entières  dans 
un intervalle donné. En général, il résulte d’un comptage ou dénombrement. 
Exemple :  le nombre  de petits  par  portée,  le  nombre de  cellules dans une culture, le 
nombre d’accidents pour une période donnée, etc.
Le caractère  est continu s’il peut théoriquement prendre n’importe quelle valeur dans 
un intervalle donné. En général il résulte d’une mesure. 
Exemple : le poids, la taille, le taux de glycémie, le rendement, etc. 
Remarque  :  En  réalité  le  nombre  de  valeurs  possibles  pour  un  caractère  donné 
dépend  de  la  précision de  la mesure. On  peut  considérer comme  continu  un caractère 
discret qui peut prendre un grand nombre de valeurs. 
Exemple  :  le  nombre  de  globules  blancs  ou  rouges  par  ml  de  sang,  le  nombre  de 
nucléotides A dans une très longue séquence d’ADN (plusieurs Mégabases) .

II.

Représentation des données :
A. Séries statistiques :

Une  série  statistique  correspond  aux  différentes  modalités  d’un  caractère  sur  un 
échantillon  d’individus  appartenant à  une  population  donnée. Le nombre  d’individus qui 
constituent l’échantillon étudié s’appelle la taille de l’échantillon.
B. Tableaux statistiques : cas d’une seul variable
A chaque  modalité  du caractère  X, peut correspondre un ou plusieurs individus dans 
l'échantillon de taille n. 

On  appelle  effectif  de  la modalité  xi,  le nombre ni où ni est le nombre d’individu ω tel 
que X(ω) = xi
On appelle fréquence de la modalité xi, le nombre fi tel que  f i = nin
L’emploi  des  fréquences  ou  fréquences   relatives  s’avère  utile  pour  comparer  deux 
distributions de fréquences établies à partir d’échantillons de taille différente.
1. Caractères quantitatifs discrets :

Dans  le  cas  d’un  caractère  quantitatif  discret,  l’établissement  de  la  distribution  des 
données observées associées avec leurs fréquences est immédiate.
Exemple  :  La  taille  de l’échantillon  étudié  est  n  =10  femmes. On  observe  le  taux de 
mortalité  maternelle  chez les femmes ayant été en cas de grossesse 3 fois pendant une 
période de 10 ans.
xi : nombre de 
naissances 
vivantes par femme

ni : nombre de 
femmes ayant xi 
naissances

fi : fréquence 
relative

fi cum : fréquence 
relative cumulée

0

0

0,0

0,0

1

2

0,2

0,2

2

3

0,3

0,5

3

5

0,5

1

2. Caractères quantitatifs continues :

Dans  le  cas  d'un  caractère  quantitatif  continu,  l’établissement  du  tableau  de 
fréquences  implique d’effectuer  au  préalable  une répartition en  classes des données. 
Cela  nécessite   de  définir  le  nombre de  classes attendu  et  donc  l’amplitude associée à 
chaque classe ou intervalle de classe.
En  règle  générale,  on  choisit  des  classes  de  même  amplitude.  Pour  que  la 
distribution  en  fréquence  est un  sens, il faut  que  chaque classe  comprenne  un nombre 
suffisant de valeurs (ni).
Diverses  formules  empiriques  permettent  d’établir  le  nombre  de  classes  pour  un 
échantillon de taille n.



La règle de STURGE : Nombre de classes = 1+ (3,3 log n)
La règle de YULE : Nombre de classes = 2,5  √4 n

L'intervalle entre chaque classe est obtenu ensuite de la manière suivante : 
Intervalle  de  classe =  (X  max  ­ X  min)  /  Nombre de classes  avec X max et X min, 
respectivement la plus grande et la plus petite valeur de X dans la série statistique.
A partir  de Xmin  on  obtient  les limites  de classes  ou  bornes de classes par addition 
successive  de  l’intervalle  de  classe.  En  règle  général,  on  tente  de  faire  coïncider 
l’indice  de classe ou valeur  centrale  de la  classe avec  un  nombre  entier  ou ayant peu 
de décimales.
Exemple :  Dans le cadre de l’étude de la population de gélinottes huppées (Bonasa 
umbellus),  les  valeurs de la  longueur  de  la rectrice  principale peuvent  être  réparties  de 
la façon suivante :
Définition du nombre de classes : 



Règle de Sturge : 1 + (3,3 log 50) = 6,60
4
Règle de Yule : 2,5  √50  = 6,64 

Définition  de  l’intervalle  de  classe  :  IC  =  174 −140
= 5, 15   mm  que  l’on  arrondit  à  5 
6,6
mm par commodité.
 Tableau de distribution des fréquences :
xi : longueur 
de la rectrice 
des bornes 
des classes

ci : centre de 
la classe xi

ni : nombre 
d’individus par 
classe de taille 
xi

fi : fréquence 
relative

fi cum : 
fréquence 
relative 
cumulée

[140­145[ 

142,5 

1

0,02

0,02

[145­150[ 

147,5 

 1 

 0,02 

0,04

[150­155[ 

152,5

 9 

0,18 

0,22

[155­160[ 

 157,5 

17 

0,34 

0,56

[160­165[ 

162,5 

16 

0,32 

0,88

[165­170[ 

167 ,5 

3

0,06 

0,94

[170­175[

172,5

 3

0,06

1

C. Tableaux statistiques : cas de deux variables
Le tableau brut se présente sous la forme suivante:

Individu

Variable X

Variable Y

1

X1

Y1

...

...

...

n

Xn

Yn

On  désire  créer  un  tableau  appelé  tableau  de  contingence  donnant  le  nombre 
d'individus  possédant  simultanément  la  modalité  i  de  variable  X  et  la  modalité  j  de 
variable Y qui se présentera sous la forme suivante:
Variable

Y1

Yj

Yr

X1

n11

n1j

n1r

Xi

ni1

nij

nir

Xk

nk1

nkj

nkr

D. Représentations graphiques :
Les représentations  graphiques  ont  l’avantage de renseigner immédiatement sur l’allure 
générale de la distribution. Elles facilitent l’interprétation des données recueillies.
1. Caractères qualitatifs :

Suivant  la  variable  observée,  de  nombreuses  représentations  plus  ou  moins 
informatives peuvent être utilisées. Cependant les 2 plus classiques sont:


Les tuyaux d'orgue (ou diagramme en barre ou diagramme à bandes) :

Attention: les  tuyaux  ont une certaine épaisseur pour  qu'il n'y ait pas de confusion avec 
les diagrammes en bâtons réservés à la variable quantitative discrète.


Les diagrammes à secteurs (ou camemberts ou séculaire) :

2. Caractères quantitatifs discrets :

Pour  les  caractères  quantitatifs  discrets,  la  représentation  graphique  est  le 
diagramme  en  bâtons  où  la  hauteur  des  bâtons  correspond  à  l’effectif  ni  associé  à 
chaque modalité du caractère xi.

3. Caractères quantitatifs continus :

Pour  les  caractères  quantitatifs  continus,  la  représentation  graphique  est 
l’histogramme  où  la  hauteur  du  rectangle  est  proportionnelle  à  l’effectif  ni. Ceci n’est 
vrai  que  si  l’intervalle  de  classe  est  constant.  Dans  ce  cas  l’aire  comprise  sous 
l’histogramme  s’avère  proportionnelle  à  l’effectif  total.  En  revanche  lorsque  les 
intervalles  de  classe  sont  inégaux,  des  modifications  s’imposent  pour  conserver  cette 
proportionnalité.  Dans  ce  cas,  en  ordonnée,  au  lieu  de  porter  l’effectif,  on  indique  le 
rapport de  la  fréquence sur l’intervalle de classe. Ainsi la superficie de chaque rectangle 
représente alors l’effectif associé à chaque classe.

III.

Indicateurs numériques :

Le  dernier  niveau  de  description  statistique  est  le  résumé  numérique  d’une 
distribution  statistique  par  des  indicateurs  numériques  ou  paramètres 
caractéristiques.

Remarque  :  Ces  derniers  représentent  une  transition  entre  la  statistique  purement 
descriptive  et  l’estimation  des  paramètres  qui  caractérisent   les  distributions  de 
probabilité.
A. Statistique descriptive univariée :
1. Paramètres de position (Tendance centrale) :
Ces  paramètres  ont pour objectif dans le cas d'un caractère quantitatif de caractériser 
l’ordre de grandeur des observations.
a) Le mode :
Le mode, Mo  d’une  série statistique est  la valeur  du  caractère la  plus  fréquente ou 
dominante dans l'échantillon.  Le  mode  correspond  à la  classe de  fréquence maximale 
dans la distribution des fréquences.
Remarque :





Le  mode  peut  être  calcul´e  pour  tous  les  types  de  variable,  quantitative  et 
qualitative.
Le mode n’est pas nécessairement unique.
Quand  une  variable  continue  est  découpée  en  classes,  on  peut  d´définir  une 
classe modale (classe correspondant `a l’effectif le plus élevé).

On  peut  identifier  le  mode  comme  la  valeur  médiane  de  la  classe  de  fréquence 
maximale  ou  bien   effectuer  une  interpolation  linaire  pour  obtenir  la  valeur  exacte  du 
mode comme suit :

M o = xm +

iΔi
Δs+Δi

 

avec :
xm : limite inférieure de la classe d’effectif maximal
i : intervalle ou amplitude de classe (xm+1 – xm)
Δi  :  Écart  d’effectif  entre  la  classe  modale  et  la  classe  inférieure  la  plus 
proche
Δs  :  Ecart  d’effectif  entre  la  classe  modale  et  la  classe  supérieure  la  plus 
proche
Important : Il est fortement conseillé d'utiliser l'histogramme pour déterminer le mode.

Remarque  : Une  distribution  de  fréquences peut présenter un seul mode (distribution 
unimodale) ou plusieurs modes (distribution bi ou trimodale).
Si  la  distribution  des  valeurs  est  symétrique,  la  valeur  du  mode  est  proche de la 
valeur de la moyenne arithmétique. M o ≈ x
b) La médiane :
La médiane,  Me, est  la valeur  du  caractère pour laquelle la  fréquence cumulée est 
égale  à  0,5  ou  50%. Elle  correspond  donc  au centre  de  la  série  statistique  classée  par 
ordre  croissant,  ou  à   la  valeur  pour  laquelle  50%  des  valeurs  observées  sont 
supérieures et 50% sont inférieures.


Dans  le cas où  les valeurs prises par le caractère étudié ne sont pas regroupées 
en classe,
○ si n est impair, alors la médiane est la valeur du milieu  M e = x n+1
2

○ si n est pair, alors une médiane est une valeur quelconque entre x n2  et x n+1
2



. Dans ce cas il peut être commode de prendre le milieu.
Dans  le  cas  où   les  valeurs  prises  par  le  caractère  étudié  sont  groupées  en 
classe,  on  cherche  la  classe  contenant  le  n/2  individu  de  l’échantillon.  En 
supposant  que  tous  les  individus  de  cette  classe  sont  uniformément  répartis  à 
l’intérieur,  la  position  exacte  du  n/2  individu  de  la  façon  suivante  par  
interpolation linéaire :

M e = x n2 + (x n+1 − x n2 )
2

( ) 
n −N
2
i

ni

avec :
x n2 :  limite inférieure  de  la classe  dans laquelle  se trouve  le n/2 individu (classe 
médiane).
x n+1   :  limite  supérieure  de  la  classe  dans  laquelle  se  trouve  le  n/2  individu 
2

(classe médiane).
ni  : effectif de la classe médiane
N i  : effectif cumulé inférieur à  x n2
n  : taille de l’échantillon
Exemple  :  Dans  le  cadre  de  l’étude  de  la  population  de  gélinottes  huppées,  les 
valeurs  de  la  longueur  de  la  rectrice  principale  peuvent  être  réparties  de  la  façon 
suivante :
xi : longueur  ci : centre de 
de la rectrice  la classe xi
des bornes 
des classes

ni : nombre 
d’individus 
par classe 
de taille xi

Ni : Effectifs 
cumulés

fi : fréquence 
relative

fi cum : 
fréquence 
relative 
cumulée

[140­145[ 

142,5 

1

1

0,02

0,02

[145­150[ 

147,5 

 1 

2

 0,02 

0,04

[150­155[ 

152,5

 9 

11

0,18 

0,22

[155­160[ 

 157,5 

17 

28

0,34 

0,56

[160­165[ 

162,5 

16 

44

0,32 

0,88

[165­170[ 

167 ,5 

3

47

0,06 

0,94

[170­175[

172,5

 3

50

0,06

1

n=50,  la  25ème valeur  se  situe  dans la  classe [155­160[  qui contient les individus de 
12 à 28. d’où avec  x n2 = 155mm ,  x n+1 = 160mm ,  N i = 11  individus,  ni  = 17  individus 
2

(

M e = 155 + (160 − 155)

(

50
2 −11

17

)) = 159, 11mm  

Si  la distribution des valeurs est symétrique, la valeur de la médiane est proche de 
la valeur de la moyenne arithmétique.  M e ≈ x
c) La moyenne :

La moyenne ne peut être définie que sur une variable quantitative.
La  moyenne  est  la  somme  des  valeurs  observées  divisée  par  leur  nombre,  elle  est 
notée :
x=

x1+x2+...+xn
n

n

= 1n ∑ xi
i=1

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs :
n

x = 1n ∑ nixi
i=1

Remarque  :  Une  des  propriétés  de  la  moyenne  arithmétique  est  que  la somme  des 
n

écarts à la moyenne est nulle:  ∑ (xi − x) = 0
i=1

d) Les quantiles :
La notion de quantile d’ordre p (où 0<p<1) généralise la médiane. 

{x





Si np est un nombre entier, alors :  xp = 12



Si np n’est pas un nombre entier, alors : xp = x⌈np⌉ o`u ⌈np⌉ représente le plus petit 

np + xnp+1

nombre entier supérieur ou égal à np.
Remarque : La médiane est le deuxième quantile d’ordre p = 1/2.
➔ Les quartiles sont obtenus lorsqu'on a cumulé 25, 50, 75% de la population 
➔ Les déciles sont obtenus lorsqu'on a cumulé 10, 20,...., 90% de la population 
➔ Les centiles sont obtenus lorsqu'on a cumulé 1, 2,...., 99% de la population
Exemple :  Soit la  série statistique 12,  13,  15, 16, 18, 19, 22, 24, 25, 27 contenant 10 
observations (n = 10).
Le premier  quartile  : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre entier, on a : 
x1/4 = x⌈2,5⌉ = x3 = 15
La  médiane  :  Comme  np  =  0.5  ×  10  =  5  est  un  nombre  entier,  on  a  : 
x1/2 = 12 {x5 + x6} = 18+19
2 = 18, 5
Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre entier, on a 
:  x3/4 = x⌈7,5⌉ = x8 = 24
2. Paramètres de dispersion :

Ces  paramètres  ont pour objectif dans le cas d'un caractère quantitatif de caractériser 
la  variabilité  des  données  dans  l’échantillon.  Les  indicateurs  de  dispersion 
fondamentaux sont la variance observée et l’écart­type observé.
a) L’étendue :
L’étendue  est  simplement  la  différence  entre  la  plus  grande  et  la  plus  petite  valeur 
observée.
E = xn − x1
b) La distance interquartile :
La distance interquartile est  la différence entre le troisième et le premier quartile (ou 
quantile) :
I Q = x3/4 − x1/4
c) La variance :
La variance est  la somme  des carrés des écarts à  la moyenne divisée par le nombre 
d’observations:
n

n

i=1

i=1

V (x) = s2x = σ2 = 1n ∑ (xi − x)2 = 1n ∑ x2i − x2
La variance  peut également être définie à partir des effectifs et des valeurs distinctes 
:
n

n

i=1

i=1

V (x) = 1n ∑ ni(xi − x)2 = 1n ∑ nix2i − x2
Remarque  :  Quand  on  veut  estimer  une  variance  d’une  variable  X  à  partir  d’un 
échantillon  (une partie de  la population sélectionnée  au  hasard) de  taille  n, on  utilise  la 
variance “corrigée” divisée par n−1.
n
S2x = s2x n−1

d) L’écart­type :
L’écart­type est la racine carrée de la variance :
s x = σ  =



1
n

n

∑ (xi − x)2 =

i=1



1
n

n

∑ x2i − x2  

i=1

e) Coefficient de variation :
La  variance  et  l’écart­type  observée  sont  des  paramètres  de  dispersion  absolue 
qui  mesurent  la  variation  absolue  des données indépendamment de l’ordre de grandeur 
des données.
Le coefficient de  variation  noté  C.V.  est un indice  de  dispersion relatif prenant en 
compte ce biais et est égal à :

C .V . =

sx
x

× 100  

Exprimé en  pour  cent, il est indépendant du choix des unités de mesure  permettant la 
comparaison des distributions de fréquence d’unité différente.
f) L’écart moyen absolu :
L’écart moyen  absolu est  la somme  des valeurs  absolues  des  écarts à la  moyenne 
divisée par le nombre d’observations :
n

emoy = 1n ∑ ||xi − x||
i=1

g) L’écart médian absolu :
L’écart médian absolu  est la  somme des  valeurs absolues  des écarts  à  la médiane 
divisée par le nombre d’observations :
n

emed = 1n ∑ ||xi − x1/2||
i=1

3. Paramètres de concentration :
L'objectif  est  de  mesurer  les  inégalités  dans  la  répartition d'une  variable  à  l'intérieur 
d'une  population.  Cette  notion n'a d'intérêt  que dans  la mesure  où  les  valeurs  globales 
suivantes ont une signification concrète.
a) Valeurs globales :
xi  représentent  les  valeurs  ponctuelles  ou  les  centres  des  classes,  ni  les  effectifs 
correspondants. Les valeurs globales de la série (xi , ni) sont les quantités gi = ni xi
b) La médiale :
La médiale de la série (xi , ni) est la médiane de la série (xi , gi)

c) Courbe de concentration (ou de Lorenz) :
C'est la courbe obtenue en représentant :

L'allure de la courbe permet d'avoir une idée de la concentration :

d) Indice de Gini :
L’indice de  Gini, noté  G  est égal  à  deux fois la surface  comprise entre la courbe de 
Lorenz et la diagonale. Il est possible de montrer que :

L’indice  de  Gini   est  compris  entre  0  et  1.  S’il  est  proche  de  0, tous le  revenus  sont  
égaux. S’il est proche de 1, les revenus sont très inégaux.
B. Statistique descriptive bivariée :
1. Série statistique bivariée :
On  s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur les “n” 
unités  d’observation.  Pour  chaque  unité,  on  obtient  donc  deux  mesures.  La  série 
statistique  est  alors  une  suite  de  “n” couples  des valeurs  prises  par  les deux  variables 
sur chaque individu :

(x1, y1), . . . , (xi, yi), . . . , (xn, yn)
Chacune  des  deux  variables  peut  ˆetre,  soit  quantitative,  soit  qualitative.  On  examine 
deux cas.

Les deux variables sont quantitatives.

Les deux variables sont qualitatives.
2. Deux variables quantitatives :
a) Représentation graphique de deux variables :

Dans  ce  cas, chaque couple est composé  de deux valeurs numériques. Un couple de 
nombres (entiers ou réels) peut toujours être représenté comme un point dans un plan.
Exemple : On mesure le poids Y et la taille X de 20 individus.

b) Analyse des variables :

Les  variables  x  et  y  peuvent  être  analysées  séparément.  On  peut  calculer  tous  les 
paramètres dont les moyennes et les variances :
n

x = 1n ∑ xi
i=1

n

s2x = 1n ∑ (xi − x)2
i=1

n

n

s2y = 1n ∑ (yi − y)2

y = 1n ∑ yi
i=1

i=1

Ces  paramètres  sont  appelés  paramètres  marginaux  :  variances  marginales, 
moyennes marginales, écarts­types marginaux, quantiles marginaux, etc.
c) Covariance :

La covariance est définie :

n

n

i=1

i=1

Cov(x; y) = sxy = 1n ∑ (xi − x)(yi − y) = 1n ∑ xiyi − x y
C ov(x; y) ≻ 0 alors x et y varient dans le même sens.
C ov(x; y) ≺ 0 alors x et y varient en sens contraire.
d) Corrélation :

Le  coefficient  de  corrélation  est   la  covariance  divisée  par  les  deux  écart­types 
marginaux :

rxy =

sxy
sxsy

 

Le coefficient de détermination est le carré du coefficient de corrélation :
2 =
rxy

2
sxy
2
sxsy2

 

Remarque  :  Le  coefficient  de  corrélation  mesure  la  dépendance  linéaire  entre  deux 
variables :
2 ≤1
− 1 ≤ rxy ≤ 1
0 ≤ rxy

e) Droite de régression :

La droite de régression est la droite qui ajuste au mieux un nuage de points au sens 
des moindres carrés.

On  considère que  la variable X est explicative et  que la variable Y est dépendante.  
L’équation d’une droite est :
y = a + bx
Le problème  consiste  à  identifier une  droite  qui ajuste  bien le nuage de points. Si les 
coefficients  “a”  et  “b”  étaient  connus,  on  pourrait  calculer les  résidus de  la régression 
définis par :
ei = yi − a − bxi
Le  résidu  ei   est  l’erreur   que  l’on  commet  en  utilisant  la   droite  de  régression  pour 
prédire  yi  à partir de  xi . Les résidus peuvent être positifs ou négatifs.

Pour déterminer  la valeur  des  coefficients  a  et  b on utilise le principe des moindres 
carrés qui consiste à chercher la droite qui minimise la somme des carrés des résidus :
n

n

i=1

i=1

M (a, b) = ∑ e2i = ∑ (yi − a − bxi)2
Les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :
b=

sxy
s2x  (La P ente)

a = y − bx (La Constante)

f) Résidus et valeurs ajustées :

Les valeurs ajustées sont obtenues au moyen de la droite de régression :

y*i = a + bxi
Les valeurs  ajustées  sont  les “prédictions” des  yi  réalisées au moyen de la variable 
x  et de la droite de régression de  y  en  x .
Remarque  :  La  moyenne  des  valeurs  ajustées  est égale à la  moyenne  des valeurs 
observées  y . En effet :
1
n

n

n

n

i=1

i=1

i=1

∑ y*i = 1n ∑ (a + bxi)  = a + b 1n ∑ xi = a + bx

Alors,  y = a + bx , puisque le point  (x,  y)  appartient à la droite de régression.
Les  résidus  sont  les   différences  entre  les  valeurs  observées  et  les  valeurs 
ajustées de la variable dépendante.
ei = yi − y*i
Les résidus représentent la partie inexpliquée des  yi  par la droite de régression.
La moyenne des résidus est nulle. En effet :
1
n

n

n

∑ ei = 1n ∑ (yi − y*i ) = y − y = 0

i=1

i=1
n
1
n ∑ xiei
i=1

=0

g) Sommes de carrés et variances :

On appelle somme des carrés totale la quantité :
n

SC TOT = ∑ (yi − y)2
i=1

Remarque : La variance marginale peut alors être définie par :
SCT OT
n

sy2 =

 

On appelle somme des carrés de la régression la quantité :
n

SC REGR = ∑ (y*i − y)2
i=1

Remarque : La variance de régression est la variance des valeurs ajustées.

sy2* =

SCREGR
n

=

1
n

n

∑ (yi* − y)2

i=1

On appelle somme des carrés des résidus (ou résiduelle) la quantité :
n

SC RES = ∑ e2i
i=1

Remarque : La variance résiduelle est la variance des résidus.

se2

=

SCRES
n

=

1
n

n

∑ ei2

i=1

Théorème :
SC TOT = SC REGR + SC RES
h) Décomposition de la variance :

La variance de régression peut également s’écrire :
sy2* = sy2r2  où  r2  est le coefficient de détermination
La variance résiduelle peut également s’écrire :
s2e = s2y (1 − r2)
Théorème  : La variance marginale est la somme de la variance de régression et de 
la variance résiduelle :

sy2 = sy2* + se2  
3. Deux variables qualitatives :
a) Données observées :

Si  les  deux  variables  x  et  y sont  qualitatives,  alors  les données  observées sont  une 
suite de couples de variables :
(x1,  y1) ;  ... ;  (xj,  yk) ;  ... ;  (xn,  yn)
Chacune  des  deux  variables  prend  comme  valeurs  des  modalités  qualitatives.  Les 
valeurs distinctes de x et y sont notées respectivement :
x1 ;  ... ;  xj ;  ... ;  xJ et

y1 ;  ... ;  yk ;  ... ;  yK

b) Tableau de contingence :

Les  nj.  et  n.k  sont appelés les effectifs marginaux.
J

K

∑ njk = n.k

j=1
J

∑ njk = nj.

k=1
J K

K

∑ nj. = ∑ n.k = ∑ ∑ njk = n

j=1

k=1

j=1 k=1

c) Effectifs théoriques et khi­carré :

On  cherche  souvent  une  interaction  entre  des  lignes  et  des  colonnes, un  lien  entre 
les  variables.  Pour  mettre  en  évidence  ce  lien,  on  construit  un  tableau  d’effectifs 
théoriques qui  représente la situation où les variables ne sont pas liées (indépendance). 
Ces effectifs théoriques sont construits de la manière suivante :

njk* =

njnk
n

 

Les  effectifs  observés  njk   ont  les  mêmes  marges  que  les   effectifs  théoriques  njk* . 
Enfin, les écarts à l’indépendance sont définis par :
ejk =  njk −  njk*
La dépendance du tableau se mesure au moyen du khi­carré défini par :
J K (n −n* )2
jk jk
n*jk
j=1 k=1

2 = ∑ ∑
χobs

J K e2
jk

=∑∑

j=1 k=1

n*jk

Le  khi­carré  peut  être  normalisé  pour  ne  plus  dépendre  du  nombre  d’observations. 
On définit le phi­deux par :

ϕ2

=

2
χobs
n

 

Le V de Cramer est définit par :
V =



ϕ2
min(J−1,K−1)  

Le V  de  Cramer est  compris  entre  0  et 1.  Il  ne d´epend ni de la taille de l’´echantillon 
ni  de  la  taille  du  tableau.  Si V  ≈  0,  les deux  variables sont ind´ependantes. Si V  = 1,  il 
existe  une  relation  fonctionnelle  entre  les variables,  ce  qui  signifie  que  chaque  ligne  et 
chaque  colonne  du  tableau de contingence ne contiennent  qu’un seul  effectif  diff´erent 
de 0 (il faut que le tableau ait le mˆeme nombre de lignes que de colonnes).
 


Aperçu du document Techniques Statistiques - Chapitre 1 (Séance 1).pdf - page 1/21
 
Techniques Statistiques - Chapitre 1 (Séance 1).pdf - page 2/21
Techniques Statistiques - Chapitre 1 (Séance 1).pdf - page 3/21
Techniques Statistiques - Chapitre 1 (Séance 1).pdf - page 4/21
Techniques Statistiques - Chapitre 1 (Séance 1).pdf - page 5/21
Techniques Statistiques - Chapitre 1 (Séance 1).pdf - page 6/21
 




Télécharger le fichier (PDF)


Techniques Statistiques - Chapitre 1 (Séance 1).pdf (PDF, 822 Ko)

Télécharger
Formats alternatifs: ZIP



Documents similaires


sans nom 1
cours1 statistique stu s3
cours de stats
master biostat sous spss1
nb statistique
nt6qymr

Sur le même sujet..