UE 4 Analyse descriptive univariée d'un échantillon statistique .pdf



Nom original: UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf

Ce document au format PDF 1.4 a été généré par Writer / OpenOffice.org 3.2, et a été envoyé sur fichier-pdf.fr le 19/08/2012 à 17:08, depuis l'adresse IP 82.240.x.x. La présente page de téléchargement du fichier a été vue 2449 fois.
Taille du document: 111 Ko (8 pages).
Confidentialité: fichier public

Aperçu du document


Analyse descriptive univariée d'un échantillon statistique
I. Introduction


Plan classique d'une étude :
◦ Recueil des données (libre observation ou expérience).
◦ Analyse descriptive des données.
◦ Inférence statistique (recherche d'associations, prédiction...).



Plusieurs type de variables (cf plan) :
◦ Qualitatives.
▪ Non ordonnées.
▪ Ordonnées.
◦ Quantitatives.
▪ Discrètes.
▪ Continues.
◦ Cas particuliers.
▪ Binaires.
▪ Rangs.



Pour chacun de ces types nous verrons.
◦ Définition.
◦ Présentation des données.
◦ Représentation graphique.
◦ Calculs des paramètres.

II. Variables qualitatives non ordonnées
A. Définition





Variable non quantifiable décrivant une qualité d'un individu à l'aide de k modalités.
Les modalités forment donc un S.C.E. (système complet d’événements).
Variable « nominale » si k > 2.
Exemple : couleur des cheveux.
blond

brun

blanc

Ensemble S

B. Présentation des données



Tableau de contingence.
Une ligne pour chacune des k modalités (i de 1 à k).
Modalité
Effectif
xi

Fréquence

ni

fi=ni/N

Σ=N

Σ=N

C. Représentation graphique



Diagramme en secteur = camembert.
Proportionnalité entre :
◦ La fréquence fi.
◦ L'effectif ni.
◦ L'angle au centre (en degrés : α = 360°*fi).
◦ La surface du secteur.
Blanc
0,2
Brun
0,5

Blond
0,3

D. Calcul de paramètres



Un seul paramètre : le mode.
Mode = modalité ayant le plus grand effectif.

Exercice 1.
◦ Couleur des cheveux chez cents individus.
Couleur xi

ni

fi

Bruns

50

0,5

Blonds

30

0,3

Blancs

20

0,2

Σ=N=100

Σ=1

Mode = ''bruns''.
III. Variables qualitatives ordonnées = variables ordinales


Les modalités ont un ordre.
Brevet
Variable = niveau d'étude

Bac
Licence
Master




Comportement identique aux variables nominales.
Tableau : on peut trier les lignes par x croissants, ajouter l'effectif cumulé et calculer la
médiane (cf. post).

IV. Variables quantitatives discrètes
A. Définition



Variable numérique ne pouvant prendre qu'un nombre fini de valeurs.
Souvent issues d'un décompte.



Exemple.
◦ Nombre d'enfants dans une famille.
◦ Nombre de rechutes d'une maladie.

B. Présentation des données





Tableau de contingence.
Une ligne pour chacune des k valeurs différentes triées de X (i de 1 à k).
Modalité
Effectif
Effectif cumulé
Fréquence
i

ni

Ni = Σ nj

fi=ni/N

F i = Σ fj

xk

nk
Σ=N

N
Ø

fk
Σ=1

1
Ø

j=1

cf Exercice 2A.

1. Représentation graphique
Rappels préalables, cas discret.
◦ f(x) est la densité de probabilité de X.
▪ f(x0) = P(X=x0)
▪ ∀ x, 0 ≤ f(x)≤ 1
k
▪ ∑ f(xi) =1
i=1

◦ F(x) est la fonction de répartition de X.
▪ F(x0) = P(X=x0)
◦ F(x) est la primitive de f(x) qui vérifie 3 propriétés.
▪ F(x) croissante sur ]-∞;+∞[
▪ Lim x→-∞ F(X) = 0
▪ Lim x → +∞ F(X) = 1
2. Diagramme en bâtons




i

xi

C. Représentation graphique



Fréquence
cumulée

Diagramme en bâtons.
Polygone des effectifs.
Attention :
◦ Interdiction d'élargir les barres.
◦ Échelle réellement quantitative en X.
◦ Polygone en pointillés.

j=
1

Fi

Polygone des
effectifs

=> Estimation graphique de F(x).

fj
X

Xj

Xi

3.Diagramme cumulatif




Diagramme cumulatif (en fréquences).
Fournit la médiane graphiquement (cf. exercice).
Schéma.
◦ Y : fréquence cumulée.

1
Fj
Fi
0
Xi


Xj

X

cf Exercice 2B.
D. Calcul des paramètres



Paramètres calculables.
◦ Minimum, maximum.
◦ Mode (idem qualitatif).
◦ Médiane.
◦ Quantiles.
◦ Moyenne, variance et écart type.

cf. ci-après

1. Médiane


Médiane x~ :
◦ Valeur seuil qui partage l'échantillon en 2 sous-groupes d'effectif identique.
▪ Si N impair : soit N=2p+1, médiane = xp+1
▪ Si N pair : soit N=2p, médiane = (xp+xp+1)/2
◦ Robuste aux valeurs extrêmes.
2. Quantiles



Quartiles.
◦ Les 3 valeurs qui partagent l'échantillon en 4 sous-groupes d'effectif identique.
◦ Distance inter-quartile = Q3-Q1
◦ Médiane = Q2 (2e quartile).

Percentiles.
◦ Les 99 valeurs qui partagent l'échantillon en 100 sous-groupes d'effectif identique
◦ Médiane = 50ème percentile.
Quantiles.
◦ Terme générique.





1
0,75
0,5
0,25
0
Q1

Q2

Q3

x

Distance inter-quartile
3. Moyenne





La moyenne arithmétique.
k
▪ x =E(x)= ∑ xifi
i=1
Contrairement à la médiane.
◦ Sensible aux valeurs extrêmes.
◦ Nombreux tests et calculs réalisables.
En moyenne, les écarts à la moyenne sont nuls
k
◦ E (x-x) = ∑ (xi-x) . fi = 0
i=1

4. Variance et écart type


Variance et écart type en théorie...
◦ Variance σ2 = E [(x-x)2]
k

(x-x)2 .fi
i=1
k

k

σ2 = E(X2) – [E(X)]2= ( ∑ xi2. fi) - (∑ xi fi)2
i=1

i=1



Écart type σ= √(σ²)



Variance et écart type en pratique sur un échantillon (cf. cours suivant).
◦ Estimateur biaisé de l'écart type.
Sech se calcule comme σ mais sur l'échantillon.
◦ s =Estimateur non biaisé de l'écart type.
=ds (déviation standard).
=sd (standard deviation).
S = Sech √ N / (N – 1)



Exercice 2C et 2D.

V. Variables quantitatives continues
A. Définition




Ce sont des variables numériques pouvant prendre un nombre infini de valeurs.
À chaque nombre exact est associée une probabilité nulle :
∀x0 , P(X=x0) = 0
Exemples :
◦ Taille d'un individu.
◦ Poids d'un individu.
B. Présentation des données




Discrétisation = mise en classes jointives et mutuellement exclusives.
Une ligne pour chacune des k classes triées de X (i de 1 à k)
Classe

Centre de
classe

Effectif

...

...

(Xi;Xi+1)

Ci

...

...
Ci = (Xi+Xi+1)/2

Effectif cumulé

Fréquence

Fréquence
cumulée

C. Représentation graphique
1. Rappels théoriques


Rappels préalables, cas continu :
◦ f(X) est la densité de probabilité de X
Attention, définition différente car :
∀x0 , P (X = x0) = 0
b
donc f(X) définie telle que : ∫ f(x) *dx = P(a<X<b)
x=0

◦ F(x) est la fonction de répartition de X : définition similaire au cas discret.
x
F(x0) = P(X<x0) = ∫ f(t) * dt
O

t = -∞



Rappels sur la densité de probabilité f(x) :
Probabilités données par l'aire sous la courbe et non par la hauteur de la courbe. Aire totale
sous la courbe = 1
dx

f(X0)
f(X0)
X0

a

P(X=x0) = f(x0).dx = 0

b

P(a<X<b) = ∫ f(x).dx = F(b)-F(a)

2. Histogramme






Histogramme en fréquence (et non en effectif !!!).
Probabilité proportionnelle à la surface du rectangle.
Surface totale = 1.
Polygone des fréquences.
Possibilité de classes d’inégales largeurs, tant que la surface est conservée.
=> Estimation graphique de f(X).

40
30
20
10
0

2







3

4

5

6

7

Histogramme en effectif.
Toléré en analogie avec les diagrammes en barres.
Effectif de la classe est proportionnelle à la hauteur de la barre.
Somme des hauteurs = N (effectif).
Polygone des effectifs.
Exige des classe égales.
=> Ne représente rien du tout.

Polygone des effectifs.

3. Diagramme cumulatif


Diagramme cumulatif (en fréquence) :
◦ Idem cas discret.
◦ Fournit graphiquement la médiane et les quantiles.
=> Estimation graphique de F(X).
Exercice 3.

D. Calcul de paramètres
1. Rappels théoriques


Rappel théorique :
(formule générale, pas sur l’échantillon).
◦ Moyenne ( somme des valeur * probabilité ):
▪ E(X) = ∫ x.f(x).dx
◦ Moyenne sur un intervalle ]a ;b[ :
soit G(X) une primitive de X.f(X)
▪ E]a;b[(X) = [G(X)]ba = G(b) - G(a)
◦ Variance (moyenne des écarts carrés à la moyenne) :
▪ Var (X) = ∫ (x – µ)2 .f(x) .dx
= E(X2) – µ2 = (∫x2 .f(x) .dx) - µ2)
2. En pratique



En pratique sur un échantillon :
◦ Les même paramètres calculables que précédemment, sauf le mode.
◦ Si données détaillées disponibles, utiliser les même formules (avec fi=1/N).
◦ Si données agrégées par classes, on utilise les centres de classes Ci.




Le mode n'est pas calculable.
Description d'une courbe f(X) :

unimodale

bimodale

multimodale

VI. Cas particuliers
A. Variable binaires


Cas des variable qualitatives à deux modalités.
◦ Exemple : « sexe » {F;H}.
→ est identique à « est masculin ? » {0;1}.
= expérience de Bernoulli.
◦ Selon les besoins, utilisables comme des quantitatives.
B. Les variable de rang





Cas particuliers de variables quantitatives discrètes : 1°, 2°, … , N°.
Avec ou sans ex-æquo.
Non traités dans ce cours, les graphiques et paramètres précédents ne s'appliquent pas.


UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf - page 1/8
 
UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf - page 2/8
UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf - page 3/8
UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf - page 4/8
UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf - page 5/8
UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf - page 6/8
 




Télécharger le fichier (PDF)

UE 4 - Analyse descriptive univariée d'un échantillon statistique.pdf (PDF, 111 Ko)

Télécharger
Formats alternatifs: ZIP




Documents similaires


sans nom 1
ue 4 analyse descriptive univariee d un echantillon statistique
td 1 statistique descriptive
6 td statistiques
statistique
statistique 3

Sur le même sujet..