Fichier PDF

Partage, hébergement, conversion et archivage facile de documents au format PDF

Partager un fichier Mes fichiers Convertir un fichier Boite à outils Recherche Aide Contact



Master BioStat sous R et Rcmdr1 .pdf



Nom original: Master_BioStat sous R et Rcmdr1.pdf

Ce document au format PDF 1.5 a été généré par TeX / MiKTeX pdfTeX-1.40.17, et a été envoyé sur fichier-pdf.fr le 13/03/2018 à 08:06, depuis l'adresse IP 154.148.x.x. La présente page de téléchargement du fichier a été vue 227 fois.
Taille du document: 3.1 Mo (103 pages).
Confidentialité: fichier public




Télécharger le fichier (PDF)









Aperçu du document


Universit´
e Moulay Ismail Mekn`
es
Facult´
e des Sciences
Master Bioinformatique
BIOSTATISTIQUE SOUS R et (Rcmdr)

Enseignant: Sghir Aissa
sghir.aissa@gmail.com
Ann´
ee universitaire: 2017–2018

10

15

C

0

V

5

D

M
1

2

3

4

5

6

8

Table des mati`
eres
1 Le Logiciel R
1.1 D´emarrage . . . . . . . . . . . . . . . .
1.2 Op´erations ´el´ementaires sur les variables
1.3 Les vecteurs . . . . . . . . . . . . . . . .
1.4 Les tableaux . . . . . . . . . . . . . . .
1.5 Les matrices . . . . . . . . . . . . . . . .
1.6 Boucle for et it´erations . . . . . . . . . .
1.7 Fonctions . . . . . . . . . . . . . . . . .
1.8 Importation des fichiers de Excel vers R
1.9 Repr´esentations graphiques . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

5
5
6
6
7
8
9
10
10
10

2 Statistique descriptive univari´
ee
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Vocabulaires . . . . . . . . . . . . . . . . . . . . . . .
2.3 Variable qualitative nominale . . . . . . . . . . . . . .
2.4 Variable qualitative ordinale . . . . . . . . . . . . . . .
2.5 Variable quantitative discr`ete, fonction de r´epartition .
2.6 Variable quantitative continue, fonction de r´epartition
2.7 Param`etres de position . . . . . . . . . . . . . . . . . .
2.8 Param`etres de dispersion . . . . . . . . . . . . . . . .
2.9 Utilisation des calculatrices Casio fx-82MS, fx-82ES .
2.10 TP 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

14
14
15
16
18
18
20
22
25
27
29

3 Statistique descriptive bivari´
ee
3.1 Deux variables qualitatives (tableau de contingence) . . . . . . . . . . . .
3.2 Une variable quantitative et une variable qualitative (boˆıte `a moustache) .
3.3 Deux variables quantitatives (r´egression lin´eaire et pr´ediction) . . . . . . .
3.4 Utilisation des calculatrices Casio fx-82ES et fx-82MS . . . . . . . . . . .
3.5 TP 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31
31
32
33
36
38

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

4 Le package (Rcmdr) sous R
39
4.1 D´emarrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Statistique et graphes sous (Rcmdr) . . . . . . . . . . . . . . . . . . . . . 41

2

`
TABLE DES MATIERES

Sghir Aissa

4.3

TP 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5 Analyse en composantes Principales (ACP)
5.1 Introduction . . . . . . . . . . . . . . . . . . .
5.2 Pratique de l’ACP . . . . . . . . . . . . . . .
5.3 Pratique de l’ACP sous R et (Rcmdr) . . . .
5.4 TP 4 . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

6 Notion de probabilit´
es et variables al´
eatoires
6.1 Vocabulaires . . . . . . . . . . . . . . . . . . .
6.2 Notion de probabilit´es . . . . . . . . . . . . . .
6.3 Notion de variables al´eatoires . . . . . . . . . .
6.3.1 Variables al´eatoires discr`etes . . . . . .
6.3.2 Variables al´eatoires continues . . . . . .
6.4 TP 5 . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

45
45
46
55
56

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

57
57
58
59
60
61
65

´
7 Echantillonnage
et estimation
´
7.1 Echantillonnage
. . . . . . . . . . . . . . . . . . . . . .
7.1.1 Introduction . . . . . . . . . . . . . . . . . . .
7.1.2 Distribution d’´echantillonnage de la moyenne .
7.1.3 Distribution d’´echantillonnage de la proportion
7.1.4 Distribution d’´echantillonnage de la variance .
7.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Estimation ponctuelle . . . . . . . . . . . . . .
7.2.2 Estimation par intervalle de confiance . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

67
67
67
69
71
72
73
73
73

8 Tests des hypoth`
eses
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Tests de conformit´e . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Test de conformit´e de la proportion `a une r´ef´erence . . . . .
8.2.2 Test de conformit´e de la moyenne `a une r´ef´erence . . . . . .
8.2.3 Test de conformit´e de la variance `a une r´ef´erence . . . . . .
8.3 Test d’ind´ependance du khi-deux entre deux variables qualitatives
8.4 Tests d’homog´en´eit´e dans le cas des ´echantillons ind´ependants . .
8.4.1 Test de comparaison de deux proportions . . . . . . . . . .
8.4.2 Test de comparaison de deux variances . . . . . . . . . . . .
8.4.3 Test de comparaison de deux moyennes . . . . . . . . . . .
8.5 Test de normalit´e: test de Shapiro et Wilk . . . . . . . . . . . . . .
8.6 Analyse de la variance (ANOVA) . . . . . . . . . . . . . . . . . . .
8.6.1 ANOVA `
a un facteur . . . . . . . . . . . . . . . . . . . . . .
8.6.2 ANOVA `
a deux facteurs . . . . . . . . . . . . . . . . . . . .
8.7 TP 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

78
78
78
78
79
80
81
82
82
83
84
88
90
90
93
95

Facult´e des Sciences de Mekn`es

3

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

Biostatistique sous R et (Rcmdr)

`
TABLE DES MATIERES

Sghir Aissa

9 Mod`
ele lin´
eaire multiple
9.1 Mod`ele lin´eaire simple . . . . . . . . . . . . . . . . . . . . .
9.1.1 Test de la significativit´e du coefficient de corr´elation
9.1.2 Droite de r´egression lin´eaire . . . . . . . . . . . . . .
9.2 Mod`ele lin´eaire multiple . . . . . . . . . . . . . . . . . . . .
9.3 TP 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Facult´e des Sciences de Mekn`es

4

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Biostatistique sous R et (Rcmdr)

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

98
98
98
99
102
102

Chapitre 1

Le Logiciel R
1.1


emarrage

Le prompteur > en rouge indique que R est prˆet `a recevoir les commandes en lignes.
Le prompteur + en rouge apparaˆıt en d´ebut de ligne si la ligne pr´ec´edente est incompl`ete.
Pour quitter la session, il faut taper q().
Pour effacer la m´emoire de R, on utilise la commande suivante : rm(list=ls()).
On peut ajouter des commentaires apr`es # .

5

Sghir Aissa

1.2

Chapitre 1. Le Logiciel R

Op´
erations ´
el´
ementaires sur les variables

Exemples:
>2+4 # somme
[1] 6
>2-5 # diff´erence
[1] -3
>2/4 # division
[1] 0.5
>2*4 # produit
[1] 8
>abs(-5) # valeur absolue
[1] 5
>sqrt(49) # racine
[1] 7
# variables et affectation
>x=2+4 #(ou bien x<-2+4): x re¸coit la valeur 6
>x
[1] 6
>y=4 #(ou bien y<-4)
>y
[1] 4
>z=7 #(ou bien y<-7)
>w=y+z
>w
[1] 11

1.3

Les vecteurs

On utilise la commande: c(composante1, composante2, ...).
Exemples:
>a=c(7,-2,3) #(ou bien a<-c(7,-2,3))
>a
[1] 7 -2 3
>b=c(4,3,-0.7)
#Op´erations sur les vecteurs
>c=a+b
>c
[1] 11 1 2.3
>a[2] #deuxi`eme composante
[1] -2

Facult´e des Sciences de Mekn`es

6

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 1. Le Logiciel R

>d=a*b #produit ´el´ement par ´el´ement
>d
[1] 28 -6 -2.1
>max(a) #maximum des composantes de a
[1] 7
>min(a) #minimum
[1] -2
>sum(a) #somme des composantes
[1] 8
>mean(a) #moyenne=somme/3
[1] 2.6
>length(a) #longeur=nombre des composantes
[1] 3
>prod(a) # produit des composantes
[1] -42
>cumsum(a) # sommes cumul´ees des composantes: (a[1] a[1] + a[2] a[1] + a[2] + a[3])
[1] 7 5 8
> x = seq(-1,1,length=3) #s´equence
>x
[1] -1 0 1
> y = seq(0,1,length=4)
>y
[1] 0.0000000 0.3333333 0.6666667 1.0000000
> x=numeric(4) #vecteur null de taille 4
>x
[1] 0 0 0 0

1.4

Les tableaux

On utilise la commande data.frame(colonne1,colonne2,...)
Exemples:
>
>
>
>
>
1
2
3
>
>

x=c(1,3,10)
y=c(-5,0,1)
z=c(24,44,-7)
tableau=data.frame(x,y,z)
tableau
x y z
1 -5 24
3 0 44
10 1 -7
tableau[1,] # premi`ere ligne
tableau[,1] ou bien tableau$x # premi`ere colonne

Facult´e des Sciences de Mekn`es

7

Biostatistique sous R et (Rcmdr)

Sghir Aissa

1.5

Chapitre 1. Le Logiciel R

Les matrices

On utilise la commande matrix() et les arguments ncol= le nombre de colonnes et
nrow= le nombre de lignes.
Exemples:
> x = matrix(c(2,3,5,7),ncol=2)
>x
[,1][,2]
[1, ]
2
5
[2, ]
3
7
> x[1, 2] # l’´el´ement de la premi`ere ligne et la deuxi`eme colonne
[1] 5
> x[1, ] # la premi`ere ligne
[1] 2 5
> x[, 2] # la deuxi`eme colonne
[1] 5 7
Par d´efaut la matrice est remplie colonne par colonne. Pour la remplir ligne par ligne,
on ajoute l’argument byrow=T.
> y = matrix(c(2,3,5,7),ncol=2, byrow=T)
>y
[,1][,2]
[1, ]
2
3
[2, ]
5
7
#Op´erations sur les matrices
> A = matrix(c(2,4,1,9),ncol=2)
>A
[,1][,2]
[1, ]
2
1
[2, ]
4
9
> B = matrix(c(0,1,2,1),ncol=2)
>B
[,1][,2]
[1, ]
0
2
[2, ]
1
1
>A+B
[,1][,2]
[1, ]
2
3
[2, ]
5
10
> C=A*B # produit ´el´ement par ´el´ement
>C
Facult´e des Sciences de Mekn`es

8

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 1. Le Logiciel R

[,1][,2]
[1, ]
0
2
[2, ]
4
9
> D=A%*%B # produit matricielle
>D
[,1][,2]
[1, ]
1
5
[2, ]
9
17
> E = matrix(c(1,2,3,4),ncol=2 , byrow=T)
>E
[,1][,2]
[1, ]
1
2
[2, ]
3
4
>t(E) #transpos´ee de E
[,1][,2]
[1, ]
1
3
[2, ]
2
4
> det(E) #d´eterminant de E
[1] − 2
>solve(E) #inverse de E
[,1][,2]
[1, ]
-2 1.5
[2, ]
1 -0.5
> eigen(E) #valeurs et vecteurs propres
$values [1]5.3722813 − 0.3722813
$vectors
[,1]
[,2]
[1, ] -0.5657675 -0.9093767
[2, ] -0.8245648 0.4159736

1.6

Boucle for et it´
erations

Exemples:
> x=numeric(5)
>x
[1] 0 0 0 0 0
> for(i in 1:5) x[i]=i+1
>x
[1] 2 3 4 5 6
> y=numeric(5)
>y
Facult´e des Sciences de Mekn`es

9

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 1. Le Logiciel R

[1] 0 0 0 0 0
> y[1] = 3
>y
[1] 3 0 0 0 0
> for(i in 1:4) y[i+1]=y[i]-2
>y
[1] 3 1 -1 -3 -5

1.7

Fonctions

La structure g´en´erale d’une fonction est donn´ee par:
>Non de la fonction=function(param`etre1, param`etre2,...)
{
commandes
return
}
Exemple: somme de deux nombres
>somme=function(a,b)
{ z=a+b
return(z)
}
>somme(2,3) # somme de 2 et 3
[1] 5
N.B: On peut ´ecrire tous les lignes du code dans un fichier bloc note .txt et apr`es les
copier et coller dans R.

1.8

Importation des fichiers de Excel vers R

Vous suivez les ´etapes suivantes:
1. Enregistrez votre fichier dans Excel sous Type: texte(s´
eparateur: tabulation),
2. Sous R, vous ´ecrivez:
>X=read.table(file.choose(), header=T, sep=”\t”),
3. Une fenˆetre s’ouvre pour parcourir votre fichier o`
u il se trouve,
4. Exemple:
>mean(X[, 1]) ou bien >mean(X$nom colonne1) calcul la moyenne de la
premiere colonne.

1.9

Repr´
esentations graphiques

On utilise la fonction plot() avec quelques arguments de base:
main=0 titre0 : pour ajouter un titre `a la figure,
Facult´e des Sciences de Mekn`es

10

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 1. Le Logiciel R

type=0 p0 : pour tracer un nuage de points,
type=0 l0 : pour tracer des lignes,
type=0 b0 : pour tracer des points reli´es par des lignes,
type=0 h0 : pour tracer des lignes verticales `a partir des points `a l’axe z´ero,
type=0 s0 : pour tracer un graphique en escalier,
type=0 n0 : aucun point n’est dessin´e,
pch=: pour changer le type de points,
lty=: pour changer le type de lignes,
lwd=nombre: pour augmenter l’´epaisseur du trait,
col=0 red0 : pour changer les couleurs: green, yellow, ...
lines() pour superposer de courbes sur la mˆeme fenˆetre,
legend() pour ajouter une l´egende,
Exemples:

Facult´e des Sciences de Mekn`es

11

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 1. Le Logiciel R

Exemple:
Courbes des fonctions sin et cos

−1

0

1

2

Code sous R:
> x=seq(-2*pi, 2*pi, length=200)
> plot(x, sin(x), type=0 l0 , lty=3, col=0 red0 , lwd=2)
> lines(x, cos(x), lwd=2, col=0 blue0 )
> legend (-6, -1.2, c(0 sin0 , 0 cos0 ), col=c(0 red0 , 0 blue0 ), lty=c(3,1))
># On peut remplacer la position -6, -1.2 par ”topleft” ou bien ”topright”

−2

sin
cos

−6

−4

−2

0

2

4

6

x

Le param`etre mfrow permet d’avoir simultan´ement plusieurs graphiques dans la mˆeme
fenˆetre.
Exemple:
Six courbes de la fonction log
Code sous R:
>par(mfrow = c(2,3))# deux lignes et trois colones, donc six courbes
>for(i in 1:6)
>{
x<-(0:100)/100# On d´ecompose l’intervalle [0, 1] en 100 points
>plot(x,log(x), type = ”l”, main = ”n=500”)
}

Facult´e des Sciences de Mekn`es

12

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 1. Le Logiciel R

0.4

0.8

0
−1
−4

−3

log(x)
0.0

0.4

0.8

0.0

0.4

0.8

n=100

n=100

n=100

0.4

0.8

−1
−4

−3

log(x)
0.0

x

Facult´e des Sciences de Mekn`es

−2

−1
−2
−3
−4

−3

log(x)

−2

−1

0

x

0

x

0

x

−4
0.0

−2

−1
−4

−3

log(x)

−2

−1
−2
−4

−3

log(x)

0.0

log(x)

n=100

0

n=100

0

n=100

0.4

0.8
x

13

0.0

0.4

0.8
x

Biostatistique sous R et (Rcmdr)

Chapitre 2

Statistique descriptive univari´
ee
2.1

Introduction

Dans chaque exp´erience, un manager est conduit `a prendre des d´ecisions pour g´erer
ses r´esultats. Leur pertinence d´epend de la qualit´e de l’information recueillie, de son
analyse et de sa capacit´e `
a transformer l’information en action. Dans cet exemple et
dans d’autres domaines, (biologie, g´eologie, physique, chimie, finance, ...), les managers
doivent pouvoir disposer d’outils performants d’aide `a la d´ecision: la statistique s’inscrit
dans cette perspective et dont la d´efinition est la suivante:
La statistique est un ensemble de m´
ethodes scientifiques dont l’objectif est
d’analyser, structurer et mod´
eliser des informations num´
eriques.
Les m´ethodes statistiques peuvent ˆetre class´es en deux groupes:
1) La Statistique descriptive regroupe les m´ethodes dont l’objectif principal est
la description des donn´ees ´etudi´ees. Cette description des donn´ees se fait `a travers leur
repr´esentation graphique, et le calcul de r´esum´es num´eriques. Dans cette optique, on ne
fait pas appel `
a des outils de type probabiliste.
• Statistique descriptive univari´
ee: ´etude de la population selon une seule variable.
• Statistique descriptive bivari´
ee: ´etude des corr´elations et relations ´eventuelles
entre deux variables de la mˆeme population.
• Statistique descriptive multivari´
ee: ´etude des relations ´eventuelles entre plusieurs variables de la mˆeme population.
2) La statistique inf´
erentielle. Ce terme regroupe les m´ethodes dont l’objectif principal est de pr´eciser un ph´enom`ene sur une population globale, `a partir de son observation
sur une partie restreinte (´echantillon) de cette population. Ce passage ne se fait que
moyennant des hypoth`eses de type probabiliste.
NB: La statistique descriptive pr´ec`ede en g´en´eral la statistique inf´erentielle dans une
d´emarche de traitement de donn´ees: les deux aspects de la statistique se compl`etent bien
plus qu’ils ne s’opposent.
14

Sghir Aissa

2.2

Chapitre 2. Statistique descriptive univari´ee

Vocabulaires
• Population: ensemble des individus objets de l’´etude.
´
(Etudiants,
entreprises, plantes, animaux, produits,...)
´
• Echantillon:
sous-ensemble issu de la population.
(Une classe, une ville, hommes, femmes,...)
• Unit´
e statistique: chaque individu.
(Un ´etudiant, une plante, un homme, une femme,...)
• Variable: caract`ere ou propri´et´e mesur´e sur chaque individu not´ee X,Y ,...
(Note, taille, poids, sex, ˆ
age, couleur, mesure,...)
• Modalit´
es: les valeurs possibles de la variable.
• S´
erie statistique: suite des valeurs prises par une variable X not´ees x1 , x2 , x3 , ....
• Variable quantitative: les modalit´es sont mesurables ou rep´erables.
− Variable quantitative discr`
ete: l’ensemble des modalit´es est fini ou d´enombrable. (Note, taille, poids, ˆage, mesure,...)
− Variable quantitative continue: l’ensemble des modalit´es est un intervalle
fini ou infini. ([8; 20[, [0; +∞[, R,...)
• Variable qualitative: les modalit´es ne sont pas mesurables.
−Variable qualitative nominale: les modalit´es ne peuvent pas ˆetre ordonn´ees. (sex, couleur,...)
−Variable qualitative ordinale: les modalit´es peuvent ˆetre ordonn´ees. (taille
d’un vˆetement: XXL, XL, L, M, S).
• Effectif totale n: le nombre de toutes les valeurs prises par la variable.
• Effectif ni : nombre d’apparitions de la valeur xi dans la population ou dans
l’´echantillon.
J
X
ni = n1 + n2 + ... + nJ = n.
i=1

• Fr´
equence fi associ´
ee `
a la valeur xi :

n
 fi = ni ,
J
P
fi = f1 + f2 + ... + fJ = 1.

i=1

• Pourcentage pi associ´
e`
a la valeur xi :

 pi = 100 × fi %,
J
P
pi = p1 + p2 + ... + pJ = 100 %.

i=1

Facult´e des Sciences de Mekn`es

15

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

• Effectif cumul´
e Ni :

N1 = n1 ,




 N2 = n1 + n2 ,
N3 = n1 + n2 + n3 ,


..............................................



NJ = n1 + n2 + ... + nJ = n.
• Fr´
equence cumul´
ee Fi :

F1 = f1 ,




 F2 = f1 + f2 ,
F3 = f1 + f2 + f3 ,


..............................................



FJ = f1 + f2 + ... + fJ = 1.
Remarque
Avant de citer les exemples de cette section, nous pr´esentons un exemple d’un mod`ele de
questionnaire pour la collection des informations dans la population.

2.3

Variable qualitative nominale

Exemple:
On note C : c´elibataire, M : mari´e, V : veuf, D : divorc´e. On s’int´eresse `a la variable
X=(´etat-civil) sur une population de n = 20 personnes. Consid´erons la s´erie statistique
suivante :
MDMCCMCCCMCMVMVDCCMC
Facult´e des Sciences de Mekn`es

16

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Tableau statistique:
xi
C
M
V
D

ni
9
7
2
2

fi
0.45
0.35
0.10
0.10

pi %
45
35
10
10

Ni
9
16
18
20

Fi
0.45
0.75
0.85
1

Par exemple: le nombre d’apparition de la valeur x2 = M dans la s´erie statistique est
7
n2 = 7, sa fr´equence est f2 = nn2 = 20
= 0.35, son pourcentage p2 = 100 × f2 =
100 × 0.35 = 35 %, l’effectif cumul´e N2 = n1 + n2 = 9 + 7 = 16 et la fr´equence cumul´ee
F2 = f1 + f2 = 0.45 + 0.35 = 0.75.
Diagramme en secteurs:
Le tableau statistique d’une variable qualitative est repr´esent´e par le diagramme en
secteurs form´es par les degr´es obtenus comme suit:
xi
C
M
V
D

pi %
45
35
10
10

di = pi × 3.6 ◦
162
126
36
36

Figure 2.1 – Diagramme en secteurs
C

D

V

M

Code sous R:
>X=c(”M ”, ”D”, ”M ”, ”C”, ”C”, ”M ”, ”C”, ”C”, ”C”,
”M ”, ”C”, ”M ”, ”V ”, ”M ”, ”V ”, ”D”, ”C”, ”C”, ”M ”, ”C”)
>V1=c(table(X)) # effectifs
#tableau statistique
> data.frame(nni=V1,NNi=cumsum(V1),ffi=V1/sum(V1),FFi=cumsum(V1/sum(V1)),
ppi=(V1/sum(V1))*100,PPi=cumsum((V1/sum(V1))*100))
> pie(V1,main=”Diagramme en secteurs”,radius=1.0) #Diagramme en secteurs
Facult´e des Sciences de Mekn`es

17

Biostatistique sous R et (Rcmdr)

Sghir Aissa

2.4

Chapitre 2. Statistique descriptive univari´ee

Variable qualitative ordinale

On interroge une population de n = 50 personnes sur leur dernier diplˆome obtenu. On
note: Sd : Sans diplˆ
ome, P : Primaire, Se: Secondaire, Su : Sup´erieur non-universitaire
et U : Universitaire.
Sd Sd Sd Sd P P P P P P P P P P P Se Se Su
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su
Su Su Su Su U U U U U U U U U U U U Su

Figure 2.2 – Diagramme en secteurs
Sd

P

Se

U
Su

Tableau statistique:
xi
Sd
P
Se
Su
U

2.5

ni
4
11
14
9
12

Ni
4
15
29
38
50

fi
0.08
0.22
0.28
0.18
0.24

pi
8
22
28
18
24

Fi
0.08
0.30
0.58
0.76
1

Variable quantitative discr`
ete, fonction de r´
epartition

Un quartier est compos´e d’une population de 50 m´enages, et la variable X repr´esente le
nombre de personnes par m´enage. Les valeurs de la variable sont:
1
2
3
4
5

Facult´e des Sciences de Mekn`es

1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

18

1
3
3
4
5

2
3
3
4
6

2
3
3
4
6

2
3
3
4
6

2
3
3
4
8

2
3
4
5
8

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Tableau statistique:
xi
1
2
3
4
5
6
8

ni
5
9
15
10
6
3
2

Ni
5
14
29
39
45
48
50

fi
0.10
0.18
0.30
0.20
0.12
0.06
0.04

Fi
0.10
0.28
0.58
0.78
0.90
0.96
1

0

5

10

15

Figure 2.3 – Diagramme en bˆatonnets des effectifs

1

2

3

4

5

6

8

Fonction de r´
epartition:
Les fr´equences cumul´ees sont repr´esent´ees au moyen de la fonction de r´epartition. Cette
fonction est d´efinie de R dans [0, 1] et vaut:

Facult´e des Sciences de Mekn`es

19

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Code sous R:
>X=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,
3,3,4, 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
>V1=c(table(X)) # effectifs
#tableau statistique
> data.frame(nni=V1,NNi=cumsum(V1),ffi=V1/sum(V1),FFi=cumsum(V1/sum(V1)),
ppi=(V1/sum(V1))*100,PPi=cumsum((V1/sum(V1))*100))
#Diagramme en bˆ
atonnets des effectifs
> plot(V1,type=”h”,xlab=””,ylab=””,main=”Diagramme en bˆatonnets des effectifs”,lwd=3)
>plot(ecdf(X),xlab=””,ylab=””,main=”Fonction de r´epartition”,frame=0) # Fonction de r´epartition

2.6

Variable quantitative continue, fonction de r´
epartition

Tr`es souvent, la prise en compte de toute les valeurs observ´ees ne permet pas de donner
une interpr´etation simple des r´esultats et conduit `a des calculs inutiles. On peut souvent
se contenter de regarder des regroupements en classes.
Exemple:
On mesure la variable X=taille en centim`etre d’une population de 50 ´el`eves d’une classe.
152
154
156
157
159
161
162
164
168
170

152
154
156
157
159
160
162
164
168
171

152
154
156
157
160
160
163
165
168
171

153
155
156
158
160
161
164
166
169
171

153
155
156
158
160
162
164
167
169
171

Tableau statistique:
Pour construire le tableau statistique, il faut proc´eder `a des regroupements en classes
(intervalles) de mˆeme amplitude. En r`egle g´en´erale, on choisit au moins cinq classes, sinon
on utilise par exemple la r`egle de Sturge: le nombre de classes est J = 1+(3.3×log10 (n)).
La longeur de chaque classe est l = (xmax −xmin )/J. Par exemple pour J = 5, on prend
l ' 4.
classe
[151.5;
[155.5;
[159.5;
[163.5;
[167.5;

Facult´e des Sciences de Mekn`es

155.5[
159.5[
163.5[
167.5[
171.5[

20

ni
10
12
11
7
10

Ni
10
22
33
40
50

fi
0.20
0.24
0.22
0.14
0.20

Fi
0.20
0.44
0.66
0.80
1

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Histogramme des effectifs:

0

2

4

6

8

10

12

Figure 2.4 – Histogramme des effectifs

151.5

155.5

159.5

163.5

167.5

171.5

Fonction de r´
epartition:
+
Si [c−
;
c
[

e
signe
la classe j, on note, de mani`ere g´en´erale:
j
j

Facult´e des Sciences de Mekn`es

21

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Code sous R:
>X=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, 157,157,157,
158,158,159,159,160,160,160,161,160,160,161,162, 162,162,163,
164,164,164,164,165,166,167,168,168,168,169,169, 170,171,171,171,171)
>V1=c(table(cut(X, breaks=c(151,155,159,163,167,171))))
> ou bien V1=c(table(cut(X, breaks=5))) # 5classes
>data.frame(nni=V1,NNi=cumsum(V1),ffi=V1/sum(V1),FFi=cumsum(V1/sum(V1)),
ppi=(V1/sum(V1))*100,PPi=cumsum((V1/sum(V1))*100))
#Histogramme
>b=c(151.5,155.5,159.5,163.5,167.5,171.5)
>hist(X,breaks=b, xlab=””,ylab=””,main=”Histogramme”,xaxt = ”n”)
>ou bien hist(X,breaks=5, freq=FALSE,xlab=””,ylab=””,main=”Histogramme”)
> axis(1,b) # axe des x
# Fonction de r´epartition
> y=c(0,0,cumsum(V1/sum(V1)),1) #Fr´equences cumul´ees
> x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
> plot(x,y,type=”b”,xlab=””,ylab=””,xaxt = ”n” main=”Fonction de r´epartition”)

> axis(1,b)

2.7

Param`
etres de position

• Le mode:
Le mode est la valeur xi correspondant `a l’effectif (ou fr´equence) le plus ´elev´e.
Exemple:
xi
C
M
V
D

ni
9
7
2
2

fi
0.45
0.35
0.10
0.10

le mode est x1 = C : c´elibataire correspondant `a l’effectif n1 = 9.
Remarques
– Le mode peut ˆetre calcul´e pour tous les types de variable, quantitative et qualitative.
– Le mode n’est pas n´ecessairement unique.
– Quand une variable continue est d´ecoup´ee en classes, on parle de classe modale.
• La moyenne:
La moyenne x
¯ ne peut ˆetre d´efinie que sur une variable quantitative.
n

x
¯=

1X
x1 + ......... + xn
xi =
.
n
n
i=1

Facult´e des Sciences de Mekn`es

22

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

La moyenne peut ˆetre calcul´ee `
a partir des valeurs distinctes et des effectifs.
J

1X
n1 × x1 + ......... + nJ × xJ
x
¯=
ni × xi =
.
n
n
i=1

Exemple:
Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est
x
¯=

0+0+1+1+1+2+3+4
= 1.5.
8

On peut aussi faire
x
¯=

2×0+3×1+1×2+1×3+1×4
= 1.5.
8

• La m´
ediane:
Cas d’une variable quantitative discr`
ete:
La m´ediane, not´ee x 1 , est une valeur centrale de la s´erie statistique qui la partage
2
en deux groupes de mˆeme effectifs. Elle est obtenue de la mani`ere suivante:
– On trie la s´erie statistique par ordre croissant des valeurs observ´ees:
Par exemple, avec la s´erie observ´ee:
3 2 1 0 0 1 2,
on obtient:
0 0 1 1 2 2 3.
– n = 7 est impair, alors la m´ediane est la valeur du rang (n + 1)/2 = 4. Donc x 1 = 1.
2
– Si n est pair, alors la m´ediane est la moyenne des deux valeurs de rang n/2 et (n/2)+1.
Par exemple pour n = 8, si on a:
0 0 1 1 2 2 3 4
alors

1+2
= 1.5.
2
Cas d’une variable quantitative continue:
x1 =
2

De mani`ere g´en´erale, on d´efinira la m´ediane comme ´etant la valeur (abscisse) correspondant `
a la fr´equence cumul´ee F = 0.5 ou effectif cumul´e N = n2 . On l’obtiendra
en g´en´eral par lecture graphique (valeur approch´ee x 1 = F −1 (0.5)) sur la courbe des
2
fr´equences cumul´ees, ou par une formule d’interpolation lin´eaire (valeur exacte) sur la
courbe des effectifs cumul´ees.
Facult´e des Sciences de Mekn`es

23

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Exemple:

Facult´e des Sciences de Mekn`es

24

Biostatistique sous R et (Rcmdr)

Sghir Aissa

2.8

Chapitre 2. Statistique descriptive univari´ee

Param`
etres de dispersion

• L’´
etendue:
L’´etendue est d´efini par:
E = xmax − xmin .
Exemple:
Pour la s´erie 1 1 2 1 1 3 5 5 5 5 5 3 2 5,
• La variance:
2
σX
=

n

n

i=1

i=1

on a: E = 5 − 1 = 4.

1X
1X 2
(xi − x
¯)2 =
xi − x
¯2 .
n
n

La variance peut aussi s’´ecrire:
2
σX
=

J

J

i=1

i=1

1X
1X
ni × (xi − x
¯)2 =
ni × x2i − x
¯2 .
n
n

• L’´
ecart type:
σX

q
2 .
= σX

Exemple:
Soit la s´erie statistique 2 3 4 4 5 6 7 9 de taille 8. On a:
x
¯=

2+3+4+4+5+6+7+9
= 5.
8

n

2
σX

1X
=
(xi −¯
x)2
n
i=1

(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
= 4.5.
8
On peut ´egalement ´ecrire:

=

n

2
σX
=

1X 2
22 + 3 2 + 4 2 + 4 2 + 5 2 + 6 2 + 7 2 + 9 2
xi − x
¯2 =
− 52 = 4.5.
n
8
i=1

L’´ecart type:
σX =



4.5 = 2.12.

Remarque
Pour calculer la moyenne et la variance dans le cas d’une variable continue, on calcule
les centres des classes qui vont jouer le rˆole des valeurs xi du cas discret.

Facult´e des Sciences de Mekn`es

25

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Exemple:
classe
[0; 10[
[10; 20[
[20; 30[
[30; 40[
x
¯=

ni
10
4
20
6

centre xi
0+10
2 =5
15
25
35

10 × 5 + 4 × 15 + 20 × 25 + 6 × 35
= 20.5.
40

Exemple: param`
etres de position et de dispersion
Code sous R:
>X=c(152,152,152,153,153,154,154,154,155,155)
>mean(X)# moyenne
>median(X) # m´ediane
>n=length(X) # taille ou longeur
>V=var(X)*((n-1)/n) # variance
>e=sqrt(V) # ´ecart type
Remarque
En plus de la m´ediane x 1 , on cite encore le premier quartile: x 1 et le troisi`eme quartile:
2
4
x 3 . La m´ediane est le nombre x 1 qui partage la s´erie ordonn´ee en deux groupes de mˆeme
4
2
effectifs 50%. Le premier quartile x 1 est la plus petite valeur telle qu’au moins 25% des
4
valeurs de la s´erie sont inf´erieures ou ´egales `a x 1 . Le troisi`eme quartile x 3 est la plus
4
4
petite valeur telle qu’au moins 75% des valeurs de la s´erie sont inf´erieures ou ´egales `a x 3 .
4

Exemple:
Code sous R:
>X=c(152,152,152,153,153,154,154,154,155,155)
>summary(X)# les trois quartiles

Facult´e des Sciences de Mekn`es

26

Biostatistique sous R et (Rcmdr)

Sghir Aissa

2.9

Chapitre 2. Statistique descriptive univari´ee

Utilisation des calculatrices Casio fx-82MS, fx-82ES

Facult´e des Sciences de Mekn`es

27

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Facult´e des Sciences de Mekn`es

Chapitre 2. Statistique descriptive univari´ee

28

Biostatistique sous R et (Rcmdr)

Sghir Aissa

2.10

Chapitre 2. Statistique descriptive univari´ee

TP 1

Le tableau statistique contient: modalit´
es, effectifs, fr´
equences, pourcentages,
effectifs cumul´
es, fr´
equences cumul´
ees et pourcentages cumul´
es.
Pour chaque fonctions usuelles de R vue en cours, supprimer un arguments
ou plus et comparer les r´
esultats.
Exercice 1
On donne les couleurs de n = 15 plantes.
VVRNRRVRRRJNNNN
1. Construire sous R le tableau statistique et en d´eduire le mode.
2. Construire sous R le diagramme en secteurs.
Exercice 2
Trente ´eprouvettes d’acier sp´ecial sont soumises `a des essais de r´esistance. Pour chacune,
on note le nombre de chocs n´ecessaires pour obtenir la rupture. Les r´esultats obtenus
sont les suivants :
2231214232
3233411423
2322343232
1. Construire sous R le tableau statistique et en d´eduire le mode.
2. Construire sous R le diagramme en bˆatonnets des effectifs.
3. D´eterminer sous R: la m´ediane, la moyenne, la variance et l’´ecart type de cette variable.
4. Tracer sous R la fonction de r´epartition de cette variable.
5. Calculer la variable qui repr´esente le nombre de chocs au carr´e.
Exercice 3
On p`ese les n = 50 ´el`eves d’une classe et nous obtenons les r´esultats r´esum´es dans
le tableau suivant:
43
49
54
63
72

43
50
56
63
72

43
50
56
65
73

47
51
56
65
77

48
51
57
67
77

48
52
59
67
81

48
53
59
68
83

48
53
59
70
86

49
53
62
70
92

49
54
62
70
93

1. Construire sous R le tableau statistique en adoptant quatres classes seulement.
2. Tracer sous R la fonction de r´epartition de cette variable.
3. Tracer sous R l’histogramme de cette variable.
Facult´e des Sciences de Mekn`es

29

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

4. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de cette variable.
Exercice 4
1. Importer le fichier nomm´e: TP 1 depuis Excel vers R.
Partie 1:
2. Construire le tableau statistique de la variable produit.
3. Construire le diagramme en secteurs de la variable produit.
Partie 2:
4. Construire le tableau statistique de la variable diam`etre.
5. Construire le diagramme en bˆ
atonnets des effectifs de la variable diam`etre.
6. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de la variable diam`etre.
7. Tracer la fonction de r´epartition de la variable diam`etre.
Partie 3:
8. Construire le tableau statistique de la variable temp´erature en adoptant trois classes.
9. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de la variable temp´erature .
10. Tracer l’histogramme de la variable poids.
11. Tracer la fonction de r´epartition de la variable temp´erature .

Facult´e des Sciences de Mekn`es

30

Biostatistique sous R et (Rcmdr)

Chapitre 3

Statistique descriptive bivari´
ee
L’objectif de cette partie est d’´etudier sur une mˆeme population de n individus,
deux caract`eres diff´erents X et Y et de rechercher s’il existe un lien entre ces deux
variables. Chacune des deux variables peut ˆetre, soit quantitative, soit qualitative. La
s´erie statistique est alors une suite de n couples des valeurs prises par les deux variables
sur chaque individu: (x1 , y1 ), ............., (xn , yn ). L’effectif associe `a l’observation (xi , yj )
n
est not´e nij et sa fr´equence not´ee: fij = nij .

3.1

Deux variables qualitatives (tableau de contingence)

Tableau de contingence des effectifs nij :
On s’int´eresse `
a une ´eventuelle relation entre la variable X= (le sexe) de n = 200
personnes et la variable Y = (la couleur des yeux).
X/Y
Homme
Femme
Total

Bleu
n11 = 10
n21 = 20
n•1 = 30

Vert
n12 = 50
n22 = 60
n•2 = 110

Marron
n13 = 20
n23 = 40
n•3 = 60

Total
n1• = 80
n2• = 120
n = 200

Les nombres n1• , n2• et n•1 , n•2 , n•3 sont appel´es effectifs marginaux.
Par exemple la valeur n22 = 60 exprime que 60 femmes ont une couleur verte des yeux
et on a:

n11 + n12 + n13 = n1• ,




n21 + n22 + n23 = n2• ,



n11 + n21 = n•1 ,
n12 + n22 = n•2 ,





n + n23 = n•3 ,

 13
n11 + n12 + n13 + n21 + n22 + n23 = n.

31

Sghir Aissa

Chapitre 3. Statistique descriptive bivari´ee

Code sous R:
>tableau=matrix(c(10,50,20,20,60,40),ncol=3,byrow=T)
>tableau
>rownames(tableau)=c(’Homme’,’Femme’)
>colnames(tableau)=c(’Bleu’,’Vert’,’Marron’)
>ni.=margin.table(tableau,1) #Calcul des effectifs marginaux lignes
>n.j=margin.table(tableau,2) #Calcul des effectifs marginaux colones
Tableau de contingence des fr´
equences fij = nij /n:

n
n
fij = nij , fi• = nni• , f•j = n•j




f11 + f12 + f13 = f1• ,




 f21 + f22 + f23 = f2• ,
f11 + f21 = f•1 ,


f12 + f22 = f•2 ,





f + f23 = f•3 ,

 13
f11 + f12 + f13 + f21 + f22 + f23 = 1.
Les nombres f1• , f2• et f•1 , f•2 , f•3 sont appel´ees fr´equences marginales.

X/Y
Homme
Femme
Total

Bleu
f11 = 0.05
f21 = 0.10
f•1 = 0.15

Vert
f12 = 0.25
f22 = 0.30
f•2 = 0.55

Marron
f13 = 0.10
f23 = 0.20
f•3 = 0.30

Total
f1• = 0.40
f2• = 0.60
1

Code sous R:
>tableau=matrix(c(10,50,20,20,60,40),ncol=3,byrow=T)
>freqabs=round(tableau/200,2)
>freqabs

3.2

Une variable quantitative et une variable qualitative
(boˆıte `
a moustache)

Diagramme `
a boˆıtes `
a moustaches:
La boˆıte, (verticale ou bien horizontale), est la partie du graphique comprise entre les
premier et troisi`eme quartiles. La m´ediane est situ´ee `a l’int´erieur de la boˆıte et elle est
repr´esent´ee par un trait horizontal. Dans les parties basse et haute du graphique figurent
les moustaches, joignant le min au premier quartile et le troisi`eme quartile au max.

Facult´e des Sciences de Mekn`es

32

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 3. Statistique descriptive bivari´ee

Exemple:
On consid`ere X= notes des ´etudiants (quantitative) et Y= sexe (qualitative).
Code sous R:
> notes = c(13,16,2,12.75,......,6)
> sexe = c(”F”,”M”,”M”,”F”,......,”F”)
> summary(notes) # les trois quartiles
># Diagramme `
a boˆıtes `
a moustaches
> boxplot(notes[sexe==”M”],notes[sexe==”F”],names=c(”Etudiants”,”Etudiantes”),
main=”Comparaison des notes de biochimie 2012-2013”,horizontal=F)

0

5

10 15 20 25 30

Comparaison des notes de biochimie 2012−2013

Etudiants

3.3

Etudiantes

Deux variables quantitatives (r´
egression lin´
eaire et pr´
ediction)

On consid`ere une population sur laquelle on ´etudie deux variables quantitatives X et Y .
On veut savoir si les deux variables sont li´es par une liaison lin´eaire du type Y = a + bX,
i.e., que l’on peut pr´evoir les valeurs de Y `a partir des valeurs de X. Pr´ecisons d`es maintenant que l’existence d’une telle liaison entre les deux variables X et Y ne signifie pas
obligatoirement un lien de cause `
a effet entre elles.
Exemple:
Neuf ´etudiants ´emettent un avis p´edagogique vis-`a-vis d’un professeur selon une ´echelle
d’appr´eciation de 1 `
a 20. On rel`eve par ailleurs la note obtenue par ces ´etudiants l’ann´ee
pr´ec´edente aupr`es du professeur.
Y= avis
X= r´esultat

5
8

7
11

16
10

6
13

12
9

14
17

10
7

9
15

8
16

Covariance
La covariance est d´efinie par:
σXY

n

n

i=1

i=1

1X
1X
=
(xi − x
¯)(yi − y¯) =
xi yi − x
¯y¯.
n
n

Facult´e des Sciences de Mekn`es

33

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 3. Statistique descriptive bivari´ee

Corr´
elation
Le coefficient de corr´elation est d´efinie par:
r := rXY =

σXY
.
σX σY

Le coefficient de corr´elation mesure la d´ependance lin´eaire entre les variables X et Y :
— Si le coefficient de corr´elation est positif, les points du nuage sont align´es le long
d’une droite croissante. Dans ce cas X et Y ´evoluent dans le mˆeme sens.
— Si le coefficient de corr´elation est n´egatif, les points sont align´es le long d’une
droite d´ecroissante. Dans ce cas X et Y ´evoluent dans des sens oppos´es.
— La corr´elation est parfaite si |r| = 1. X et Y sont dits: fortement corr´el´ees.
— La corr´elation est tr`es forte si |r| > 0.8.
— La corr´elation est forte si |r| se situe entre 0.5 et 0.8.
— La corr´elation est d’intensit´e moyenne : si |r| se situe entre 0.2 et 0.5.
— La corr´elation est faible si |r| se situe entre 0 et 0,2.
— La corr´elation est nulle si r = 0.
Code sous R:
>X=c(5, 7, 16, 6, 12, 14, 10, 9, 8)
>Y=c(8, 11, 10, 13, 9, 17, 7, 15, 16)
>var(X)*((9-1)/9) # variance de X
>var(Y)*((9-1)/9) # variance de Y
>cov(X,Y)*((9-1)/9) # covariance de X et Y
>cor(X,Y) # coefficient de corr´elation
Droite de r´
egression lin´
eaire et Pr´
ediction:
La droite de r´egression lin´eaire est la droite qui ajuste au mieux un nuage de points
au sens des moindres carr´es. On consid`ere que la variable X est explicative et que la
variable Y est d´ependante. L’´equation de la droite de r´egression de Y en X est:
y=a
ˆ + ˆbx,
avec
ˆb = σXY ,
2
σX

a
ˆ = y¯ − ˆb¯
x

(la droite de r´egression passe par le point (¯
x, y¯)).

Dans notre exemple, on a:

x
¯ = 106/9 = 11.78




y
¯ = 87/9 = 9.667


 σ 2 = 1354/9 − 11.782 = 11.73
X
2
2
σ

Y = 951/9 − 9.667 = 12.22



 σXY = 1034/9 − 9.667 × 11.78 = 1.037


1.037

= 0.087
rXY = √11.73×
12.22
Facult´e des Sciences de Mekn`es

34

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 3. Statistique descriptive bivari´ee

10
6

8

avis

12

14

16

Figure 3.1 – Droite de r´egression de Y en X

8

10

12

14

16

résultat

Finalement l’´equation de la droite de r´egression de Y en X est:
y = 0.088x + 8.625.
Pr´
ediction:
Dans notre exemple si on veut pr´edire, sur la base de notre mod`ele, l’avis pour un
´etudiant ayant obtenu x = 12/20, alors la valeur ajust´ee est:
y = 0.088 × 12 + 8.625 = 9.681.

esidus ou erreurs de pr´
ediction:
Les r´esidus de la r´egression sont d´efinis par:
ei = yi − (ˆ
a + ˆbxi ) = yi − yˆi .
Le r´esidu ei est l’erreur que l’on commet en utilisant la droite de r´egression pour pr´edire
yi `a partir de xi . Les r´esidus sont les diff´erences entre les valeurs observ´ees yi et les
valeurs ajust´ees yˆi de la variable d´ependante.
Par exemple pour la valeur x3 = 12, on donne y3 = 10 et on a yˆ3 = 0.088 × 12 + 8.625 =
9.681, donc e3 = y3 − yˆ3 = 0.319.
Moyenne r´
esiduelle:
n

1X
e¯ =
ei = 0.
n
i=1

Variance r´
esiduelle:
La variance r´esiduelle est la variance des r´esidus:
n
1X 2
2
σe =
ei .
n
i=1

Facult´e des Sciences de Mekn`es

35

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 3. Statistique descriptive bivari´ee

La variance r´esiduelle peut ´egalement s’´ecrire:
2
σe2 = σy2 × (1 − rXY
).

Dans notre exemple on a:
σe2 = 12.22 × (1 − 0.0872 ) = 12.127.
Le coefficient de d´
etermination:
2 . Il repr´
On le not´e R2 . C’est le carr´e du coefficient de corr´elation: R2 = rXY
esente la
proportion de variance expliqu´ee par le mod`ele.
Dans notre mod`ele, on a R2 = 0.0872 = 0.008. (0.8% est tr`es faible donc on a un mauvais
ajustement).
Code sous R:
>Avis=c(5, 7, 16, 6, 12, 14, 10, 9, 8)
>R´esultat=c(8, 11, 10, 13, 9, 17, 7, 15, 16)
>plot(Avis,R´esultat)# nuage de points
> abline(lm(R´esultat∼Avis), col = ’red’) # droite de r´egression
>model=lm(R´esultat∼Avis)# coefficients de la droite de r´egression
>model
>summary(model)# coefficients de d´etermination

3.4

Utilisation des calculatrices Casio fx-82ES et fx-82MS
Y= pression
X= temp´erature

1003
10

1005
15

1010
20

1011
25

1014
30

Avec la calculatrice Casio fx-82ES:

Facult´e des Sciences de Mekn`es

36

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 3. Statistique descriptive bivari´ee

Avec la calculatrice Casio fx-82MS:

Facult´e des Sciences de Mekn`es

37

Biostatistique sous R et (Rcmdr)

Sghir Aissa

3.5

Chapitre 3. Statistique descriptive bivari´ee

TP 2

Exercice 1
Consid´erons un ´echantillon de n = 10 fonctionnaires (ayant entre 40 et 50 ans) d’un
minist`ere. Soit X le nombre d’ann´ees de service et Y le nombre de jours d’absence pour
raison de maladie (au cours de l’ann´ee pr´ec´edente) d´etermin´e pour chaque personne
appartenant `
a cet ´echantillon.
xi
yi

2
3

14
13

16
17

8
12

13
10

20
8

24
20

7
7

5
2

11
8

Partie 1:
1. D´eterminer sous R les moyennes de X et Y et la covariance entre X et Y.
2. D´eterminer sous R le coefficient de corr´elation entre les variables X et Y .
3. D´eterminer sous R la droite de r´egression lin´eaire de Y en X.
4. Tracer sous R le nuage de points (X, Y ).
5. Tracer sous R la droite de r´egression lin´eaire de Y en X.
6. Trouver sous R les coefficients de la droite de r´egression .
Exercice 2
Partie 1:
1. Importer le fichier nomm´e TP2 depuis Excel vers R.
2. D´eterminer et Tracer sous R la droite de r´egression lin´eaire de la Taille en Poids.
3. Tracer sous R les Boˆıtes `
a moustaches entre le Sexe et le Poids.
4. Tracer sous R les tableaux de contingences des effectifs et des fr´equences entre le Sexe
et l’Avis.

Facult´e des Sciences de Mekn`es

38

Biostatistique sous R et (Rcmdr)

Chapitre 4

Le package (Rcmdr) sous R
4.1


emarrage

R-Commander est une interface graphique qui facilite l’interactivit´e avec R.
Il faut installer le package (Rcmdr) grˆace `a la commande: install.packages(”Rcmdr”).
Ensuite, il faut charger le package sous R grˆace `a la commande: library(Rcmdr).
Il est possible de saisir un nouveau jeu de donn´
ees sous (Rcmdr) ou d’importer les
donn´ees `
a partir d’un fichier: txt, Excel, ...:
Donn´
ees > Nouveau jeu de donn´
ees: on donne un nom `a la variable et on peut
ajouter ou supprimer des lignes ou des colonnes dans le nouveau jeu de donn´ees.
Donn´
ees > Importer des donn´
ees > Depuis ...
En cliquant sur Visualiser, il est possible d’apercevoir votre jeu de donn´ees.

39

Sghir Aissa

Chapitre 4. Le package (Rcmdr) sous R

On peut faire des op´erations et calculs dans (Rcmdr): La saisie des instructions se fait
dans Script R et le r´esultat s’obtient dans Sortie avec Soumettre:

De nouvelles variables peuvent ˆetre cr´e´ees `a partir d’autres variables `a l’aide des op´erateurs (+, -, *, /,...) ou des fonctions (log, exp, racine,...):
Donn´
ees > G´
erer les variables du jeu de donn´
ees actifs > Calculer une nouvelle variable.

Facult´e des Sciences de Mekn`es

40

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 4. Le package (Rcmdr) sous R

On peut souhaiter d´ecouper une variable num´erique en classes:
Donn´
ees > G´
erer les variables du jeu de donn´
ees actifs > D´
ecouper une
variable num´
erique en classes.

4.2

Statistique et graphes sous (Rcmdr)

Une description statistique du jeu de donn´ees actif peut ˆetre obtenue:
Statistiques > R´
esum´
es > Jeu de donn´
ees actif ou Statistiques descriptives >

esumer par groupes ou Distribution de fr´
equences.

Facult´e des Sciences de Mekn`es

41

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 4. Le package (Rcmdr) sous R

Pour les graphes et diagrammes statistiques:
Histogramme: Graphes > Histogramme.
Diagramme en secteurs: Graphes > Graphes en camembert.
Diagramme en bˆ
atonnets: Graphes > Graphes d’une variable num´
erique...
Nuage de points : Graphes > Nuage de Points.
Droite de r´egression: dans options du nuages de points: Ligne des moindres carr´
es.
Coefficients de la droite: Statistiques > Ajustement de mod`
eles > R´
egression (ou
mod`
ele) lin´
eaire.

Graphe des moyennes: Graphes > Graphes des moyennes.
Boˆıte `a moustaches: Graphes > Boˆıte de dispersion > Graphes par groupes.

Facult´e des Sciences de Mekn`es

42

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 4. Le package (Rcmdr) sous R

Tableau de contingence: Statistique > Table de contingence > Tri crois´
e.

Statistique > Table de contingence > Remplir et analyser un tri crois´
e

Facult´e des Sciences de Mekn`es

43

Biostatistique sous R et (Rcmdr)

Sghir Aissa

4.3

Chapitre 4. Le package (Rcmdr) sous R

TP 3

Exercice 1
Consid´erons le tableau suivant:

1. Tracer `
a la main les boˆıtes `
a moustaches du tableau pr´ec´edent.
2. Retrouver ce tableau sous (Rcmdr) avec le chemin: Statistiques > R´
esum´
es >
Statistiques descriptives > R´
esumer par groupes.
Exercice 2
On donne les poids en (g) et les tailles en (cm) de 15 types de poissons:
X=Type
Y=Poids
Z=Taille

1.
2.
3.
4.
5.
6.
7.

A
2
3

A
14
13

B
16
17

B
8
12

B
13
10

B
20
8

C
24
20

A
7
7

C B A B B B B
5 11 14 16 8 13 20
2 8
12 10 8 20 7

Construire la nouvelle variable: W = 2 log(Y ) + Z 2 Y .
Donner les statistiques des quatres variables.
D´eterminer le coefficient de corr´elation entre les variables Y et Z.
D´eterminer les coefficients de la droite de r´egression lin´eaire de Z en X.
Tracer le nuage de points (Y, Z) et la droite de r´egression lin´eaire de Z en Y .
Tracer les boˆıtes `
a moustaches de X et Y et trouver les valeurs sur les boˆıtes.
Tracer les diagrammes en secteurs et en bˆatonnets de X et Y .

Exercice 3
1. Importer le fichier nomm´e TP3 depuis Excel.
2. D´eterminer et tracer la droite de r´egression lin´eaire de la Taille en Poids.
3. Tracer le diagramme en bˆ
atonnets de la Taille et le diagramme en secteurs de l’Avis.
4. Tracer les boˆıtes `
a moustaches et le graphe des moyennes entre le Sexe et le Poids.
5. Tracer le tableaux de contingence entre le Sexe et l’Avis.
6. Construire le tableau statistique du Poids en adoptant trois classes.

Facult´e des Sciences de Mekn`es

44

Biostatistique sous R et (Rcmdr)

Chapitre 5

Analyse en composantes
Principales (ACP)
5.1

Introduction

On consid`ere 4 variables (notes) provenant de 12 individus diff´erents (´el`eves).

Nous savons comment analyser s´epar´ement chacune de ces 4 variables, soit en faisant des
graphiques: (diagrammes,...), soit en calculant des r´esum´es statistiques: (moyennes,...).
Nous savons ´egalement qu’on peut regarder les liaisons entre 2 variables (ne serait-ce que
4!), soit en faisant un graphique du type nuage de points, soit en calculant leur coefficient
de corr´elation lin´eaire, voire en r´ealisant la r´egression de l’une sur l’autre.

45

Sghir Aissa

Chapitre 5. Analyse en composantes Principales (ACP)

Probl`
eme:
Comment faire une ´
etude simultan´
ee des 4 variables. La difficult´
e vient de
ce que dans le nuage de points, les individus ne sont plus repr´
esent´
es dans
un plan qui est de dimension 2, mais dans un espace de dimension 4 o`
u l’observation est impossible `
a l’oeil.
Solution:
L’analyse en composantes Principales, (ACP), permet de projeter le nuage
de points des individus sur des sous espaces de dimension petit (2 ou 3),
tel que on retient le plus d’information possible, (`
a l’aide de la matrice de
corr´
elation et ses valeurs et vecteurs propres), en respectant au mieux:
— Les distances entre individus, (on regroupe ceux qui sont proches les
uns des autres).
— La structure des corr´
elations entre variables.
Les distances dans l’espace projet´e entre les points doivent ˆetre les plus proches des
distances r´eelles dans l’espace d’origine. Les nouveaux axes sont appel´ees facteurs
ou bien composantes principales et doivent ˆetres orthogonales et non corr´el´ees.

Dans la suite, on va voir l’inertie total d’un nuage des points, qui sera un indicateur fort
pour mesurer la dispersion des points du nuage autour de son centre de gravit´e.

5.2

Pratique de l’ACP

Rappel sur les valeurs et vecteurs propres:
— Soit I la matrice unit´e. Une valeur propre λ d’une matrice carr´ee A est une
solution de l’´equation: det(A − λI) = 0.
— Un vecteur propre u associ´e `a la valeur propre λ est une solution de l’´equation:
Au = λu.
Exemple:


5 −3
A=
det(A − λI) = λ2 − λ − 2 = 0
6 −4
λ1 = −1 ⇒ u1 = (1, 2)
Facult´e des Sciences de Mekn`es

46

λ2 = 2 ⇒ u2 = (1, 1)
Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 5. Analyse en composantes Principales (ACP)

Inertie totale du nuage de points N
Not´e I(N, g) et d´epend des variances des variables. Il mesure la dispersion du nuage N
par rapport `
a son centre de gravit´e g de coordonn´ees les moyennes des variables.
C’est la moyenne des distances entre les points et le centre de gravit´e g. Lorsque cet inertie
est faible, les points sont proches du centre de gravit´e.

Remarque:
Pour neutraliser le probl`eme des unit´es on remplace les donn´ees d’origine du tableau
par les valeurs centr´ees-r´eduites de moyenne 0 et d’´ecart-type 1. Dans ce cas, l’inertie
totale du nouveau nuage de points N ∗ par rapport `a l’origine O est: I(N ∗ , O) = p. C’est le
nombre des variables du tableau des donn´ees.

Facult´e des Sciences de Mekn`es

47

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 5. Analyse en composantes Principales (ACP)

Principe de l’ACP:
La matrice de corr´elation va nous permettre de r´ealiser le r´esum´e d’information. De cette
matrice, on va extraire, `
a l’aide de ces vecteurs propres, les facteurs que l’on recherche,
en petit nombre (2 ou 3). Ces facteurs vont permettre de r´ealiser les projections d´esir´ees
du nuage dans cet espace de petite dimension, en d´eformant le moins possible la configuration globale des individus selon l’ensemble des variables initiales qui sont remplac´ees
par les facteurs. C’est l’interpr´etation des graphiques dans le nouveau espace de petit
dimension qui permettra de comprendre la structure des donn´ees analys´ees.
Important:
— La somme des valeurs propres associ´
es aux vecteurs propres est ´
egale
`
a la variance totale contenue dans l’ensemble des donn´
ees.
— Chaque facteur est une combinaison lin´
eaire des variables initiales.
— Chaque valeur propre λi repr´
esente la variance prise en compte par le
facteur CPi.
Constructions des composantes principales:
— La premi`ere composante principale CP1 passe par le centre de gravit´e O du nuage
de points N ∗ . le facteur CP1 est engendr´e par le vecteur propre de la matrice des
corr´elations associ´e `
a la plus grande valeur propre λ1 .
— La deuxi`eme composante principale CP2 associ´e `a λ2 < λ1 doit ˆetre non corr´
el´
ee
et perpendiculaire `
a CP1.

— Le pourcentage d’information, (variance totale), expliqu´ee sur un facteur CPi:
λi
× 100%.
m
P
λj
j=1

— Pour avoir une meilleure qualit´e de l’ACP, on d´etermine le nombre des facteurs
qui conservent un pourcentage cumul´e plus de 70% de la variance totale.
Facult´e des Sciences de Mekn`es

48

Biostatistique sous R et (Rcmdr)

Sghir Aissa

Chapitre 5. Analyse en composantes Principales (ACP)

— La qualit´e de la repr´esentation sur le plan principal (CP1,CP2):
λ1 + λ2
× 100%.
m
P
λj
j=1

Application sur l’exemple cit´
e dans l’introduction
Matrice de corr´
elation:

Remarquons que toutes les corr´elations lin´eaires sont positives, ce qui signifie que toutes
les variables varient, en moyenne, dans le mˆeme sens. La corr´elation est forte entre
(X1=MATH) et (X4=ANGL); c-`
a-d que les ´el`eves qui ont obtenu de bonnes notes en
MATH peuvent ´egalement avoir de bonnes notes en ANGL. La faible corr´elation entre
(X1=MATH) et (X3=FRAN) montre la grande rupture qui existe dans l’enseignement
de ces deux mati`eres.
Vecteurs propres:

Valeurs propres et pourcentage variance:

Facult´e des Sciences de Mekn`es

49

Biostatistique sous R et (Rcmdr)


Documents similaires


Fichier PDF master biostat sous r et rcmdr2
Fichier PDF cours 2 de statistique
Fichier PDF cours2 statistique stu s3
Fichier PDF cours1 statistique stu s3
Fichier PDF master biostat sous r et rcmdr1
Fichier PDF exercices facultatifs


Sur le même sujet..