Fichier PDF

Partage, hébergement, conversion et archivage facile de documents au format PDF

Partager un fichier Mes fichiers Convertir un fichier Boite à outils Recherche Aide Contact



Master Biostatistique sous R et SPSS 1 .pdf



Nom original: Master_Biostatistique sous R et SPSS_1.pdf

Ce document au format PDF 1.5 a été généré par TeX / MiKTeX pdfTeX-1.40.17, et a été envoyé sur fichier-pdf.fr le 07/11/2017 à 19:31, depuis l'adresse IP 105.153.x.x. La présente page de téléchargement du fichier a été vue 235 fois.
Taille du document: 3.2 Mo (96 pages).
Confidentialité: fichier public




Télécharger le fichier (PDF)









Aperçu du document


Universit´
e Moulay Ismail Mekn`
es
Facult´
e des Sciences
Master Bioinformatique
BIOSTATISTIQUE SOUS LOGICIELS R et SPSS

Enseignant: Sghir Aissa
sghir.aissa@gmail.com
Ann´
ee universitaire: 2017–2018

10

15

C

D

0

5

V

M

6

8

avis

10

12

14

16

1

8

10

12
résultat

14

16

2

3

4

5

6

8

Table des mati`
eres
1 Logiciel R
1.1 D´emarrage . . . . . . . . . . . . . . . .
1.2 Op´erations ´el´ementaires sur les variables
1.3 Les vecteurs . . . . . . . . . . . . . . . .
1.4 Les tableaux . . . . . . . . . . . . . . .
1.5 Les matrices . . . . . . . . . . . . . . . .
1.6 Boucle for et it´erations . . . . . . . . . .
1.7 Fonctions . . . . . . . . . . . . . . . . .
1.8 Importation des fichiers de Excel vers R
1.9 Repr´esentations graphiques . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

5
5
6
6
7
8
9
10
10
10

2 Statistique descriptive univari´
ee
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Vocabulaires . . . . . . . . . . . . . . . . . . . . . . .
2.3 Variable qualitative nominale . . . . . . . . . . . . . .
2.4 Variable qualitative ordinale . . . . . . . . . . . . . . .
2.5 Variable quantitative discr`ete, fonction de r´epartition .
2.6 Variable quantitative continue, fonction de r´epartition
2.7 Param`etres de position . . . . . . . . . . . . . . . . . .
2.8 Param`etres de dispersion . . . . . . . . . . . . . . . .
2.9 Utilisation des calculatrices Casio fx-82MS, fx-82ES .
2.10 TD 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

14
14
15
16
18
18
20
22
25
27
29

3 Logiciel SPSS
3.1 D´emarrage . . . . . . . . . . . . . . . . . . . .
3.2 Affichage des variables et affichage des donn´ees
3.3 Valeurs et ´etiquette . . . . . . . . . . . . . . . .
3.4 La fenˆetre Viewer . . . . . . . . . . . . . . . . .
3.5 Transformation des variables . . . . . . . . . .
3.6 Param`etres des variables et diagrammes . . . .
3.7 Courbe de la fonction de r´epartition . . . . . .
3.8 TP 1 sous R et SPSS . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

30
30
31
32
32
33
34
35
36

2

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

`
TABLE DES MATIERES

Sghir Aissa

4 Statistique descriptive bivari´
ee
4.1 Deux variables qualitatives (tableau de contingence) . . . . . . . . . . . .
4.2 Une variable quantitative et une variable qualitative (boˆıte `a moustache) .
4.3 Deux variables quantitatives (r´egression lin´eaire et pr´ediction) . . . . . . .
4.4 Utilisation des calculatrices Casio fx-82ES et fx-82MS . . . . . . . . . . .
4.5 TD 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 SPSS: R´egression lin´eaire et coefficients . . . . . . . . . . . . . . . . . . .
4.7 TP 2 sous R et SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38
38
41
42
45
47
48
51

5 Notion de probabilit´
es et variables al´
eatoires
5.1 Vocabulaires . . . . . . . . . . . . . . . . . . .
5.2 Notion de probabilit´es . . . . . . . . . . . . . .
5.3 Notion de variables al´eatoires . . . . . . . . . .
5.3.1 Variables al´eatoires discr`etes . . . . . .
5.3.2 Variables al´eatoires continues . . . . . .
5.4 TD 3 . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

52
52
53
54
55
55
59

´
6 Echantillonnage
et estimation
´
6.1 Echantillonnage
. . . . . . . . . . . . . . . . . . . . . .
6.1.1 Introduction . . . . . . . . . . . . . . . . . . .
6.1.2 Distribution d’´echantillonnage de la moyenne .
6.1.3 Distribution d’´echantillonnage de la proportion
6.1.4 Distribution d’´echantillonnage de la variance .
6.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Estimation ponctuelle . . . . . . . . . . . . . .
6.2.2 Estimation par intervalle de confiance . . . . .
6.3 TD 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

61
61
61
63
65
66
67
67
67
71

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

73
73
73
73
74
76
76
77
78
78
81
83
86
90
92
94

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

7 Tests des hypoth`
eses
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Tests de conformit´e . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Test de conformit´e de la proportion `a une r´ef´erence . . . . .
7.2.2 Test de conformit´e de la moyenne `a une r´ef´erence . . . . . .
7.2.3 Test de conformit´e de la variance `a une r´ef´erence . . . . . .
7.3 Test d’ind´ependance du khi-deux entre deux variables qualitatives
7.4 Tests d’homog´en´eit´e dans le cas des ´echantillons ind´ependants . .
7.4.1 Test de comparaison de deux proportions . . . . . . . . . .
7.4.2 Test de comparaison de deux variances . . . . . . . . . . . .
7.4.3 Test de comparaison de deux moyennes . . . . . . . . . . .
7.5 Test de normalit´e: test de Shapiro et Wilk . . . . . . . . . . . . . .
7.6 Analyse de la variance: ANOVA `a un facteur . . . . . . . . . . . .
7.7 TD 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.8 TP 3 sous R et SPSS . . . . . . . . . . . . . . . . . . . . . . . . . .
7.9 Exercices de r´evisions . . . . . . . . . . . . . . . . . . . . . . . . .
Facult´e des Sciences de Mekn`es

3

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Biostatistique

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES

Sghir Aissa

7.10 R´ef´erences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

Facult´e des Sciences de Mekn`es

4

Biostatistique

Chapitre 1

Logiciel R
1.1


emarrage

Le prompteur > en rouge indique que R est prˆet `a recevoir les commandes en lignes.
Le prompteur + en rouge apparaˆıt en d´ebut de ligne si la ligne pr´ec´edente est incompl`ete.
Pour quitter la session, il faut taper q().
Pour effacer la m´emoire de R, on utilise la commande suivante : rm(list=ls()).
On peut ajouter des commentaires apr`es # .

5

Sghir Aissa

1.2

Chapitre 1. Logiciel R

Op´
erations ´
el´
ementaires sur les variables

Exemples:
>2+4 # somme
[1] 6
>2-5 # diff´erence
[1] -3
>2/4 # division
[1] 0.5
>2*4 # produit
[1] 8
>abs(-5) # valeur absolue
[1] 5
>sqrt(49) # racine
[1] 7
# variables et affectation
>x=2+4 #(ou bien x<-2+4): x re¸coit la valeur 6
>x
[1] 6
>y=4 #(ou bien y<-4)
>y
[1] 4
>z=7 #(ou bien y<-7)
>w=y+z
>w
[1] 11

1.3

Les vecteurs

On utilise la commande: c(composante1, composante2, ...).
Exemples:
>a=c(7,-2,3) #(ou bien a<-c(7,-2,3))
>a
[1] 7 -2 3
>b=c(4,3,-0.7)
#Op´erations sur les vecteurs
>c=a+b
>c
[1] 11 1 2.3
>a[2] #deuxi`eme composante
[1] -2

Facult´e des Sciences de Mekn`es

6

Biostatistique

Sghir Aissa

Chapitre 1. Logiciel R

>d=a*b #produit ´el´ement par ´el´ement
>d
[1] 28 -6 -2.1
>max(a) #maximum des composantes de a
[1] 7
>min(a) #minimum
[1] -2
>sum(a) #somme des composantes
[1] 8
>mean(a) #moyenne=somme/3
[1] 2.6
>length(a) #longeur=nombre des composantes
[1] 3
>prod(a) # produit des composantes
[1] -42
>cumsum(a) # sommes cumul´ees des composantes: (a[1] a[1] + a[2] a[1] + a[2] + a[3])
[1] 7 5 8
> x = seq(-1,1,length=3) #s´equence
>x
[1] -1 0 1
> y = seq(0,1,length=4)
>y
[1] 0.0000000 0.3333333 0.6666667 1.0000000
> x=numeric(4) #vecteur null de taille 4
>x
[1] 0 0 0 0

1.4

Les tableaux

On utilise la commande data.frame(colonne1,colonne2,...)
Exemples:
>
>
>
>
>
1
2
3
>
>

x=c(1,3,10)
y=c(-5,0,1)
z=c(24,44,-7)
tableau=data.frame(x,y,z)
tableau
x y z
1 -5 24
3 0 44
10 1 -7
tableau[1,] # premi`ere ligne
tableau[,1] ou bien tableau$x # premi`ere colonne

Facult´e des Sciences de Mekn`es

7

Biostatistique

Sghir Aissa

1.5

Chapitre 1. Logiciel R

Les matrices

On utilise la commande matrix() et les arguments ncol= le nombre de colonnes et
nrow= le nombre de lignes.
Exemples:
> x = matrix(c(2,3,5,7),ncol=2)
>x
[,1][,2]
[1, ]
2
5
[2, ]
3
7
> x[1, 2] # l’´el´ement de la premi`ere ligne et la deuxi`eme colonne
[1] 5
> x[1, ] # la premi`ere ligne
[1] 2 5
> x[, 2] # la deuxi`eme colonne
[1] 5 7
Par d´efaut la matrice est remplie colonne par colonne. Pour la remplir ligne par ligne,
on ajoute l’argument byrow=T.
> y = matrix(c(2,3,5,7),ncol=2, byrow=T)
>y
[,1][,2]
[1, ]
2
3
[2, ]
5
7
#Op´erations sur les matrices
> A = matrix(c(2,4,1,9),ncol=2)
>A
[,1][,2]
[1, ]
2
1
[2, ]
4
9
> B = matrix(c(0,1,2,1),ncol=2)
>B
[,1][,2]
[1, ]
0
2
[2, ]
1
1
>A+B
[,1][,2]
[1, ]
2
3
[2, ]
5
10
> C=A*B # produit ´el´ement par ´el´ement
>C
Facult´e des Sciences de Mekn`es

8

Biostatistique

Sghir Aissa

Chapitre 1. Logiciel R

[,1][,2]
[1, ]
0
2
[2, ]
4
9
> D=A%*%B # produit matricielle
>D
[,1][,2]
[1, ]
1
5
[2, ]
9
17
> E = matrix(c(1,2,3,4),ncol=2 , byrow=T)
>E
[,1][,2]
[1, ]
1
2
[2, ]
3
4
>t(E) #transpos´ee de E
[,1][,2]
[1, ]
1
3
[2, ]
2
4
> det(E) #d´eterminant de E
[1] − 2
>solve(E) #inverse de E
[,1][,2]
[1, ]
-2 1.5
[2, ]
1 -0.5
> eigen(E) #valeurs et vecteurs propres
$values [1]5.3722813 − 0.3722813
$vectors
[,1]
[,2]
[1, ] -0.5657675 -0.9093767
[2, ] -0.8245648 0.4159736

1.6

Boucle for et it´
erations

Exemples:
> x=numeric(5)
>x
[1] 0 0 0 0 0
> for(i in 1:5) x[i]=i+1
>x
[1] 2 3 4 5 6
> y=numeric(5)
>y
Facult´e des Sciences de Mekn`es

9

Biostatistique

Sghir Aissa

Chapitre 1. Logiciel R

[1] 0 0 0 0 0
> y[1] = 3
>y
[1] 3 0 0 0 0
> for(i in 1:4) y[i+1]=y[i]-2
>y
[1] 3 1 -1 -3 -5

1.7

Fonctions

La structure g´en´erale d’une fonction est donn´ee par:
>Non de la fonction=function(param`etre1, param`etre2,...)
{
commandes
return
}
Exemple: somme de deux nombres
>somme=function(a,b)
{ z=a+b
return(z)
}
>somme(2,3) # somme de 2 et 3
[1] 5
N.B: On peut ´ecrire tous les lignes du code dans un fichier bloc note .txt et apr`es les
copier et coller dans R.

1.8

Importation des fichiers de Excel vers R

Vous suivez les ´etapes suivantes:
1. Enregistrez votre fichier dans Excel sous Type: texte(s´
eparateur: tabulation),
2. Sous R, vous ´ecrivez:
>X=read.table(file.choose(), header=T, sep=”\t”),
3. Une fenˆetre s’ouvre pour parcourir votre fichier o`
u il se trouve,
4. Exemple:
>mean(X[, 1]) ou bien >mean(X$nom colonne1) calcul la moyenne de la
premiere colonne.

1.9

Repr´
esentations graphiques

On utilise la fonction plot() avec quelques arguments de base:
main=0 titre0 : pour ajouter un titre `a la figure,
Facult´e des Sciences de Mekn`es

10

Biostatistique

Sghir Aissa

Chapitre 1. Logiciel R

type=0 p0 : pour tracer un nuage de points,
type=0 l0 : pour tracer des lignes,
type=0 b0 : pour tracer des points reli´es par des lignes,
type=0 h0 : pour tracer des lignes verticales `a partir des points `a l’axe z´ero,
type=0 s0 : pour tracer un graphique en escalier,
type=0 n0 : aucun point n’est dessin´e,
pch=: pour changer le type de points,
lty=: pour changer le type de lignes,
lwd=nombre: pour augmenter l’´epaisseur du trait,
col=0 red0 : pour changer les couleurs: green, yellow, ...
lines() pour superposer de courbes sur la mˆeme fenˆetre,
legend() pour ajouter une l´egende,
Exemples:

Facult´e des Sciences de Mekn`es

11

Biostatistique

Sghir Aissa

Chapitre 1. Logiciel R

Exemple:
Courbes des fonctions sin et cos

−1

0

1

2

Code sous R:
> x=seq(-2*pi, 2*pi, length=200)
> plot(x, sin(x), type=0 l0 , lty=3, col=0 red0 , lwd=2)
> lines(x, cos(x), lwd=2, col=0 blue0 )
> legend (-6, -1.2, c(0 sin0 , 0 cos0 ), col=c(0 red0 , 0 blue0 ), lty=c(3,1))
># On peut remplacer la position -6, -1.2 par ”topleft” ou bien ”topright”

−2

sin
cos

−6

−4

−2

0

2

4

6

x

Le param`etre mfrow permet d’avoir simultan´ement plusieurs graphiques dans la mˆeme
fenˆetre.
Exemple:
Six courbes de la fonction log
Code sous R:
>par(mfrow = c(2,3))# deux lignes et trois colones, donc six courbes
>for(i in 1:6)
>{
x<-(0:100)/100# On d´ecompose l’intervalle [0, 1] en 100 points
>plot(x,log(x), type = ”l”, main = ”n=500”)
}

Facult´e des Sciences de Mekn`es

12

Biostatistique

Sghir Aissa

Chapitre 1. Logiciel R

0.4

0.8

0
−1
−4

−3

log(x)
0.0

0.4

0.8

0.0

0.4

0.8

n=100

n=100

n=100

0.4

0.8

−1
−4

−3

log(x)
0.0

x

Facult´e des Sciences de Mekn`es

−2

−1
−2
−3
−4

−3

log(x)

−2

−1

0

x

0

x

0

x

−4
0.0

−2

−1
−4

−3

log(x)

−2

−1
−2
−4

−3

log(x)

0.0

log(x)

n=100

0

n=100

0

n=100

0.4

0.8
x

13

0.0

0.4

0.8
x

Biostatistique

Chapitre 2

Statistique descriptive univari´
ee
2.1

Introduction

Dans chaque exp´erience, un manager est conduit `a prendre des d´ecisions pour g´erer
ses r´esultats. Leur pertinence d´epend de la qualit´e de l’information recueillie, de son
analyse et de sa capacit´e `
a transformer l’information en action. Dans cet exemple et
dans d’autres domaines, (biologie, g´eologie, physique, chimie, finance, ...), les managers
doivent pouvoir disposer d’outils performants d’aide `a la d´ecision: la statistique s’inscrit
dans cette perspective et dont la d´efinition est la suivante:
La statistique est un ensemble de m´
ethodes scientifiques dont l’objectif est
d’analyser, structurer et mod´
eliser des informations num´
eriques.
Les m´ethodes statistiques peuvent ˆetre class´es en deux groupes:
1) La Statistique descriptive regroupe les m´ethodes dont l’objectif principal est
la description des donn´ees ´etudi´ees. Cette description des donn´ees se fait `a travers leur
repr´esentation graphique, et le calcul de r´esum´es num´eriques. Dans cette optique, on ne
fait pas appel `
a des outils de type probabiliste.
• Statistique descriptive univari´
ee: ´etude de la population selon une seule variable.
• Statistique descriptive bivari´
ee: ´etude des corr´elations et relations ´eventuelles
entre deux variables de la mˆeme population.
• Statistique descriptive multivari´
ee: ´etude des relations ´eventuelles entre plusieurs variables de la mˆeme population.
2) La statistique inf´
erentielle. Ce terme regroupe les m´ethodes dont l’objectif principal est de pr´eciser un ph´enom`ene sur une population globale, `a partir de son observation
sur une partie restreinte (´echantillon) de cette population. Ce passage ne se fait que
moyennant des hypoth`eses de type probabiliste.
NB: La statistique descriptive pr´ec`ede en g´en´eral la statistique inf´erentielle dans une
d´emarche de traitement de donn´ees: les deux aspects de la statistique se compl`etent bien
plus qu’ils ne s’opposent.
14

Sghir Aissa

2.2

Chapitre 2. Statistique descriptive univari´ee

Vocabulaires
• Population: ensemble des individus objets de l’´etude.
´
(Etudiants,
entreprises, plantes, animaux, produits,...)
´
• Echantillon:
sous-ensemble issu de la population.
(Une classe, une ville, hommes, femmes,...)
• Unit´
e statistique: chaque individu.
(Un ´etudiant, une plante, un homme, une femme,...)
• Variable: caract`ere ou propri´et´e mesur´e sur chaque individu not´ee X,Y ,...
(Note, taille, poids, sex, ˆ
age, couleur, mesure,...)
• Modalit´
es: les valeurs possibles de la variable.
• S´
erie statistique: suite des valeurs prises par une variable X not´ees x1 , x2 , x3 , ....
• Variable quantitative: les modalit´es sont mesurables ou rep´erables.
− Variable quantitative discr`
ete: l’ensemble des modalit´es est fini ou d´enombrable. (Note, taille, poids, ˆage, mesure,...)
− Variable quantitative continue: l’ensemble des modalit´es est un intervalle
fini ou infini. ([8; 20[, [0; +∞[, R,...)
• Variable qualitative: les modalit´es ne sont pas mesurables.
−Variable qualitative nominale: les modalit´es ne peuvent pas ˆetre ordonn´ees. (sex, couleur,...)
−Variable qualitative ordinale: les modalit´es peuvent ˆetre ordonn´ees. (taille
d’un vˆetement: XXL, XL, L, M, S).
• Effectif totale n: le nombre de toutes les valeurs prises par la variable.
• Effectif ni : nombre d’apparitions de la valeur xi dans la population ou dans
l’´echantillon.
J
X
ni = n1 + n2 + ... + nJ = n.
i=1

• Fr´
equence fi associ´
ee `
a la valeur xi :

n
 fi = ni ,
J
P
fi = f1 + f2 + ... + fJ = 1.

i=1

• Pourcentage pi associ´
e`
a la valeur xi :

 pi = 100 × fi %,
J
P
pi = p1 + p2 + ... + pJ = 100 %.

i=1

Facult´e des Sciences de Mekn`es

15

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

• Effectif cumul´
e Ni :

N1 = n1 ,




 N2 = n1 + n2 ,
N3 = n1 + n2 + n3 ,


..............................................



NJ = n1 + n2 + ... + nJ = n.
• Fr´
equence cumul´
ee Fi :

F1 = f1 ,




 F2 = f1 + f2 ,
F3 = f1 + f2 + f3 ,


..............................................



FJ = f1 + f2 + ... + fJ = 1.
Remarque
Avant de citer les exemples de cette section, nous pr´esentons un exemple d’un mod`ele de
questionnaire pour la collection des informations dans la population.

2.3

Variable qualitative nominale

Exemple:
On note C : c´elibataire, M : mari´e, V : veuf, D : divorc´e. On s’int´eresse `a la variable
X=(´etat-civil) sur une population de n = 20 personnes. Consid´erons la s´erie statistique
suivante :
MDMCCMCCCMCMVMVDCCMC
Facult´e des Sciences de Mekn`es

16

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Tableau statistique:
xi
C
M
V
D

ni
9
7
2
2

fi
0.45
0.35
0.10
0.10

pi %
45
35
10
10

Ni
9
16
18
20

Fi
0.45
0.75
0.85
1

Par exemple: le nombre d’apparition de la valeur x2 = M dans la s´erie statistique est
7
n2 = 7, sa fr´equence est f2 = nn2 = 20
= 0.35, son pourcentage p2 = 100 × f2 =
100 × 0.35 = 35 %, l’effectif cumul´e N2 = n1 + n2 = 9 + 7 = 16 et la fr´equence cumul´ee
F2 = f1 + f2 = 0.45 + 0.35 = 0.75.
Diagramme en secteurs:
Le tableau statistique d’une variable qualitative est repr´esent´e par le diagramme en
secteurs form´es par les degr´es obtenus comme suit:
xi
C
M
V
D

pi %
45
35
10
10

di = pi × 3.6 ◦
162
126
36
36

Figure 2.1 – Diagramme en secteurs
C

D

V

M

Code sous R:
>X=c(”M ”, ”D”, ”M ”, ”C”, ”C”, ”M ”, ”C”, ”C”, ”C”,
”M ”, ”C”, ”M ”, ”V ”, ”M ”, ”V ”, ”D”, ”C”, ”C”, ”M ”, ”C”)
>V1=c(table(X)) # effectifs
#tableau statistique
> data.frame(nni=V1,NNi=cumsum(V1),ffi=V1/sum(V1),FFi=cumsum(V1/sum(V1)),
ppi=(V1/sum(V1))*100,PPi=cumsum((V1/sum(V1))*100))
> pie(V1,main=”Diagramme en secteurs”,radius=1.0) #Diagramme en secteurs
Facult´e des Sciences de Mekn`es

17

Biostatistique

Sghir Aissa

2.4

Chapitre 2. Statistique descriptive univari´ee

Variable qualitative ordinale

On interroge une population de n = 50 personnes sur leur dernier diplˆome obtenu. On
note: Sd : Sans diplˆ
ome, P : Primaire, Se: Secondaire, Su : Sup´erieur non-universitaire
et U : Universitaire.
Sd Sd Sd Sd P P P P P P P P P P P Se Se Su
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su
Su Su Su Su U U U U U U U U U U U U Su

Figure 2.2 – Diagramme en secteurs
Sd

P

Se

U
Su

Tableau statistique:
xi
Sd
P
Se
Su
U

2.5

ni
4
11
14
9
12

Ni
4
15
29
38
50

fi
0.08
0.22
0.28
0.18
0.24

pi
8
22
28
18
24

Fi
0.08
0.30
0.58
0.76
1

Variable quantitative discr`
ete, fonction de r´
epartition

Un quartier est compos´e d’une population de 50 m´enages, et la variable X repr´esente le
nombre de personnes par m´enage. Les valeurs de la variable sont:
1
2
3
4
5

Facult´e des Sciences de Mekn`es

1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

18

1
3
3
4
5

2
3
3
4
6

2
3
3
4
6

2
3
3
4
6

2
3
3
4
8

2
3
4
5
8

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Tableau statistique:
xi
1
2
3
4
5
6
8

ni
5
9
15
10
6
3
2

Ni
5
14
29
39
45
48
50

fi
0.10
0.18
0.30
0.20
0.12
0.06
0.04

Fi
0.10
0.28
0.58
0.78
0.90
0.96
1

0

5

10

15

Figure 2.3 – Diagramme en bˆatonnets des effectifs

1

2

3

4

5

6

8

Fonction de r´
epartition:
Les fr´equences cumul´ees sont repr´esent´ees au moyen de la fonction de r´epartition. Cette
fonction est d´efinie de R dans [0, 1] et vaut:

Facult´e des Sciences de Mekn`es

19

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Code sous R:
>X=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,
3,3,4, 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
>V1=c(table(X)) # effectifs
#tableau statistique
> data.frame(nni=V1,NNi=cumsum(V1),ffi=V1/sum(V1),FFi=cumsum(V1/sum(V1)),
ppi=(V1/sum(V1))*100,PPi=cumsum((V1/sum(V1))*100))
#Diagramme en bˆ
atonnets des effectifs
> plot(V1,type=”h”,xlab=””,ylab=””,main=”Diagramme en bˆatonnets des effectifs”,lwd=3)
>plot(ecdf(X),xlab=””,ylab=””,main=”Fonction de r´epartition”,frame=0) # Fonction de r´epartition

2.6

Variable quantitative continue, fonction de r´
epartition

Tr`es souvent, la prise en compte de toute les valeurs observ´ees ne permet pas de donner
une interpr´etation simple des r´esultats et conduit `a des calculs inutiles. On peut souvent
se contenter de regarder des regroupements en classes.
Exemple:
On mesure la variable X=taille en centim`etre d’une population de 50 ´el`eves d’une classe.
152
154
156
157
159
161
162
164
168
170

152
154
156
157
159
160
162
164
168
171

152
154
156
157
160
160
163
165
168
171

153
155
156
158
160
161
164
166
169
171

153
155
156
158
160
162
164
167
169
171

Tableau statistique:
Pour construire le tableau statistique, il faut proc´eder `a des regroupements en classes
(intervalles) de mˆeme amplitude. En r`egle g´en´erale, on choisit au moins cinq classes, sinon
on utilise par exemple la r`egle de Sturge: le nombre de classes est J = 1+(3.3×log10 (n)).
La longeur de chaque classe est l = (xmax −xmin )/J. Par exemple pour J = 5, on prend
l ' 4.
classe
[151.5;
[155.5;
[159.5;
[163.5;
[167.5;

Facult´e des Sciences de Mekn`es

155.5[
159.5[
163.5[
167.5[
171.5[

20

ni
10
12
11
7
10

Ni
10
22
33
40
50

fi
0.20
0.24
0.22
0.14
0.20

Fi
0.20
0.44
0.66
0.80
1

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Histogramme des effectifs:

0

2

4

6

8

10

12

Figure 2.4 – Histogramme des effectifs

151.5

155.5

159.5

163.5

167.5

171.5

Fonction de r´
epartition:
+
Si [c−
;
c
[

e
signe
la classe j, on note, de mani`ere g´en´erale:
j
j

Facult´e des Sciences de Mekn`es

21

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Code sous R:
>X=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, 157,157,157,
158,158,159,159,160,160,160,161,160,160,161,162, 162,162,163,
164,164,164,164,165,166,167,168,168,168,169,169, 170,171,171,171,171)
>V1=c(table(cut(X, breaks=c(151,155,159,163,167,171))))
> ou bien V1=c(table(cut(X, breaks=5))) # 5classes
>data.frame(nni=V1,NNi=cumsum(V1),ffi=V1/sum(V1),FFi=cumsum(V1/sum(V1)),
ppi=(V1/sum(V1))*100,PPi=cumsum((V1/sum(V1))*100))
#Histogramme
>b=c(151.5,155.5,159.5,163.5,167.5,171.5)
>hist(X,breaks=b, xlab=””,ylab=””,main=”Histogramme”,xaxt = ”n”)
>ou bien hist(X,breaks=5, freq=FALSE,xlab=””,ylab=””,main=”Histogramme”)
> axis(1,b) # axe des x
# Fonction de r´epartition
> y=c(0,0,cumsum(V1/sum(V1)),1) #Fr´equences cumul´ees
> x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
> plot(x,y,type=”b”,xlab=””,ylab=””,xaxt = ”n” main=”Fonction de r´epartition”)

> axis(1,b)

2.7

Param`
etres de position

• Le mode:
Le mode est la valeur xi correspondant `a l’effectif (ou fr´equence) le plus ´elev´e.
Exemple:
xi
C
M
V
D

ni
9
7
2
2

fi
0.45
0.35
0.10
0.10

le mode est x1 = C : c´elibataire correspondant `a l’effectif n1 = 9.
Remarques
– Le mode peut ˆetre calcul´e pour tous les types de variable, quantitative et qualitative.
– Le mode n’est pas n´ecessairement unique.
– Quand une variable continue est d´ecoup´ee en classes, on parle de classe modale.
• La moyenne:
La moyenne x
¯ ne peut ˆetre d´efinie que sur une variable quantitative.
n

x
¯=

1X
x1 + ......... + xn
xi =
.
n
n
i=1

Facult´e des Sciences de Mekn`es

22

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

La moyenne peut ˆetre calcul´ee `
a partir des valeurs distinctes et des effectifs.
J

1X
n1 × x1 + ......... + nJ × xJ
x
¯=
ni × xi =
.
n
n
i=1

Exemple:
Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est
x
¯=

0+0+1+1+1+2+3+4
= 1.5.
8

On peut aussi faire
x
¯=

2×0+3×1+1×2+1×3+1×4
= 1.5.
8

• La m´
ediane:
Cas d’une variable quantitative discr`
ete:
La m´ediane, not´ee x 1 , est une valeur centrale de la s´erie statistique qui la partage
2
en deux groupes de mˆeme effectifs. Elle est obtenue de la mani`ere suivante:
– On trie la s´erie statistique par ordre croissant des valeurs observ´ees:
Par exemple, avec la s´erie observ´ee:
3 2 1 0 0 1 2,
on obtient:
0 0 1 1 2 2 3.
– n = 7 est impair, alors la m´ediane est la valeur du rang (n + 1)/2 = 4. Donc x 1 = 1.
2
– Si n est pair, alors la m´ediane est la moyenne des deux valeurs de rang n/2 et (n/2)+1.
Par exemple pour n = 8, si on a:
0 0 1 1 2 2 3 4
alors

1+2
= 1.5.
2
Cas d’une variable quantitative continue:
x1 =
2

De mani`ere g´en´erale, on d´efinira la m´ediane comme ´etant la valeur (abscisse) correspondant `
a la fr´equence cumul´ee F = 0.5 ou effectif cumul´e N = n2 . On l’obtiendra
en g´en´eral par lecture graphique (valeur approch´ee x 1 = F −1 (0.5)) sur la courbe des
2
fr´equences cumul´ees, ou par une formule d’interpolation lin´eaire (valeur exacte) sur la
courbe des effectifs cumul´ees.
Facult´e des Sciences de Mekn`es

23

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Exemple:

Facult´e des Sciences de Mekn`es

24

Biostatistique

Sghir Aissa

2.8

Chapitre 2. Statistique descriptive univari´ee

Param`
etres de dispersion

• L’´
etendue:
L’´etendue est d´efini par:
E = xmax − xmin .
Exemple:
Pour la s´erie 1 1 2 1 1 3 5 5 5 5 5 3 2 5,
• La variance:
2
σX
=

n

n

i=1

i=1

on a: E = 5 − 1 = 4.

1X
1X 2
(xi − x
¯)2 =
xi − x
¯2 .
n
n

La variance peut aussi s’´ecrire:
2
σX
=

J

J

i=1

i=1

1X
1X
ni × (xi − x
¯)2 =
ni × x2i − x
¯2 .
n
n

• L’´
ecart type:
σX

q
2 .
= σX

Exemple:
Soit la s´erie statistique 2 3 4 4 5 6 7 9 de taille 8. On a:
x
¯=

2+3+4+4+5+6+7+9
= 5.
8

n

2
σX

1X
=
(xi −¯
x)2
n
i=1

(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
= 4.5.
8
On peut ´egalement ´ecrire:

=

n

2
σX
=

1X 2
22 + 3 2 + 4 2 + 4 2 + 5 2 + 6 2 + 7 2 + 9 2
xi − x
¯2 =
− 52 = 4.5.
n
8
i=1

L’´ecart type:
σX =



4.5 = 2.12.

Remarque
Pour calculer la moyenne et la variance dans le cas d’une variable continue, on calcule
les centres des classes qui vont jouer le rˆole des valeurs xi du cas discret.

Facult´e des Sciences de Mekn`es

25

Biostatistique

Sghir Aissa

Chapitre 2. Statistique descriptive univari´ee

Exemple:
classe
[0; 10[
[10; 20[
[20; 30[
[30; 40[
x
¯=

ni
10
4
20
6

centre xi
0+10
2 =5
15
25
35

10 × 5 + 4 × 15 + 20 × 25 + 6 × 35
= 20.5.
40

Exemple: param`
etres de position et de dispersion
Code sous R:
>X=c(152,152,152,153,153,154,154,154,155,155)
>mean(X)# moyenne
>median(X) # m´ediane
>n=length(X) # taille ou longeur
>V=var(X)*((n-1)/n) # variance
>e=sqrt(V) # ´ecart type
Remarque
En plus de la m´ediane x 1 , on cite encore le premier quartile: x 1 et le troisi`eme quartile:
2
4
x 3 . La m´ediane est le nombre x 1 qui partage la s´erie ordonn´ee en deux groupes de mˆeme
4
2
effectifs 50%. Le premier quartile x 1 est la plus petite valeur telle qu’au moins 25% des
4
valeurs de la s´erie sont inf´erieures ou ´egales `a x 1 . Le troisi`eme quartile x 3 est la plus
4
4
petite valeur telle qu’au moins 75% des valeurs de la s´erie sont inf´erieures ou ´egales `a x 3 .
4

Exemple:
Code sous R:
>X=c(152,152,152,153,153,154,154,154,155,155)
>summary(X)# les trois quartiles

Facult´e des Sciences de Mekn`es

26

Biostatistique

Sghir Aissa

2.9

Chapitre 2. Statistique descriptive univari´ee

Utilisation des calculatrices Casio fx-82MS, fx-82ES

Facult´e des Sciences de Mekn`es

27

Biostatistique

Sghir Aissa

Facult´e des Sciences de Mekn`es

Chapitre 2. Statistique descriptive univari´ee

28

Biostatistique

Sghir Aissa

2.10

Chapitre 2. Statistique descriptive univari´ee

TD 1

NB: Le tableau statistique contient: modalit´
es, effectifs, fr´
equences, pourcentages, effectifs cumul´
es, fr´
equences cumul´
ees et pourcentages cumul´
es.
Exercice 1:
On donne les couleurs de n = 15 plantes.
VVRNRRVRRRJNNNN
1. De quel type est la variable couleur?
2. Construire le tableau statistique et en d´eduire le mode.
3. Construire le diagramme en secteurs.
Exercice 2:
Trente ´eprouvettes d’acier sp´ecial sont soumises `a des essais de r´esistance. Pour chacune,
on note le nombre de chocs n´ecessaires pour obtenir la rupture. Les r´esultats obtenus
sont les suivants :
2231214232
3233411423
2322343232
1. De quel type est cette variable?
2. Construire le tableau statistique et en d´eduire le mode.
3. Construire le diagramme en bˆ
atonnets des effectifs.
4. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de cette variable.
5. D´eterminer la fonction de r´epartition et tracer sa courbe.
Exercice 3:
On p`ese les n = 50 ´el`eves d’une classe et nous obtenons les r´esultats r´esum´es dans le
tableau suivant:
43
49
54
63
72
1.
2.
3.
4.
5.
6.
7.

43
50
56
63
72

43
50
56
65
73

47
51
56
65
77

48
51
57
67
77

48
52
59
67
81

48
53
59
68
83

48
53
59
70
86

49
53
62
70
92

49
54
62
70
93

De quel type est la variable poids?
Construire le tableau statistique en adoptant quatres classes seulement.
Tracer l’histogramme de cette variable.
D´eterminer la fonction de r´epartition et tracer sa courbe.
D´eterminer la m´ediane directement et par interpolation lin´eaire.
D´eterminer la classe modale et les centres des classes.
En d´eduire la moyenne, la variance et l’´ecart type de la variable poids.

Facult´e des Sciences de Mekn`es

29

Biostatistique

Chapitre 3

Logiciel SPSS
3.1


emarrage

Cette fenˆetre s’ouvre lorsque on clique deux fois sur l’icˆone IBM SPSS.

30

Sghir Aissa

3.2

Chapitre 3. Logiciel SPSS

Affichage des variables et affichage des donn´
ees

Cet onglet permet de d´efinir pr´ecis´ement la nature des variables et la fa¸con dont elles
seront affich´ees: num´erique pour quantitative et chaˆıne pour qualitative.

Cette fenˆetre affiche le tableau des donn´ees dont les lignes correspondent aux observations (individus) et les colonnes aux variables (caract`eres).

Facult´e des Sciences de Mekn`es

31

Biostatistique

Sghir Aissa

3.3

Chapitre 3. Logiciel SPSS

Valeurs et ´
etiquette

Ces deux cases permettent de donner des codes simples aux valeurs des observations.

3.4

La fenˆ
etre Viewer

Cette fenˆetre contient la suite chronologique des traitements statistiques effectu´es. Le navigateur de r´esultat, dans la partie gauche de la fenˆetre, permet de passer rapidement
d’un r´esultat `
a l’autre.

Facult´e des Sciences de Mekn`es

32

Biostatistique

Sghir Aissa

3.5

Chapitre 3. Logiciel SPSS

Transformation des variables

Le chemin Transformer > Calculer la variable permet de d´efinir une nouvelle variable Z `
a partir des variables initiale X et Y . Par exemple: Z = 2X + Y .

Le chemin Transformer > Regroupement visuel permet de transformer une variable
quantitative en une variable qualitative en d´efinissant des classes de valeurs.

Facult´e des Sciences de Mekn`es

33

Biostatistique

Sghir Aissa

3.6

Chapitre 3. Logiciel SPSS

Param`
etres des variables et diagrammes

Le chemin Analyse > Statistiques descriptives > Effectifs ou Descriptives
permet de faire une analyse statistique des donn´ees: on peut faire des calculs des moyennes,
des variances,... et on peut tracer des diagrammes en secteurs, des histogrammes,...

Facult´e des Sciences de Mekn`es

34

Biostatistique

Sghir Aissa

3.7

Chapitre 3. Logiciel SPSS

Courbe de la fonction de r´
epartition

Suivez le chemin suivant: Graphes > G´
en´
erateur de diagrammes > Courbes
> Diagramme en ligne simple > Pourcentage cumul´
e.
Dans le cas discret on ajoute l’option: Type > Sauts.
Dans le cas continue on ajoute l’option: Type > Droite.

Facult´e des Sciences de Mekn`es

35

Biostatistique

Sghir Aissa

3.8

Chapitre 3. Logiciel SPSS

TP 1 sous R et SPSS

Le tableau statistique contient: modalit´
es, effectifs, fr´
equences, pourcentages,
effectifs cumul´
es, fr´
equences cumul´
ees et pourcentages cumul´
es.
Pour chaque fonctions usuelles de R vue en cours, supprimer un arguments
ou plus et comparer les r´
esultats.
Exercice 1
On donne les couleurs de n = 15 plantes.
VVRNRRVRRRJNNNN
1. Construire sous R le tableau statistique et en d´eduire le mode.
2. Construire sous R le diagramme en secteurs.
Exercice 2
Trente ´eprouvettes d’acier sp´ecial sont soumises `a des essais de r´esistance. Pour chacune,
on note le nombre de chocs n´ecessaires pour obtenir la rupture. Les r´esultats obtenus
sont les suivants :
2231214232
3233411423
2322343232
1. Construire sous R le tableau statistique et en d´eduire le mode.
2. Construire sous R le diagramme en bˆatonnets des effectifs.
3. D´eterminer sous R: la m´ediane, la moyenne, la variance et l’´ecart type de cette variable.
4. Tracer sous R la fonction de r´epartition de cette variable.
5. Calculer la variable qui repr´esente le nombre de chocs au carr´e.
Exercice 3
On p`ese les n = 50 ´el`eves d’une classe et nous obtenons les r´esultats r´esum´es dans
le tableau suivant:
43
49
54
63
72

43
50
56
63
72

43
50
56
65
73

47
51
56
65
77

48
51
57
67
77

48
52
59
67
81

48
53
59
68
83

48
53
59
70
86

49
53
62
70
92

49
54
62
70
93

1. Construire sous R le tableau statistique en adoptant quatres classes seulement.
2. Tracer sous R la fonction de r´epartition de cette variable.
3. Tracer sous R l’histogramme de cette variable.
Facult´e des Sciences de Mekn`es

36

Biostatistique

Sghir Aissa

Chapitre 3. Logiciel SPSS

4. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de cette variable.
Exercice 4
1. Importer le fichier nomm´e: TP 1 depuis Excel vers R.
Partie 1:
2. Construire le tableau statistique de la variable produit.
3. Construire le diagramme en secteurs de la variable produit.
Partie 2:
4. Construire le tableau statistique de la variable diam`etre.
5. Construire le diagramme en bˆ
atonnets des effectifs de la variable diam`etre.
6. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de la variable diam`etre.
7. Tracer la fonction de r´epartition de la variable diam`etre.
Partie 3:
8. Construire le tableau statistique de la variable temp´erature en adoptant trois classes.
9. D´eterminer la m´ediane, la moyenne, la variance et l’´ecart type de la variable temp´erature .
10. Tracer l’histogramme de la variable poids.
11. Tracer la fonction de r´epartition de la variable temp´erature .
Partie 4:
Refaire le travail sous le logiciel SPSS en ajoutant des ´etiquettes.

Facult´e des Sciences de Mekn`es

37

Biostatistique

Chapitre 4

Statistique descriptive bivari´
ee
L’objectif de cette partie est d’´etudier sur une mˆeme population de n individus,
deux caract`eres diff´erents X et Y et de rechercher s’il existe un lien entre ces deux
variables. Chacune des deux variables peut ˆetre, soit quantitative, soit qualitative. La
s´erie statistique est alors une suite de n couples des valeurs prises par les deux variables
sur chaque individu: (x1 , y1 ), ............., (xn , yn ). L’effectif associe `a l’observation (xi , yj )
n
est not´e nij et sa fr´equence not´ee: fij = nij .

4.1

Deux variables qualitatives (tableau de contingence)

Tableau de contingence des effectifs nij :
On s’int´eresse `
a une ´eventuelle relation entre la variable X= (le sexe) de n = 200
personnes et la variable Y = (la couleur des yeux).
X/Y
Homme
Femme
Total

Bleu
n11 = 10
n21 = 20
n•1 = 30

Vert
n12 = 50
n22 = 60
n•2 = 110

Marron
n13 = 20
n23 = 40
n•3 = 60

Total
n1• = 80
n2• = 120
n = 200

Les nombres n1• , n2• et n•1 , n•2 , n•3 sont appel´es effectifs marginaux.
Par exemple la valeur n22 = 60 exprime que 60 femmes ont une couleur verte des yeux
et on a:

n11 + n12 + n13 = n1• ,




n21 + n22 + n23 = n2• ,



n11 + n21 = n•1 ,
n12 + n22 = n•2 ,





n + n23 = n•3 ,

 13
n11 + n12 + n13 + n21 + n22 + n23 = n.

38

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

Code sous R:
>tableau=matrix(c(10,50,20,20,60,40),ncol=3,byrow=T)
>tableau
>rownames(tableau)=c(’Homme’,’Femme’)
>colnames(tableau)=c(’Bleu’,’Vert’,’Marron’)
>ni.=margin.table(tableau,1) #Calcul des effectifs marginaux lignes
>n.j=margin.table(tableau,2) #Calcul des effectifs marginaux colones
Tableau de contingence des fr´
equences fij = nij /n:

n
n
fij = nij , fi• = nni• , f•j = n•j




f11 + f12 + f13 = f1• ,




 f21 + f22 + f23 = f2• ,
f11 + f21 = f•1 ,


f12 + f22 = f•2 ,





f + f23 = f•3 ,

 13
f11 + f12 + f13 + f21 + f22 + f23 = 1.
Les nombres f1• , f2• et f•1 , f•2 , f•3 sont appel´ees fr´equences marginales.

X/Y
Homme
Femme
Total

Bleu
f11 = 0.05
f21 = 0.10
f•1 = 0.15

Vert
f12 = 0.25
f22 = 0.30
f•2 = 0.55

Marron
f13 = 0.10
f23 = 0.20
f•3 = 0.30

Total
f1• = 0.40
f2• = 0.60
1

Code sous R:
>tableau=matrix(c(10,50,20,20,60,40),ncol=3,byrow=T)
>freqabs=round(tableau/200,2)
>freqabs

Facult´e des Sciences de Mekn`es

39

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

Sous SPSS: Analyse > Statistiques descriptives > Tableaux crois´
es.

Facult´e des Sciences de Mekn`es

40

Biostatistique

Sghir Aissa

4.2

Chapitre 4. Statistique descriptive bivari´ee

Une variable quantitative et une variable qualitative
(boˆıte `
a moustache)

Diagramme `
a boˆıtes `
a moustaches:
La boˆıte, (verticale ou bien horizontale), est la partie du graphique comprise entre les
premier et troisi`eme quartiles. La m´ediane est situ´ee `a l’int´erieur de la boˆıte et elle est
repr´esent´ee par un trait horizontal. Dans les parties basse et haute du graphique figurent
les moustaches, joignant le minimum au premier quartile et le troisi`eme quartile au maximum.
Exemple:
On consid`ere X= notes des ´etudiants (quantitative) et Y= sexe (qualitative).
Chemin sous SPSS: Graphes > Boˆıtes de dialogue ancienne version > Boˆıte
`
a moustache.

Facult´e des Sciences de Mekn`es

41

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

Code sous R:
> notes = c(13,16,2,12.75,......,6)
> sexe = c(”F”,”M”,”M”,”F”,......,”F”)
> summary(notes) # les trois quartiles
># Diagramme `
a boˆıtes `
a moustaches
> boxplot(notes[sexe==”M”],notes[sexe==”F”],names=c(”Etudiants”,”Etudiantes”),
main=”Comparaison des notes de biochimie 2012-2013”,horizontal=F)

0

5

10 15 20 25 30

Comparaison des notes de biochimie 2012−2013

Etudiants

4.3

Etudiantes

Deux variables quantitatives (r´
egression lin´
eaire et pr´
ediction)

On consid`ere une population sur laquelle on ´etudie deux variables quantitatives X et Y .
On veut savoir si les deux variables sont li´es par une liaison lin´eaire du type Y = a + bX,
i.e., que l’on peut pr´evoir les valeurs de Y `a partir des valeurs de X. Pr´ecisons d`es maintenant que l’existence d’une telle liaison entre les deux variables X et Y ne signifie pas
obligatoirement un lien de cause `
a effet entre elles.
Exemple:
Neuf ´etudiants ´emettent un avis p´edagogique vis-`a-vis d’un professeur selon une ´echelle
d’appr´eciation de 1 `
a 20. On rel`eve par ailleurs la note obtenue par ces ´etudiants l’ann´ee
pr´ec´edente aupr`es du professeur.
Y= avis
X= r´esultat

5
8

7
11

16
10

6
13

12
9

14
17

10
7

9
15

8
16

Covariance
La covariance est d´efinie par:
σXY =

n

n

i=1

i=1

1X
1X
(xi − x
¯)(yi − y¯) =
xi yi − x
¯y¯.
n
n

Facult´e des Sciences de Mekn`es

42

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

Corr´
elation
Le coefficient de corr´elation est d´efinie par:
rXY =

σXY
.
σX σY

- Le coefficient de corr´elation mesure la d´ependance lin´eaire entre les variables X et Y .
- On a −1 ≤ rXY ≤ 1. Si rXY est proche de 1 ou -1, les variables X et Y sont dits:
fortement corr´el´ees.
- Si le coefficient de corr´elation est positif, les points du nuage sont align´es le long d’une
droite croissante. Dans ce cas X et Y ´evoluent dans le mˆeme sens.
- Si le coefficient de corr´elation est n´egatif, les points sont align´es le long d’une droite
d´ecroissante. Dans ce cas X et Y ´evoluent dans des sens oppos´es.
- Si le coefficient de corr´elation est nul ou proche de z´ero, il n’y a pas d´ependance lin´eaire.
Code sous R:
>X=c(5, 7, 16, 6, 12, 14, 10, 9, 8)
>Y=c(8, 11, 10, 13, 9, 17, 7, 15, 16)
>var(X)*((9-1)/9) # variance de X
>var(Y)*((9-1)/9) # variance de Y
>cov(X,Y)*((9-1)/9) # covariance de X et Y
>cor(X,Y) # coefficient de corr´elation
Droite de r´
egression lin´
eaire et Pr´
ediction:
La droite de r´egression lin´eaire est la droite qui ajuste au mieux un nuage de points
au sens des moindres carr´es. On consid`ere que la variable X est explicative et que la
variable Y est d´ependante. L’´equation de la droite de r´egression de Y en X est:
y=a
ˆ + ˆbx,
avec
ˆb = σXY ,
2
σX

a
ˆ = y¯ − ˆb¯
x

(la droite de r´egression passe par le point (¯
x, y¯)).

Dans notre exemple, on a:

x
¯ = 106/9 = 11.78




y
¯ = 87/9 = 9.667


 σ 2 = 1354/9 − 11.782 = 11.73
X
2
2
σ

Y = 951/9 − 9.667 = 12.22



σXY = 1034/9 − 9.667 × 11.78 = 1.037



1.037

rXY = √11.73×
= 0.087
12.22
Finalement l’´equation de la droite de r´egression de Y en X est:
y = 0.088x + 8.625.
Facult´e des Sciences de Mekn`es

43

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

10
6

8

avis

12

14

16

Figure 4.1 – Droite de r´egression de Y en X

8

10

12

14

16

résultat

Pr´
ediction:
Dans notre exemple si on veut pr´edire, sur la base de notre mod`ele, l’avis pour un
´etudiant ayant obtenu x = 12/20, alors la valeur ajust´ee est:
y = 0.088 × 12 + 8.625 = 9.681.

esidus ou erreurs de pr´
ediction:
Les r´esidus de la r´egression sont d´efinis par:
ei = yi − (ˆ
a + ˆbxi ) = yi − yi∗ .
Le r´esidu ei est l’erreur que l’on commet en utilisant la droite de r´egression pour pr´edire
yi `a partir de xi . Les r´esidus sont les diff´erences entre les valeurs observ´ees yi et les
valeurs ajust´ees yi∗ de la variable d´ependante.
Par exemple pour la valeur x3 = 12, on donne y3 = 10 et on a y3∗ = 0.088 × 12 + 8.625 =
9.681, donc e3 = y3 − y3∗ = 0.319.
Moyenne r´
esiduelle:
n

e¯ =

1X
ei = 0.
n
i=1

Variance r´
esiduelle:
La variance r´esiduelle est la variance des r´esidus:
n

σe2

1X 2
=
ei .
n
i=1

Facult´e des Sciences de Mekn`es

44

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

La variance r´esiduelle peut ´egalement s’´ecrire:
2
σe2 = σy2 × (1 − rXY
).

Dans notre exemple on a:
σe2 = 12.22 × (1 − 0.0872 ) = 12.127.
Le coefficient de d´
etermination:
2 . Il repr´
On le not´e R2 . C’est le carr´e du coefficient de corr´elation: R2 = rXY
esente la
proportion de variance expliqu´ee par le mod`ele.
Dans notre mod`ele, on a R2 = 0.0872 = 0.008. (0.8% est tr`es faible donc on a un mauvais
ajustement).
Code sous R:
>Avis=c(5, 7, 16, 6, 12, 14, 10, 9, 8)
>R´esultat=c(8, 11, 10, 13, 9, 17, 7, 15, 16)
>plot(Avis,R´esultat)# nuage de points
> abline(lm(R´esultat∼Avis), col = ’red’) # droite de r´egression
>model=lm(R´esultat∼Avis)# coefficients de la droite de r´egression
>model
>summary(model)# coefficients de d´etermination

4.4

Utilisation des calculatrices Casio fx-82ES et fx-82MS
Y= pression
X= temp´erature

1003
10

1005
15

1010
20

1011
25

1014
30

Avec la calculatrice Casio fx-82ES

Facult´e des Sciences de Mekn`es

45

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

Avec la calculatrice Casio fx-82MS:

Facult´e des Sciences de Mekn`es

46

Biostatistique

Sghir Aissa

4.5

Chapitre 4. Statistique descriptive bivari´ee

TD 2

Exercice 1:
Consid´erons un ´echantillon de n = 10 fonctionnaires (ayant entre 40 et 50 ans) d’un
minist`ere. Soit X le nombre d’ann´ees de service et Y le nombre de jours d’absence pour
raison de maladie (au cours de l’ann´ee pr´ec´edente) d´etermin´e pour chaque personne
appartenant `
a cet ´echantillon.
xi
yi

2
3

14
13

16
17

8
12

13
10

20
8

24
20

7
7

5
2

11
8

1. D´eterminer les moyennes de X et Y et la covariance entre X et Y .
2. D´eterminer le coefficient de corr´elation entre les variables X et Y . Donner une interpr´etation.
3. D´eterminer la droite de r´egression lin´eaire Y en fonction de X.
4. Tracer le nuage de points (X, Y ).
5. Tracer la droite de r´egression lin´eaire de Y en X.
6. v´erifier que la droite de r´egression passe par le point (¯
x, y¯).
´
7. Etablir,
sur la base de ce mod`ele, le nombre de jours d’absence pour un fonctionnaire
ayant 22 ans de service.
8. D´eterminer la variance r´esiduelle et le coefficient de d´etermination. Interpr´eter.
Exercice 2:
On ´etudie un ´echantillon de taille n = 100 sur lequel ont ´et´e mesur´es deux caract`eres X
et Y . On a observ´e les r´esultats suivants:
100
X

xi = 800

i=1

100
X

yi = 1200

i=1
100
X

yi2 = 16000

i=1

1.
2.
3.
4.
5.

100
X

x2i = 7200

i=1
100
X

xi yi = 10200

i=1

D´eterminer les moyennes, les variances et la covariance de X et Y .
En d´eduire le coefficient de corr´elation entre X et Y . Interpr´eter.
D´eterminer la droite de r´egression lin´eaire de Y en X.
D´eterminer la variance r´esiduelle et le coefficient de d´etermination. Interpr´eter.
D´eterminer la droite de r´egression lin´eaire de X en Y .

Facult´e des Sciences de Mekn`es

47

Biostatistique

Sghir Aissa

4.6

Chapitre 4. Statistique descriptive bivari´ee

SPSS: R´
egression lin´
eaire et coefficients

Suivez le chemin: Analyse > R´
egression > Lin´
eaire.

Facult´e des Sciences de Mekn`es

48

Biostatistique

Sghir Aissa

Chapitre 4. Statistique descriptive bivari´ee

Pour obtenir le nuage de points suivez le chemin suivant:
Graphes > G´
en´
erateur de diagrammes > Dispersion points.

Facult´e des Sciences de Mekn`es

49

Biostatistique


Documents similaires


Fichier PDF cours 2 de statistique
Fichier PDF cours2 statistique stu s3
Fichier PDF exercices facultatifs
Fichier PDF cours1 statistique stu s3
Fichier PDF td 1 statistique descriptive
Fichier PDF master biostat sous r et rcmdr2


Sur le même sujet..