Master BioStat sous R et Rcmdr2 .pdf



Nom original: Master_BioStat sous R et Rcmdr2.pdf
Titre: Biostatistique sous R et (Rcmdr) pour Master Bioinformatique
Auteur: SGHIR AISSA sghir.aissa@gmail.com

Ce document au format PDF 1.5 a été généré par LaTeX with Beamer class version 3.36 / pdfTeX-1.40.17, et a été envoyé sur fichier-pdf.fr le 13/03/2018 à 08:06, depuis l'adresse IP 154.148.x.x. La présente page de téléchargement du fichier a été vue 399 fois.
Taille du document: 6 Mo (359 pages).
Confidentialité: fichier public


Aperçu du document


Biostatistique sous R et (Rcmdr)
pour Master Bioinformatique

SGHIR AISSA
sghir.aissa@gmail.com

Faculté des Sciences Meknès 2017-2018

10

15

C

0

V

5

D

M
1

2

3

4

5

6

8

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Plan :

1

Le logiciel R

2

Statistique descriptive univariée

3

Statistique descriptive bivariée

4

Le package (Rcmdr) sous R

5

Analyse en composantes Principales (ACP)

6

Notions de probabilités et variables aléatoires

7

Échantillonnage et estimation

8

Tests des hypothèses

9

Analyse de la variance (ANOVA)

10

Modèle linéaire multiple
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Plan :

1

Le logiciel R

2

Statistique descriptive univariée

3

Statistique descriptive bivariée

4

Le package (Rcmdr) sous R

5

Analyse en composantes Principales (ACP)

6

Notions de probabilités et variables aléatoires

7

Échantillonnage et estimation

8

Tests des hypothèses

9

Analyse de la variance (ANOVA)

10

Modèle linéaire multiple
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Démarrage :

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

• Le prompteur > en rouge indique que R est prêt à recevoir les commandes
en lignes.
• Le prompteur + en rouge apparaît en début de ligne si la ligne précédente
est incomplète.
• Pour quitter la session, il faut taper q().
• Pour e acer la mémoire de R, on utilise la commande suivante :
rm(list=ls()).
• On peut ajouter des commentaires après # .

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Opérations élémentaires sur les variables :
>2+4 # somme
[ 1] 6
>2-5 # di érence
[1] -3
>2/4 # division
[1] 0.5
>2*4 # produit
[ 1] 8
>abs(-5) # valeur absolue
[ 1] 5
>sqrt(49) # racine
[ 1] 7
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

# variables et a ectation
>x=2+4 #(ou bien x<-2+4) : x reçoit la valeur 6
>x
[ 1] 6
>y=4 #(ou bien y<-4)
>y
[ 1] 4
>z=7 #(ou bien y<-7)
>w=y+z
>w
[1] 11
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Les vecteurs :
On utilise la commande : c(composante1, composante2, ...).
>a=c(7,-2,3) #(ou bien a<-c(7,-2,3))
>a
[1] 7 -2 3
>b=c(4,3,-0.7)
#Opérations sur les vecteurs
>c=a+b
>c
[1] 11 1 2.3
>a[2] #deuxième composante
[1] -2
>d=a*b #produit élément par élément
>d
[1] 28 -6 -2.1
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

>max(a) #maximum des composantes de a
[ 1] 7
>min(a) #minimum
[1] -2
>sum(a) #somme des composantes
[ 1] 8
>mean(a) #moyenne=somme/3
[1] 2.6
>length(a) #longeur=nombre des composantes
[ 1] 3
>prod(a) # produit des composantes
[1] -42
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

>cumsum(a) # sommes cumulées des composantes :
(a[1] a[1] + a[2] a[1] + a[2] + a[3])
[1] 7 5 8
> x = seq(-1,1,length=3) #séquence
>x
[1] -1 0 1
> y = seq(0,1,length=4)
>y
[1] 0.0000000 0.3333333 0.6666667 1.0000000
> x=numeric(4) #vecteur null de taille 4
>x
[1] 0 0 0 0
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Les matrices :
On utilise la commande matrix() et les arguments ncol= le nombre de
colonnes et nrow= le nombre de lignes.
> x = matrix(c(2,3,5,7),ncol=2)
>x
[,1][,2]
[ 1, ]
2
5
[ 2, ]
3
7
> x[1, 2] # l'élément de la première ligne et la deuxième colonne
[1] 5
> x[1, ] # la première ligne
[1] 2 5
> x[, 2] # la deuxième colonne
[1] 5 7
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Par défaut la matrice est remplie colonne par colonne. Pour la remplir ligne
par ligne, on ajoute l'argument byrow=T.
> y = matrix(c(2,3,5,7),ncol=2 , byrow=T)
>y
[,1][,2]
[ 1, ]
2
3
[ 2, ]
5
7
#Opérations sur les matrices
> A = matrix(c(2,4,1,9),ncol=2)
>A
[,1][,2]
[1, ]
2
1
[2, ]
4
9
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

> B = matrix(c(0,1,2,1),ncol=2)
>B
[,1][,2]
[ 1, ]
0
2
[ 2, ]
1
1
>A+B
[,1][,2]
[1, ]
2
3
[2, ]
5
10
> C=A*B # produit élément par élément
>C
[,1][,2]
[1, ]
0
2
[2, ]
4
9
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

> D=A%*%B # produit matricielle
>D
[,1][,2]
[ 1, ]
1
5
[ 2, ]
9
17
> E = matrix(c(1,2,3,4),ncol=2, byrow=T)
>E
[,1][,2]
[ 1, ]
1
2
[ 2, ]
3
4
>t(E) #transposée de E
[,1][,2]
[1, ]
1
3
[2, ]
2
4
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

> det(E) #déterminant de E
[ 1] − 2
>solve(E) #inverse de E
[,1][,2]
[ 1, ]
-2 1.5
[ 2, ]
1 -0.5
> eigen(E) #valeurs et vecteurs propres
$values [1]5.3722813 − 0.3722813
$vectors
[,1]
[,2]
[1, ] -0.5657675 -0.9093767
[2, ] -0.8245648 0.4159736
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Les tableaux :
On utilise la commande data.frame(colonne1,colonne2,...)
Exemples :
> x=c(1,3,10)
> y=c(-5,0,1)
> z=c(24,44,-7)
> tableau=data.frame(x,y,z)
> tableau
x y z
1 1 -5 24
2 3 0 44
3 10 1 -7
> tableau[1,] # première ligne
> tableau[,1] ou bien tableau$x # première colonne
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Boucle for et itérations :
> x=numeric(5)
>x
[ 1] 0 0 0 0 0
> for(i in 1 :5) x[i]=i+1
>x
[ 1] 2 3 4 5 6
> y=numeric(5)
> y [1] = 3
>y
[ 1] 3 0 0 0 0
> for(i in 1 :4) y[i+1]=y[i]-2
>y
[1] 3 1 -1 -3 -5
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Fonctions :
La structure générale d'une fonction est donnée par :
>Non de la fonction=function(paramètre1, paramètre2,...)
{
commandes
return
}
Exemple : somme de deux nombres
>somme=function(a,b)
{ z=a+b
return(z)
}
>somme(2,3) # somme de 2 et 3
[ 1] 5
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

N.B : On peut écrire tous les lignes du code dans un chier bloc note txt et
après les coller sous R.
Représentations graphiques :
On utilise la fonction plot() avec quelques arguments de base :
• main=0 titre 0 : pour ajouter un titre à la gure,
• type=0 p 0 : pour tracer un nuage de points,
• type=0 l 0 : pour tracer des lignes,
• type=0 b 0 : pour tracer des points reliés par des lignes,
• type=0 h0 : pour tracer des lignes verticales à partir des points à l'axe zéro,

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R










type=0 s 0 : pour tracer un graphique en escalier,
type=0 n0 : aucun point n'est dessiné,
pch= : pour changer le type de points,
lty= : pour changer le type de lignes,
lwd=nombre : pour augmenter l'épaisseur du trait,
col=0 red 0 : pour changer les couleurs : green, yellow, ...
lines() pour superposer de courbes sur la même fenêtre,
legend() pour ajouter une légende,

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Exemple : Courbes des fonctions sin et cos :

−1

0

1

2

Code sous R :
> x=seq(-2*pi, 2*pi, length=200)
> plot(x, sin(x), type=0 l 0 , lty=3, col=0 red 0 , lwd=2)
> lines(x, cos(x), lwd=2, col=0 blue 0 )
> legend (-6, -1.2, c(0 sin0 , 0 cos 0 ), col=c(0 red 0 , 0 blue 0 ), lty=c(3,1))
># On peut remplacer la position -6, -1.2 par "topleft" ou bien "topright"

−2

sin
cos

−6

−4

−2

0

2

4

6

x

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Le paramètre mfrow permet d'avoir simultanément plusieurs graphiques dans
la même fenêtre.
Exemple : six courbes de la fonction log
Code sous R :
>par(mfrow = c(2,3))# deux lignes et trois colones, donc six courbes
>for(i in 1 :6)
>{
x<-(0 :100)/100# On décompose l'intervalle [0, 1] en 100 points
>plot(x,log(x), type = "l", main = "n=500")
}

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

0.8

0
−1
log(x)

−3
−4
0.0

0.4

0.8

0.0

0.4

0.8
x

n=100

n=100

n=100

0.4

0.8

−1
log(x)

−4

−3

−2

−1
−2
−3
−4

−3

log(x)

−2

−1

0

x

0

x

−4
0.0

−2

−1
−4

−3

log(x)

−2

−1
−2

log(x)

−3
−4

0.4

0

0.0

log(x)

n=100

0

n=100

0

n=100

0.0

x

SGHIR AISSA sghir.aissa@gmail.com

0.4

0.8
x

0.0

0.4

0.8
x

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Logiciel R

Importation des chiers de Excel vers R :
Vous suivez les étapes suivantes :
• Enregistrez votre chier dans Excel sous Type : texte(séparateur :
tabulation),
• Sous R, vous écrivez : >X=read.table( le.choose(), header=T, sep="\t"),
• Une fenêtre s'ouvre pour parcourir votre chier où il se trouve,
• Exemple :
>mean(X [, 1]) ou bien >mean(X$nom colonne1) calcul la moyenne de la
premiere colonne.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Plan :

1

Le logiciel R

2

Statistique descriptive univariée

3

Statistique descriptive bivariée

4

Le package (Rcmdr) sous R

5

Analyse en composantes Principales (ACP)

6

Notions de probabilités et variables aléatoires

7

Échantillonnage et estimation

8

Tests des hypothèses

9

Analyse de la variance (ANOVA)

10

Modèle linéaire multiple
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Introduction

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Dans cet exemple et dans d'autres domaines, (biologie, géologie, physique,
chimie, nance, ...), les managers doivent pouvoir disposer d'outils
performants d'aide à la décision et l'analyse des informations recueillis.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

La statistique s'inscrit dans cette perspective et dont la dé nition est la
suivante :
La statistique est un ensemble de méthodes scienti ques dont l'objectif est
d'analyser, structurer et modéliser des informations numériques.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Les méthodes statistiques peuvent être classés en deux groupes :
1) Les Statistiques descriptives
Elle regroupe les méthodes dont l'objectif principal est la description des
données étudiées. Cette description des données se fait à travers leur
représentation graphique, et le calcul de résumés numériques. Dans cette
optique, on ne fait pas appel à des outils de type probabiliste.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

On cite trois types des statistiques descriptives :
Statistique descriptive univariée : étude de la population selon une seule
variable.
Statistique descriptive bivariée : étude des corrélations et relations
éventuelles entre deux variables de la même population.
Statistique descriptive multivariée : étude des relations éventuelles entre
plusieurs variables de la même population.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

2) La statistique inférentielle
Ce terme regroupe les méthodes dont l'objectif principal est de préciser un
phénomène sur une population globale, à partir de son observation sur un
échantillon de cette population. Ce passage ne se fait que moyennant des
hypothèses de type probabiliste.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Remarque
La statistique descriptive précède en général la statistique inférentielle dans
une démarche de traitement de données : les deux aspects de la statistique se
complètent bien plus qu'ils ne s'opposent.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Vocabulaires
Population : ensemble des individus objets de l'étude.
(Étudiants, entreprises, plantes, animaux, produits,...)
Échantillon : sous-ensemble issu de la population.
(Une classe, une ville, hommes, femmes,...)
Unité statistique : chaque individu.
(Un étudiant, une plante, un homme, une femme,...)

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Variable : caractère ou propriété mesuré sur chaque individu notée X ,Y ,...
(Note, taille, poids, sex, couleur,...)
Modalités : les valeurs possibles de la variable.
Série statistique : suite des valeurs prises par une variable X notées
(x1 , x2 , x3 , ...).

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Les variables sont classées en deux types :
Variable quantitative : les modalités sont mesurables ou repérables.
− Variable quantitative discrète : l'ensemble des modalités est ni ou
dénombrable : (Note, taille, poids, âge, mesure,...)

Variable quantitative continue : l'ensemble des modalités est un intervalle
ni ou in ni : ([8; 20[, [0; +∞[, R,...)


SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Variable qualitative : les modalités ne sont pas mesurables.
−Variable qualitative nominale : les modalités ne peuvent pas être
ordonnées : (sex, couleur,...)
−Variable

qualitative ordinale : les modalités peuvent être ordonnées : (taille
d'un vêtement : XXL, XL, L, M, S).

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

E ectif totale n : le nombre de toutes les valeurs prises par la variable.
E ectif ni : nombre d'apparitions de la valeur xi dans la population ou dans
l'échantillon.
J
X

ni = n1 + n2 + ... + nJ = n.

i=1

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Fréquence fi associée à la valeur xi

 fi = nni ,
J
P
fi = f1 + f2 + ... + fJ = 1.

i=1

Pourcentage pi associé à la valeur xi

 pi = 100 × fi %,
J
P
pi = p1 + p2 + ... + pJ = 100 %.

i=1

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

E ectif cumulé Ni

N = n1 ,

 1

N2 = n1 + n2 ,

 ..............................................
NJ = n1 + n2 + ... + nJ = n.

Fréquence cumulée Fi

F = f1 ,

 1

F2 = f1 + f2 ,


 ..............................................
FJ = f1 + f2 + ... + fJ = 1.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Remarque
Avant de citer les exemples de cette section, nous présentons un exemple
d'un modèle de questionnaire pour la collection des informations sur une
population.

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Variable qualitative nominale
On s'intéresse à la variable X =état-civil sur une population de n = 20
personnes. Considérons la série statistique suivante avec C : célibataire, M :
marié, V : veuf, D : divorcé.
MDMCCMCCCMCMVMVDCCMC
Tableau statistique
xi

C
M
V
D

ni

9
7
2
2

fi

0.45
0.35
0.10
0.10

SGHIR AISSA sghir.aissa@gmail.com

pi %

45
35
10
10

Ni

9
16
18
20

Fi

0.45
0.75
0.85
1

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Diagramme en secteurs
xi

C
M
V
D

pi %

45
35
10
10

di = pi × 3.6



162
126
36
36
C

D

V

M

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Code sous R :
>X=c(”M”, ”D”, ”M”, ”C ”, ”C ”, ”M”, ”C ”, ”C ”, ”C ”,

”M”, ”C ”, ”M”, ”V ”, ”M”, ”V ”, ”D”, ”C ”, ”C ”, ”M”, ”C ”)

>V1=c(table(X)) # e ectifs
#tableau statistique
> data.frame(nni=V1,NNi=cumsum(V1), =V1/sum(V1),
FFi=cumsum(V1/sum(V1)),ppi=(V1/sum(V1))*100,
PPi=cumsum((V1/sum(V1))*100))
> pie(V1,main="Diagramme en secteurs",radius=1.0) #Diagramme en secteurs

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Variable qualitative ordinale
On interroge une population de n = 50 personnes sur leur dernier diplôme :
Sd : Sans diplôme, P : Primaire, Se : Secondaire, Su : Supérieur
non-universitaire et U : Universitaire.
Sd Sd Sd Sd P P P P P P P P P P P Se Se Su
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su
Su Su Su Su U U U U U U U U U U U U Su

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Tableau statistique
xi

Sd
P
Se
Su
U

ni

Ni

4
11
14
9
12

4
15
29
38
50

fi

pi

0.08
0.22
0.28
0.18
0.24

8
22
28
18
24

Fi

0.08
0.30
0.58
0.76
1

Sd

P

Se

U
Su

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Variable quantitative discrète
Un quartier est composé d'une population de 50 ménages, et la variable X
représente le nombre de personnes par ménage. Les valeurs de la variable
sont :
1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

SGHIR AISSA sghir.aissa@gmail.com

1
3
3
4
5

2
3
3
4
6

2
3
3
4
6

2
3
3
4
6

2
3
3
4
8

2
3
4
5
8

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Diagramme en bâtonnets des e ectifs
xi

ni

5
9
15
10
6
3
2

Ni

5
14
29
39
45
48
50

fi

Fi

0.10
0.18
0.30
0.20
0.12
0.06
0.04

0.10
0.28
0.58
0.78
0.90
0.96
1

0

5

10

15

1
2
3
4
5
6
8

1

2

3

SGHIR AISSA sghir.aissa@gmail.com

4

5

6

8

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Fonction de répartition
Les fréquences cumulées sont représentées au moyen de la fonction de
répartition. Cette fonction est dé nie de R dans [0, 1] et vaut :

SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq

Le logiciel R
Statistique descriptive univariée
Statistique descriptive bivariée
Le package (Rcmdr) sous R
Analyse en composantes Principales (ACP)
Notions de probabilités et variables aléatoires
Échantillonnage et estimation
Tests des hypothèses
Analyse de la variance (ANOVA)
Modèle linéaire multiple

Statistique descriptive univariée

Code sous R :
>X=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,
3,3,4, 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
>V1=c(table(X)) # e ectifs
#tableau statistique
> data.frame(nni=V1,NNi=cumsum(V1), =V1/sum(V1),
FFi=cumsum(V1/sum(V1)),ppi=(V1/sum(V1))*100,
PPi=cumsum((V1/sum(V1))*100))
#Diagramme en bâtonnets des e ectifs
> plot(V1,type="h",xlab="",ylab="",main="Diagramme en bâtonnets",
frame=0,lwd=3)
# Fonction de répartition
>plot(ecdf(X),xlab="",ylab="",main="Fonction de répartition",frame=0)
SGHIR AISSA sghir.aissa@gmail.com

Biostatistique sous R et (Rcmdr) pour Master Bioinformatiq




Télécharger le fichier (PDF)

Master_BioStat sous R et Rcmdr2.pdf (PDF, 6 Mo)

Télécharger
Formats alternatifs: ZIP







Documents similaires


cours 2 de statistique
cours2 statistique stu s3
master biostat sous r et rcmdr2
master biostat sous spss2
cours1 statistique stu s3
master biostat sous r et rcmdr1

Sur le même sujet..