acpstid2 copy.pdf


Aperçu du fichier PDF acpstid2-copy.pdf - page 6/35

Page 1...4 5 67835



Aperçu texte


6

1. SAS ET STATISTIQUE DESCRIPTIVE

La troisi`eme ligne indique que la premi`ere colonne du fichier contient les valeurs de la variable
Taille, la deuxi`eme les valeurs de la variable Poids, etc. Le fait que la variable Sexe est suivie de
$ d´esigne le caract`ere qualitatif de cette variable. La quatri`eme ligne permet de d´ecrire clairement
les variables. Elle est tr`es utile lorsque la description d’une variable est longue. Par exemple, si
la variable d’int´erˆet est la dur´ee du travail, on peut la d´eclarer dans l’instruction INPUT comme
variable duree et ajouter l’instruction LABEL duree=’Duree du travail’. Ainsi, `a chaque impression de table de donn´ees on aura Duree du travail au lieu de duree en entˆete de colonne
correspondante, `a condition que la proc´edure PRINT soit appel´ee avec l’option LABEL. On termine
cette instruction DATA par la commande RUN. Les trois derni`eres lignes contiennent les options
d’affichage :
– afficher 70 caract`eres par ligne,
– afficher 66 lignes par page,
– ne pas afficher la date,
– ne pas afficher de titre,
– afficher Mon Premier Programme en bas de chaque page.
On termine cette section par donner un exemple d’´etape PROC.

1. PROC PRINT LABEL DATA=EXEMPLE1 NOOBS ;
2.
VAR Sexe Poids ;
3. RUN ;

µ

³

´

La premi`ere ligne appelle la proc´edure PRINT, dont le but est d’afficher les donn´ees, avec les
options LABEL, DATA et NOOBS. On a d´ej`a expliqu´e la fonction de l’option LABEL. L’option DATA
indique la table de donn´ees `a afficher. Si cette option n’est pas sp´ecifi´ee, la derni`ere table d´eclar´ee
sera affich´ee. L’option NOOBS (provenant de NO OBServations) permet de ne pas afficher la colonne
contenant les num´eros des observations. La deuxi`eme ligne indique que seules les variables Sexe
et Poids doivent ˆetre affich´ees.

1.2. Statistique descriptive unidimensionnelle
Dans cette section, on se place dans le cadre suivant : on dispose n observations x1 , . . . , xn
d’une variable quantitative X. Le but est de donner la d´efinition des quantit´es statistiques et de
d´ecrire leur champs d’utilisation. On se concentre surtout sur les quantit´es statistiques calculables `a
l’aide de la proc´edure UNIVARIATE de SAS (avec l’option VARDEF=N, indiquant que le d´enominateur
dans le calcul de l’´ecart-type est n).
On appelle souvent la suite x1 , . . . , xn ´echantillon ; n est alors la taille de cet ´echantillon.
`tres de position
Parame
– la moyenne (mean) : x
¯ = (x1 + . . . + xn )/n,
– la m´
ediane (median) : la valeur qui d´ecoupe l’´echantillon en deux parties comportant le
mˆeme nombre d’´el´ements,
– le mode (mode) : la valeur observ´ee la plus fr´equente.
`tres de variabilite
´ ou de dispersion
Parame






¡ Pn
¢1/2
l’´
ecart-type (std deviation) : σ
ˆ = n1 i=1 (xi − x
¯)2
,
la variance (variance) : σ
ˆ2,
l’´
etendue (range) : la diff´erence entre les valeurs extrˆemes,
l’´
ecart interquartile (interquartile range) : la diff´erence entre le 1er et le 3`eme quartiles,
le coefficient de la variation (coeff variation) : = 100 · σ
ˆ /¯
x.