TheorieStatDescriptiveNotionsdeProba2013 2014 .pdf



Nom original: TheorieStatDescriptiveNotionsdeProba2013-2014.pdf
Titre: C:/Users/GHaesbr/Documents/Cours/HEC-ULg/StatProbaBAC1/NotesCours/coursIG.dvi

Ce document au format PDF 1.5 a été généré par dvips(k) 5.991 Copyright 2011 Radical Eye Software / GPL Ghostscript 9.06, et a été envoyé sur fichier-pdf.fr le 23/08/2014 à 10:24, depuis l'adresse IP 109.133.x.x. La présente page de téléchargement du fichier a été vue 948 fois.
Taille du document: 1.3 Mo (117 pages).
Confidentialité: fichier public




Télécharger le fichier (PDF)










Aperçu du document


HEC - Ecole de Gestion

Statistique descriptive et notions de
probabilit´
e
Th´eorie

Ann´
ee Acad´
emique
2013–2014

Section:
Premier Bachelier en Ing´enieur de Gestion
Titulaire:
Gentiane Haesbroeck

Table des mati`
eres
0.1
0.2
0.3

I

Notice historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contenu du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Statistique descriptive

1 Notions de base
1.1 La population . . . . . . . . . .
1.2 Les variables . . . . . . . . . . .
1.2.1 Variables qualitatives . .
1.2.2 Variables quantitatives .
1.3 Les observations et les donn´ees
1.4 Transformation de donn´ees . . .

1
2
2

3
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

2 Organisation et repr´
esentation des donn´
ees
2.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Tableau des effectifs . . . . . . . . . . . . . . . . . . .
2.1.2 Distribution de fr´equences . . . . . . . . . . . . . . . .
2.1.3 Diagrammes en barres . . . . . . . . . . . . . . . . . .
2.1.4 Diagrammes en secteurs . . . . . . . . . . . . . . . . .
2.2 Variables quantitatives discr`etes . . . . . . . . . . . . . . . . .
2.2.1 R´epartition de la population . . . . . . . . . . . . . . .
2.2.2 Diagramme en bˆatons . . . . . . . . . . . . . . . . . .
2.2.3 Effectifs et fr´equences cumul´es . . . . . . . . . . . . . .
2.2.4 Courbe cumulatives des effectifs ou fr´equences cumul´es
2.3 Variables quantitatives continues . . . . . . . . . . . . . . . .
2.3.1 Groupement des donn´ees . . . . . . . . . . . . . . . . .
2.3.2 Histogramme . . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Polygone des effectifs ou des fr´equences . . . . . . . . .

i

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

4
4
4
5
6
8
9

.
.
.
.
.
.
.
.
.
.
.
.
.
.

11
11
12
13
13
14
15
15
16
17
18
19
22
26
31

ii

Statistique descriptive et notions de probabilit´e – Gentiane Haesbroeck
2.3.4
2.3.5

Ogive des effectifs ou fr´equences cumul´es . . . . . . . . . . . . . . . .
Lien entre l’ogive des fr´equences cumul´ees et l’histogramme de surface
unitaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Param`
etres de tendance centrale
3.1 Les moyennes . . . . . . . . . . . . . . . . . .
3.1.1 La moyenne arithm´etique . . . . . . .
3.1.2 Les moyennes arithm´etiques pond´er´ees
3.2 La m´ediane . . . . . . . . . . . . . . . . . . .
3.3 Les quantiles . . . . . . . . . . . . . . . . . .
3.4 Le mode . . . . . . . . . . . . . . . . . . . . .
3.5 Quel param`etre de tendance centrale choisir ?

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

4 Param`
etres de dispersion et de forme
4.1 Les param`etres de dispersion . . . . . . . . . . . . . . .
4.1.1 L’´etendue . . . . . . . . . . . . . . . . . . . . .
4.1.2 L’´ecart interquartile et les boˆıtes `a moustaches .
4.1.3 Param`etres de dispersion bas´es sur les “´ecarts”
4.1.4 Le coefficient de variation . . . . . . . . . . . .
4.1.5 Choix d’un param`etre de dispersion . . . . . . .
4.2 Les param`etres de forme . . . . . . . . . . . . . . . . .
4.2.1 Les param`etres de dissym´etrie . . . . . . . . . .
4.2.2 Les param`etres d’aplatissement . . . . . . . . .
5 S´
eries statistiques bivari´
ees
5.1 Organisation d’une s´erie statistique bivari´ee . .
5.1.1 Tableau de contingence . . . . . . . . . .
5.1.2 S´eries et distributions marginales . . . .
5.1.3 Repr´esentation graphique . . . . . . . .
5.1.4 Distributions conditionnelles . . . . . . .
5.2 R´eduction des donn´ees . . . . . . . . . . . . . .
5.2.1 Tendance centrale et dispersion des s´eries
5.2.2 Analyse bivari´ee . . . . . . . . . . . . . .
5.3 R´egression lin´eaire . . . . . . . . . . . . . . . .
5.3.1 Introduction . . . . . . . . . . . . . . . .
5.3.2 Droite de r´egression des moindres carr´es
5.3.3 Analyse des r´esidus . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

34
35

.
.
.
.
.
.
.

37
37
37
42
44
49
52
55

.
.
.
.
.
.
.
.
.

58
58
58
59
63
69
70
70
71
73

75
. . . . . . . . . . . . . . . . 75
. . . . . . . . . . . . . . . . 76
. . . . . . . . . . . . . . . . 77
. . . . . . . . . . . . . . . . 79
. . . . . . . . . . . . . . . . 82
. . . . . . . . . . . . . . . . 83
marginales ou conditionnelles 83
. . . . . . . . . . . . . . . . 85
. . . . . . . . . . . . . . . . 90
. . . . . . . . . . . . . . . . 90
. . . . . . . . . . . . . . . . 90
. . . . . . . . . . . . . . . . 91

iii

Statistique descriptive et notions de probabilit´e – Gentiane Haesbroeck
6 Quelques applications utiles en gestion
6.1 Analyse des effet sp´ecifique et de structure . . .
6.2 Moyennes g´eom´etrique, harmonique et d’ordre k
6.2.1 Moyenne g´eom´etrique . . . . . . . . . . .
6.2.2 Moyenne harmonique . . . . . . . . . . .
6.2.3 moyenne d’ordre k . . . . . . . . . . . .

II

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

El´
ements de probabilit´
e

1 Espace probabilis´
e
1.1 Ensemble fondamental et ´ev´enements . . . . . . . . . . . . .
1.2 Alg`ebre des ´ev´enements . . . . . . . . . . . . . . . . . . . .
1.3 D´efinition de la probabilit´e . . . . . . . . . . . . . . . . . . .
1.3.1 Approche intuitive de la probabilit´e . . . . . . . . . .
1.3.2 Approche fr´equentiste de la probabilit´e . . . . . . . .
1.3.3 D´efinition axiomatique de la probabilit´e et propri´et´es
1.4 Calcul de la probabilit´e . . . . . . . . . . . . . . . . . . . . .
2 Probabilit´
e conditionnelle et ind´
ependance stochastique
2.1 Probabilit´e conditionnelle . . . . . . . . . . . . . . . . . . .
2.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 D´efinition . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Probabilit´es compos´ees . . . . . . . . . . . . . . . . .
2.1.4 Formule des probabilit´es totales et formules de Bayes
2.2 Ind´ependance stochastique . . . . . . . . . . . . . . . . . . .
2.3 Arbres de probabilit´e et arbres de d´ecisions . . . . . . . . . .
2.3.1 Arbre de probabilit´e . . . . . . . . . . . . . . . . . .
2.3.2 Arbre de d´ecisions . . . . . . . . . . . . . . . . . . .
Bibliographie

94
94
97
97
98
98

100
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

101
101
102
103
103
103
104
105

.
.
.
.
.
.
.
.
.

107
107
107
108
108
109
110
111
111
112
113

Introduction
Comment ´echapper aux “statistiques”? A la radio ou `a la t´el´evision, dans les journaux,
abondent sondages et referendums, tableaux et graphiques. Mˆeme si c’est dans l’information
que les effets sont les plus visibles, d’autres aspects de notre vie de tous les jours sont
influenc´es par les statistiques. Dans la soci´et´e de consommation dans laquelle nous vivons,
la plus grande partie des marchandises et services qui nous sont propos´es ont des coˆ
uts fix´es
apr`es ´etude statistique.
Cependant, “Les chiffres disent toujours ce que veut l’homme habile qui sait en jouer”
(Macauley). Il est donc primordial pour chacun d’ˆetre suffisamment form´e pour ˆetre un
lecteur critique, un consommateur avis´e et un citoyen responsable.
L’Universit´e l’a bien compris puisqu’elle propose un cours de statistique dans la plupart
des fili`eres d’´etudes.

0.1

Notice historique

A l’origine, la statistique ´etait la comptabilit´e de l’´etat, et c’est de l`a qu’elle tire son nom.
Le mot statistique, utilis´e pour la premi`ere fois en 1672, d´erive ´etymologiquement du mot
latin status (´etat). On peut dire qu’il y a eu des statistiques d`es que les ´etats ont commenc´e
`a estimer n´ecessaire de rassembler des donn´ees sur la composition de leur population, les
impˆots pay´es par les citoyens, les besoins de l’arm´ee, les productions agricoles, les effets
d’une maladie contagieuse,... Un recensement c´el`ebre est celui qu’Auguste ordonna d´ej`a `a
l’´epoque de la naissance du Christ. Les premi`eres ´etudes de donn´ees statistiques se trouvent
surtout en Angleterre. De John Graunt (1620–1674) `a Thomas Robert Malthus (1766–1834),
l’attention se portait principalement sur les probl`emes d´emographiques et la description de
divers aspects d’une population (mortalit´e, f´econdit´e, proportions des deux sexes,...). On
trouve la premi`ere exploitation syst´ematique, rationnelle et orient´ee vers des conclusions,
de donn´ees scientifiques dans l’ouvrage “Sur l’homme et le d´eveloppement de ses facult´es.
Essai d’une physique sociale” (1835) de notre compatriote Adolphe Quetelet (1796–1874).
D’apr`es ses recherches anthropologiques, les grandeurs biologiques suivent toutes ce que l’on
appelle une distribution normale. Quetelet contribua de fa¸con importante `a la fondation
1

Statistique descriptive et notions de probabilit´e – Gentiane Haesbroeck

2

de la Royal Statistical Society de Londres (1835) et de l’American Statistical Society (1839)
et parvint `a faire se tenir `a Bruxelles le premier congr`es international de statistique. Le
but principal de ce congr`es, et de nombreux autres congr`es post´erieurs, fut la d´efinition
de m´ethodes tendant `a rendre comparables internationalement les r´esultats statistiques des
divers pays participants. Quetelet est appel´e le fondateur de la statistique moderne.
Depuis le 17`eme si`ecle d´ej`a, le calcul des probabilit´es ´etait appliqu´e `a l’analyse des
donn´ees statistiques et `a la formulation d’hypoth`eses statistiques, entre autres par les Anglais
Halley et de Moivre, les Suisses Bernoulli et Euler, les Fran¸cais Laplace et Poisson.
La statistique, dite math´ematique, issue de ces travaux, joue un rˆole important d’auxiliaire
dans presque toutes les branches de l’activit´e scientifique.

0.2


efinition

La statistique est la science du d´enombrement. Elle mesure et analyse des ph´enom`enes qui
se produisent un grand nombre de fois.
Exemple 1 Les statistiques nationales font ´etat de 43.303 mariages c´el´ebr´es en 2009 en
Belgique, 32.606 divorces ayant ´et´e enregistr´es la mˆeme ann´ee. (Source: Direction g´en´erale
Statistique et Information ´economique - Direction th´ematique Soci´et´e).
Exemple 2 “Le tram de la cˆote belge a transport´e 1.478 million de voyageurs en juillet, ce
qui repr´esente pr`es de 60.000 personnes par jour, et mˆeme plus de 74.000 le jour de la fˆete
nationale.” (Source: l’hebdomadaire Le Vif L’express du 6 aoˆ
ut 2010).
Nous adopterons la d´efinition suivante:
La statistique est la science qui rassemble, organise, r´esume et analyse des donn´ees et
qui permet d’interpr´eter les r´esultats et de tirer des conclusions afin d’aider `a la prise de
d´ecisions.

0.3

Contenu du cours

La premi`ere partie de ce cours de premier bachelier est consacr´ee `a la statistique descriptive
dont le but essentiel est de pr´esenter l’information disponible d’une fa¸con compr´ehensible et
condens´ee. De tr`es nombreux ouvrages pr´esentent cette mati`ere. Ce sont surtout les livres
de Dehon, Droesbeke et Vermandele (2008), Bragard et Alexandre (1995) et Dodge (1999)
qui sont utilis´es comme r´ef´erence.
La seconde partie introduit les notions de base de la th´eorie des probabilit´es en suivant
de pr`es l’approche propos´ee par Leboeuf, Roque et Guegand (1987).
Notons enfin que les notices historiques proviennent principalement du dictionnaire encyclop´edique r´edig´e par Y. Dodge (2007).

Part I
Statistique descriptive

3

Chapitre 1
Notions de base
La statistique repose sur les concepts de base suivants: la population, les variables, les
observations et les donn´ees. Ce chapitre, inspir´e de Dodge (1999), d´eveloppe leurs d´efinitions.

1.1

La population

La population est l’ensemble de toutes les unit´es observ´ees.
Exemple 3 Dans une ´etude sur l’emploi, la population est l’ensemble des personnes en aˆge
de travailler. Dans un sondage d’opinion pour les ´elections communales, la population est
constitu´ee de l’ensemble des ´electeurs d’une commune. Dans une ´etude sur la dur´ee de vie
d’une ampoule d’un type donn´e, la population est l’ensemble des ampoules de ce type sortant
de la chaˆıne de production.
Les ´el´ements d’une population statistique n’´etant pas n´ecessairement des ˆetres humains mais
pouvant ˆetre des choses, des ´ev´enements,..., il faut g´en´eraliser l’acception habituelle du terme
population.
Les ´el´ements de la population sont appel´es individus ou unit´es statistiques. Le nombre
total d’individus de la population est appel´e effectif de la population.

1.2

Les variables

Les ´el´ements d’une population poss`edent la caract´eristique commune d’appartenir `a la mˆeme
population mais ils peuvent diff´erer selon d’autres crit`eres. Par exemple, les ´etudiants de
premier bachelier en ing´enieur de gestion ont choisi les mˆemes ´etudes mais pratiquent des
sports diff´erents, habitent dans des communes diff´erentes... En statistique, ces caract´eristiques sont appel´ees des caract`eres ou des variables. Elles servent `a d´ecrire la population
en question. Elles sont directement mesur´ees sur chaque unit´e de la population.
4

5
Une variable est d´esign´ee par un nom et est souvent not´ee X, Y ou Z tandis que ses
diff´erentes valeurs possibles sont appel´ees modalit´es.
Exemple 4 La variable qui distingue les sexes peut ˆetre libell´ee “Sexe” et comprend les deux
modalit´es “Masculin” et “F´eminin”. La variable donnant l’activit´e socio-professionnelle du
chef de famille peut ˆetre appel´ee simplement “Profession” et a, par exemple, comme modalit´es
les cat´egories “Pensionn´e”, “Ouvrier”, “Employ´e”, “Cultivateur”, “Commer¸cant”, “Industriel-Entrepreneur”, “Enseignant”, et “Professions lib´erales”.
Les diff´erentes valeurs prises par les individus pour les variables permettent de les classer
dans certains sous-ensembles. Le classement ne pourra se faire sans ambiguit´e que si les
modalit´es des variables sont mutuellement exclusives (un individu ne peut appartenir `a deux
cat´egories `a la fois) et exhaustives (tout individu se trouve dans au moins une cat´egorie).
Nous verrons dans la suite que les classes construites sur les valeurs prises par les variables
statistiques pourront ˆetre ordonn´ees sur des ´echelles de qualit´e diff´erente selon le type de la
variable. En effet, on distingue habituellement deux cat´egories de variables:
• Les variables quantitatives qui peuvent ˆetre mesur´ees ou ´enum´er´ees;
• Les variables qualitatives qui ne peuvent ˆetre ni mesur´ees ni d´enombr´ees mais seulement
constat´ees.
Ces deux cat´egories de variables, ainsi que les ´echelles permettant de comparer leurs modalit´es,
sont d´ecrites ci-dessous.

1.2.1

Variables qualitatives

Une variable qualitative est une variable dont les modalit´es ne sont pas les r´esultats d’une
mesure, et sont d`es lors appel´ees cat´egories ou attributs. Par exemple, la variable “Sexe” est
qualitative, de mˆeme que la variable “Profession”. Une variable qualitative qui ne poss`ede
que deux cat´egories est dichotomique. La variable “sexe” est une telle variable ainsi que la
variable “Fumeur” dont les cat´egories sont “oui” ou “non”.
Les modalit´es d’une variable qualitative peuvent ˆetre class´ees `a partir d’une ´echelle nominale ou d’une ´echelle ordinale:
• Echelle nominale: lorsque les cat´egories d’une variable ne sont pas naturellement ordonn´ees, cette variable est d´efinie sur une ´echelle nominale. C’est le cas des variables
“Sexe” et “Profession”.
• Echelle ordinale: lorsque les cat´egories peuvent ˆetre ordonn´ees, la variable est d´efinie
sur une ´echelle ordinale. Habituellement, cet ordre ne permet pas de d´eterminer la

6
magnitude des diff´erences entre les groupes. Ce type d’´echelle est particuli`erement
utilis´e lorsqu’il s’agit d’´evaluer une situation, une performance, une satisfaction.
En marketing et en psychologie, les variables qualitatives sont fr´equemment mesur´ees
sur une telle ´echelle et plus particuli`erement sur l’´echelle dite de Likert (du nom du
psychologue am´ericain Rensis Likert). Cette ´echelle est exploit´ee principalement dans
des sondages ou questionnaires et permet aux personnes interrog´ees d’exprimer leur
accord ou d´esaccord via-`a-vis d’une affirmation donn´ee.
Exemple 5 Un sondage exclusif RTL/Belga/IVOX men´e auprs de 1045 Belges en
juillet 2013 revient sur les d´ecisions prises au sommet de l’Etat. A l’affirmation suivante Le Roi Albert II a ´et´e un bon roi, 56% des personnes interrog´ees se sont d´eclar´ees
tout `
a fait d’accord, 33% sont plut^
ot d’accord, 2% pas du tout d’accord,
1% plut^
ot pas d’accord, le reste des sond´es n’´etant ni en d´
esaccord ni d’accord.
En g´en´eral, l’´echelle de likert contient cinq ou sept propositions. Dans ce contexte
d’´echelles impaires, le niveau central permet de n’exprimer aucun avis. Les ´echelles
paires (par exemple `a quatre modalit´es) sont dites “`a choix forc´e” puisqu’`a chaque
r´eponse est attribu´ee une note positive ou n´egative.

1.2.2

Variables quantitatives

Une variable quantitative est une variable dont les modalit´es ont des valeurs num´eriques.
Citons, par exemple, l’ˆage, le revenu, la taille, le nombre d’enfants dans une famille,...
Les modalit´es repr´esentent l’ensemble des valeurs possibles de la variable.
Exemple 6 La variable “Nombre d’enfants” pourrait avoir comme modalit´es les nombres entiers 0,1,2,3,... tandis que la variable “Revenu” peut prendre n’importe quelle
valeur r´eelle positive ou nulle.
Les variables quantitatives d´ependent de l’unit´e dans laquelle elles sont exprim´ees.
Par exemple, la taille peut ˆetre mesur´ee en m`etres ou en centim`etres, le revenu en
dollars ou en euros. L’unit´e choisie d´epend souvent de la pr´ecision de l’appareil de
mesure utilis´e. Lorsque la pr´ecision est grande, les valeurs ou modalit´es d’une variable
quantitative peuvent ˆetre tr`es nombreuses. Souvent, de telles mesures donnent lieu `a
des groupements en classes.
Exemple 7 Les statistiques financi`eres donnent le revenu net imposable de tous les
d´eclarants du Royaume. Les statistiques officielles publi´ees par le SPF Economie,

7
PME, Classes Moyennes et Energie regroupent les revenus en classes en pr´ecisant le
nombre de contribuables se trouvant dans chaque tranche de revenus et en indiquant la
masse totale de leurs revenus.
Une distinction importante parmi les variables quantitatives concerne leur caract`ere
discret ou continu:
– Variable discr`ete: une variable quantitative est discr`ete si ses valeurs possibles
peuvent ˆetre ´enum´er´ees. Habituellement, il y a des “trous” entre les valeurs
distinctes de la variable. Typiquement, les variables discr`etes s’obtiennent par un
proc´ed´e de comptage.
Exemple 8 Le nombre d’enfants d’une famille est 0, 1, 2, 3,..., mais ne peut pas
ˆetre 2,5 ou 3,7.
– Variable continue: une telle variable peut prendre n’importe quelle valeur dans
un intervalle qui lui est propre. Typiquement, les variables continues s’obtiennent
par une mesure.
Exemple 9 Le revenu d’un contribuable belge peut ˆetre n’importe quelle valeur
positive; le poids d’un nouveau n´e peut varier de 1 kg `
a 5 kg, le poids pouvant ˆetre
3,3 kg, 3,32 kg ou 3,321 kg selon la pr´ecision de la balance.
De plus, les variables quantitatives, continues ou discr`etes, sont principalement mesur´ees
selon des ´echelles d’intervalle ou de rapport.
– Echelle d’intervalle: elle inclut toutes les caract´eristiques de l’´echelle ordinale
mais de plus, elle permet de tenir compte de la diff´erence entre deux valeurs
d’une variable. Par contre, les rapports entre les valeurs d’une telle ´echelle n’ont
pas de sens. En outre, la valeur z´ero comme donn´ee ne signifie pas une absence
de la caract´eristique ´etudi´ee. Autrement dit, le z´ero est un z´ero arbitraire.
Exemple 10 Dans le cadre d’un recensement de la population, on demande l’ann´ee
de naissance. Avec une telle variable, il n’est pas possible d’´etablir de rapports entre les donn´ees. Cependant, l’intervalle de 20 ans entre les dates de naissance de
deux personnes signifie qu’ils ont 20 ans de diff´erence. De plus, l’ann´ee z´ero fait
r´ef´erence `
a la naissance de J´esus-Christ mais cette ann´ee z´ero aurait pu ˆetre fix´ee
a n’importe quel autre moment. Notons de plus qu’ˆetre n´e lors de l’ann´ee z´ero
`
n’implique pas l’absence de date de naissance.
– Echelle de rapport: il s’agit de l’´echelle la plus riche en propri´et´es. Elle poss`ede un
z´ero naturel qui indique l’absence du ph´enom`ene ´etudi´e. Diff´erences et rapports
entre valeurs y ont un sens (sauf quand on divise par la donn´ee z´ero).

8
Exemple 11 Les variables “Revenu”, “Taille”, “Nombre d’enfants”,... utilisent
une telle ´echelle pour exprimer leurs valeurs. Avoir un revenu ´egal a` z´ero Euro
signifie qu’on n’a pas de revenu. De plus, une personne peut poss´eder un revenu
deux fois sup´erieur `
a celui de son voisin.
Les variables quantitatives peuvent aussi s’exprimer sur les ´echelles plus pauvres pr´esent´ees
pour les variables qualitatives, mais cela entraˆıne une perte d’informations.

1.3

Les observations et les donn´
ees

Les r´esultats observ´es d’une ou plusieurs variables sur les individus d’une population
constituent les observations. Celles-ci ´etant propres `a chacun des individus de la population, elles ont des valeurs fixes, ce qui n’est pas le cas de la variable qui change d’un
´el´ement `a l’autre.
Dans certaines ´etudes, des contraintes de temps ou budg´etaires ou encore des impossibilit´es mat´erielles ne permettent pas d’observer chaque individu de la population.
Une partie des unit´es statistiques est alors s´electionn´ee pour constituer un ´echantillon
auquel l’analyse statistique est appliqu´ee. Lorsque l’´echantillon respecte certaines propri´et´es, les r´esultats obtenus `a partir de ses ´el´ements sont ´elargis `a la population
compl`ete. La cr´edibilit´e `a accorder `a ces r´esultats d´epend de l’accord plus ou moins
´etroit des ´el´ements de l’´echantillon avec les ´el´ements de la population. On parle alors
du probl`eme de la repr´esentativit´e de l’´echantillon. Les notions d’´echantillon et de sa
repr´esentativit´e par rapport `a la population totale ne seront pas discut´ees dans ce cours
mais les m´ethodes de statistique descriptive introduites seront illustr´ees aussi bien sur
des populations que sur de simples ´echantillons.
Si on travaille avec p variables et n individus, l’ensemble des observations r´ecolt´ees
peut se pr´esenter sous la forme du Tableau 1.1 `a n lignes et p colonnes (sans compter
celle contenant les indices 1, . . . , n) appel´e tableau individus × caract`eres.
Une colonne correspond `a un caract`ere ´etudi´e (ou `a une variable) tandis que chaque
ligne d´ecrit un individu de la population (ou de l’´echantillon). L’´el´ement xij `a l’intersection
de la i`eme ligne et de la j`eme colonne est la valeur observ´ee de la j`eme variable sur le
i`eme individu. Cette valeur xij est soit un nombre (la j`eme variable est quantitative),
soit une expression (la j`eme variable est qualitative).
Pour faciliter le traitement informatique des grands ensembles de donn´ees par des
logiciels statistiques, les cat´egories des variables qualitatives sont parfois cod´ees par
les chiffres 1,2,3,... Evidemment, cela doit rester clair, dans l’esprit de l’utilisateur des

9

Tableau 1.1: Tableau individus × caract`eres
Individus
1

Variables
...
j
...

p

1
..
.

x11
..
.

...
..
.

x1j
..
.

...
..
.

x1p
..
.

i
..
.

xi1
..
.

...
..
.

xij
..
.

...
..
.

xip
..
.

n

xn1

...

xnj

...

xnp

donn´ees, que ces valeurs num´eriques associ´ees aux variables qualitatives ne sont que
des codes et ne peuvent donc pas ˆetre manipul´ees alg´ebriquement comme les valeurs
des variables quantitatives.
Dans les chapitres suivants, les m´ethodes statistiques pr´esent´ees seront illustr´ees `a
partir de divers ensembles de donn´ees. En particulier, un ensemble de donn´ees mesur´ees
sur des ´etudiants de premier bachelier en Ing´enieur de gestion.

1.4

Transformation de donn´
ees

Les s´eries statistiques concernant des variables ´economiques doivent permettre de comparer diff´erentes populations. Par exemple, si l’on s’int´eresse au march´e automobile
dans les pays de l’Union Europ´enne, on peut penser comparer les nombres de voitures
en circulation dans ces pays. Cependant, cette comparaison des valeurs brutes n’a pas
de sens car les nombres d’individus susceptibles d’avoir une voiture sont fort diff´erents
selon les pays. Pour pouvoir comparer ces quantit´es, il faut imposer une base de
comparaison commune.
Pour ce faire, on transforme les donn´ees en proportions ou en pourcentages ou encore
en taux.
1. La proportion indique quelle partie de la population correspond `a une des cat´egories
de la variable ´etudi´ee. Une proportion est un nombre entre 0 et 1 et s’obtient en
divisant le nombre d’unit´es de la population poss´edant la caract´eristique voulue
par l’effectif total de la population.
2. Le pourcentage indique, sur une base de 100, quelle partie de la population correspond `a une des cat´egories de la variable ´etudi´ee. Il s’obtient en multipliant la
proportion par 100.

10
3. Le taux indique, sur une base de 1, 10, 100, 1000,... quelle partie de la population
correspond `a une des cat´egories de la variable ´etudi´ee. Il est obtenu en divisant
le nombre d’unit´es poss´edant la caract´eristique voulue par l’effectif total et en
multipliant le r´esultat par la base 1, 10, 100,... Lorsque la base est ´egale `a 100,
le taux co¨ıncide avec le pourcentage et se note avec le signe %. Le choix de
la base d´epend soit d’une convention, soit de la fr´equence d’occurrence de la
caract´eristique.
D’autres transformations de donn´ees permettent de caract´eriser l’´evolution temporelle
des valeurs (ou des pourcentages d’une modalit´e) d’une variable. Ces transformations
se font souvent `a l’aide des pourcentages de variation dans le temps.
Un pourcentage de variation dans le temps mesure le pourcentage d’augmentation ou
de diminution qu’une variable a subi dans le temps. Il se calcule de la mani`ere suivante:
% de variation =

valeur finale − valeur initiale
× 100,
valeur initiale

(1.1)

o`
u valeur initiale et valeur finale repr´esentent respectivement les valeurs (ou les pourcentages d’une modalit´e) de la variable `a l’instant initial et `a l’instant final. Si le
pourcentage de variation est positif (resp. n´egatif), cela signifie qu’il y a eu une augmentation (resp. diminution) de la valeur entre les deux p´eriodes.

Chapitre 2
Organisation et repr´
esentation des
donn´
ees
Dans ce chapitre, on ne consid`ere que des s´eries univari´ees obtenues par l’observation
d’une seule variable (p = 1) sur une population de taille n. On notera la variable
d’int´erˆet X. Le tableau individus × caract`eres ne contenant qu’une colonne, les notations peuvent ˆetre simplifi´ees en exploitant un seul indice se rapportant aux n individus.
La valeur prise par la variable pour l’individu i est donc simplement xi (i = 1, . . . , n)
et la s´erie telle qu’observ´ee peut ˆetre d´ecrite par S = {x1 , x2 , . . . , xn }.
Des tableaux et graphiques, sp´ecifiques aux variables qualitatives ou quantitatives, sont
pr´esent´es afin de donner un premier aper¸cu des caract´eristiques propres aux donn´ees.
D’autres r´esum´es graphiques, plus sophistiqu´es, seront d´efinis au Chapitre 4. De
mˆeme, la repr´esentation graphique des s´eries multivari´ees (obtenues par l’observation
de plusieurs variables sur les individus d’une mˆeme population) sera ´evoqu´ee au chapitre
5.

2.1

Variables qualitatives

Cette section concerne des variables qualitatives mais s’applique aussi aux variables
quantitatives mesur´ees sur une ´echelle ordinale. Consid´erons que la variable qualitative
X corresponde `a J modalit´es m1 , m2 , . . . , mJ et soit observ´ee sur une population de n
individus.

11

12

2.1.1

Tableau des effectifs

La premi`ere op´eration de mise en ordre des donn´ees consiste `a d´enombrer le nombre
d’individus se trouvant dans chacune des cat´egories de la variable et de transcrire
ces informations dans un tableau qui r´ev`ele rapidement et clairement la structure
des donn´ees. Notons n1 le nombre d’unit´es statistiques ayant pour modalit´e m1 , n2 le
nombre d’unit´es ayant pour modalit´e m2 , et ainsi de suite pour n3 , . . . , nJ . Les nombres
n1 , . . . , nJ sont les effectifs des modalit´es de la variable. Ils d´efinissent la r´epartition
de la population selon la variable X et sont souvent communiqu´es via le Tableau 2.1
appel´e tableau des effectifs.
Tableau 2.1: Tableau des effectifs
Modalit´es de la variable

Effectifs

m1
m2
..
.

n1
n2
..
.

mJ

nJ

Comme chaque individu de la population se trouve dans une et une seule cat´egorie, la
somme des effectifs correspond au nombre total d’unit´es statistiques dans la population:
J
X

nj = n.

j=1

Lorsque la variable est ordinale, le tableau des effectifs pr´esente habituellement les
modalit´es dans leur ordre naturel.
Exemple 12 Consid´erons la s´erie obtenue en demandant la cat´egorie professionelle
du chef de famille d’un groupe de 81 ´etudiants inscrits en premier bachelier en gestion. La variable “Profession” est une variable qualitative nominale qui poss`ede les
8 modalit´es suivantes: “Pensionn´e”, “Ouvrier”, “Employ´e”, “Cultivateur”, “Commer¸cant”, “Industriel–Entrepreneur”, “Enseignant”, “Professions lib´erales”. En codant ces cat´egories par les chiffres de 1 `
a 8 respectivement et en ignorant les indices
des observations, cette s´erie de 81 valeurs est donn´ee par
7, 6, 6, 6, 8, 3, 3, 6, 3, 7, 3, 8, 7, 6, 3, 8, 8, 8, 8, 6, 1, 7, 3, 7, 3, 3, 7, 7, 6, 3, 7, 3, 3, 2, 2, 3, 8, 7, 3, 3,
7, 3, 2, 7, 8, 8, 6, 3, 3, 5, 8, 3, 3, 3, 3, 7, 7, 3, 2, 3, 8, 5, 8, 7, 3, 5, 3, 6, 8, 3, 8, 3, 7, 8, 6, 7, 3, 8, 7, 6, 7.
Le Tableau 2.2 d´ecrit la distribution des effectifs.

13

Tableau 2.2: Tableau des effectifs pour la variable “Profession” sur l’ensemble de donn´ees
“Etudiants IG”
Cat´egories

2.1.2

Effectifs

Pensionn´e (1)
Ouvrier (2)
Employ´e (3)
Cultivateur (4)
Commer¸cant (5)
Industriel–Entrepreneur (6)
Enseignant (7)
Professions lib´erales (8)

1
4
28
0
3
11
18
16

Total

81

Distribution de fr´
equences

Le tableau des effectifs d´ecrit la r´epartition de la population en termes absolus. En
rempla¸cant les effectifs par des pourcentages ou des proportions, on obtient une description relative donnant lieu `a la distribution des fr´equences.
La fr´equence fi de la modalit´e mi , i = 1, . . . , J, est d´efinie par la proportion relative `a
la modalit´e mi , c’est-`a-dire le rapport
fi =

ni
.
n

L’ensemble des ratios f1 , . . . , fJ calcul´es pour les diff´erentes modalit´es de la variable
P
fournit la distribution de fr´equences. Les fr´equences v´erifient la relation Jj=1 fj = 1 et
peuvent ˆetre ajout´ees dans une nouvelle colonne dans le tableau des effectifs qui sera
ensuite simplement appel´e tableau statistique. Souvent, les fr´equences sont traduites
en pourcentages en multipliant les proportions fi par 100.

2.1.3

Diagrammes en barres

La r´epartition de la population et sa distribution de fr´equences peuvent ˆetre visualis´ees
sur un diagramme en barres. Pour construire un diagramme en barres, on associe `a
chaque modalit´e distincte observ´ee une colonne verticale (ou horizontale) dont la base
n’a pas de signification mais dont la hauteur (ou longueur) repr´esente l’effectif ou la
fr´equence de la modalit´e. Les diff´erentes colonnes sont repr´esent´ees l´eg`erement espac´ees
comme le montre la Figure 2.1.

14

Figure 2.1: Diagramme en barres pour une variable qualitative

Si l’´echelle de mesure est ordinale, l’ordre de pr´esentation des modalit´es est ´evident.
Dans le cas nominal, le choix est plus arbitraire, mais revient souvent `a placer les
modalit´es dans l’ordre croissant des effectifs.
Exemple 13 La Figure 2.2 repr´esente, par un diagramme en barres bas´e sur les effectifs donn´es au Tableau 2.2, la r´epartition de cette population d’´etudiants suivant la
variable “Profession”.

Figure 2.2: Diagramme en barres pour la variable “Profession” observ´ee sur l’ensemble de
donn´ees “Etudiants 1 BAC Gestion”

2.1.4

Diagrammes en secteurs

La r´epartition de la population et sa distribution de fr´equences sont parfois plus expressives lorsqu’on les repr´esente `a l’aide d’un diagramme en secteurs (ou camembert, ou,
en anglais, pie-chart). Le diagramme en secteurs consiste `a repr´esenter la population

15
totale par un disque et `a associer `a chaque modalit´e un secteur circulaire dont l’aire est
proportionnelle `a son effectif ou sa fr´equence. Pour construire un tel diagramme, on
doit convertir les fr´equences en degr´es. Le disque a un angle au centre de 360 degr´es
et l’aire d’un secteur circulaire est proportionnelle `a son angle au centre. La i`eme
modalit´e de fr´equence ´egale `a fi est donc associ´ee `a un secteur dont l’angle au centre
vaut 360 × fi degr´es.
Exemple 14 La Figure 2.3 repr´esente, par un diagramme en secteurs, la r´epartition
de la population “Etudiants IG” suivant la variable “Profession”. On peut v´erifier que
28
× 360 degr´es
l’angle au centre α du secteur associ´e `
a la modalit´e “Employ´e” vaut 81
≈ 124 degr´es.

Figure 2.3: Diagramme en secteurs “´eclat´es” pour la variable “Profession” observ´ee sur
l’ensemble de donn´ees “Etudiants IG”

Les repr´esentations des diagrammes circulaires sont fort vari´ees. Certains secteurs
peuvent ˆetre d´etach´es par rapport aux autres (comme dans l’exemple 14), le camembert
peut ˆetre dessin´e en trois dimensions,...

2.2
2.2.1

Variables quantitatives discr`
etes

epartition de la population

Les modalit´es d’une variable quantitative discr`ete sont des valeurs num´eriques, souvent
exprim´ees en nombres entiers. Les modalit´es sont donc discontinues tout en respectant

16
un ordre naturel comme une variable qualitative ordinale. Notons les diff´erentes valeurs
prises par la variable x1 , . . . , xJ avec, par convention, x1 < . . . < xJ . En triant les
unit´es statistiques d’une population selon ces valeurs, on obtient les effectifs n1 , . . . , nJ
d´ecrivant la r´epartition de la population. Les effectifs divis´es par l’effectif total n
donnent les fr´equences f1 , . . . , fJ et tous ces r´esultats peuvent ˆetre r´esum´es dans un
tableau statistique.
Exemple 15 La quatri`eme variable ´etudi´ee sur les ´etudiants de premier bachelier I.G.
concerne le nombre d’enfants des familles correspondantes. Cette variable “Nombre
d’enfants” est quantitative discr`ete et les valeurs observ´ees sont 1, 2, 3, 4 et 6. Le
tableau 2.3 r´esume les informations statistiques disponibles.
Tableau 2.3: Tableau statistique pour la variable “Nombre d’enfants” pour les donn´ees
“Etudiants IG”
Valeurs
1
2
3
4
5
6

enfant
enfants
enfants
enfants
enfants
enfants

Total

2.2.2

Effectifs

Fr´equences

11
45
16
9
0
1

0.13
0.55
0.20
0.11
0
0.01

82

1

Diagramme en bˆ
atons

Les effectifs et fr´equences peuvent aussi ˆetre report´es sur un diagramme. Cependant, `a
la diff´erence des variables qualitatives, les valeurs des variables quantitatives sont des
quantit´es num´eriques qui peuvent ˆetre plac´ees sur l’axe des r´eels. Dans ce contexte,
le diagramme `a barres pr´esent´e dans le cas qualitatif se transforme en diagramme en
bˆatons. Ce diagramme consiste `a construire, dans un syst`emes d’axes orthogonaux,
des segments de droite (des bˆatons) parall`eles `a l’axe des ordonn´ees, ´elev´es `a partir des
abscisses xj , j = 1, . . . , J, et dont la hauteur est ´egale `a l’effectif ou la fr´equence de la
valeur correspondante.
Exemple 16 La Figure 2.4 repr´esente le diagramme en bˆatons construits a` partir des
effectifs de la variable “Nombre d’enfants” calcul´es dans le tableau 2.3.

17

Figure 2.4: Diagramme en bˆatons pour la variable “Nombre d’enfants” sur l’ensemble de
donn´ees “Etudiants IG”

2.2.3

Effectifs et fr´
equences cumul´
es

Au lieu de s’int´eresser `a une valeur particuli`ere xj de la variable, on peut s’int´eresser
`a l’ensemble des valeurs de la variable inf´erieures ou ´egales `a xj .
Exemple 17 Dans l’exemple 15, on constate que 11 familles ont exactement un enfant, 45 familles en ont 2,... Le nombre de familles ayant au plus 2 enfants est donc
11 + 45 = 56.
L’effectif de cet ensemble de valeurs est appel´e effectif cumul´e de xj et est d´efini par
Nj =

j
X

ni .

i=1

On v´erifie ais´ement que
N1 = n1 , Nj = Nj−1 + nj , j = 2, . . . , J − 1, NJ = n.
Au lieu de parler en terme d’effectifs, on peut exprimer l’importance relative du nombre
d’observations inf´erieures ou ´egales `a xj par rapport au nombre total d’observations
en utilisant la fr´equence cumul´ee Fj de xj . Par d´efinition,
Fj =

Nj
, j = 1, . . . , J.
n

Ces fr´equences cumul´ees v´erifient les relations
F 1 = f1 ; F j =

j
X
i=1

fi = Fj−1 + fj ; FJ = 1.

18
Habituellement, les effectifs et fr´equences cumul´es sont aussi report´es dans le tableau
statistique d´ecrivant la r´epartition de la population.
Exemple 18 Pour la variable “Nombre d’enfants” d´ecrite dans les exemples 15 et 16,
le tableau statistique 2.4 regroupe toutes les informations d´ecrivant num´eriquement la
r´epartition (ou la distribution) de la population “Etudiants IG” selon cette variable.
Tableau 2.4: Tableau statistique complet pour la variable “Nombre d’enfants” sur les donn´ees
“Etudiants IG”
Valeurs
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants
6 enfants
Total

Effectifs
11
45
16
9
0
1
82

Effectifs cumul´es
11
56
72
81
81
82
-

Fr´equences
0.13
0.55
0.20
0.11
0
0.01
1

Fr´equences cumul´ees
0.13
0.68
0.88
0.99
0.99
1
-

Les fr´equences et effectifs cumul´es peuvent ˆetre ´egalement exploit´es pour caract´eriser
la r´epartition d’une population suivant une variable qualitative ordinale.

2.2.4

Courbe cumulatives des effectifs ou fr´
equences cumul´
es

Les effectifs ou fr´equences cumul´es peuvent ˆetre visualis´es sur une courbe en escalier
appel´ee courbe cumulative. Une telle courbe est illustr´ee en toute g´en´eralit´e `a la Figure
2.5.
Les marches de l’escalier correspondent aux valeurs observ´ees xj de la variable. La
hauteur du palier relatif `a xj vaut Nj tandis que la hauteur de la contremarche qui
pr´ec`ede vaut nj . La courbe cumulative est d´efinie pour toute valeur de x observ´ee
ou non et peut donc ˆetre d´ecrite par une ´equation du type y = N (x). Pour tout x,
la fonction N (x) indique le nombre d’observations inf´erieures ou ´egales `a x. Elle est
constante dans chaque intervalle s´eparant deux valeurs cons´ecutives de la variable:
N (x) = Nj pour xj ≤ x < xj+1 .
Si on pr´ef`ere travailler avec les fr´equences, la courbe cumulative repr´esente la proportion F (x) des individus de la population pour lesquels la valeur de la variable est
inf´erieure ou ´egale `a x (pour toute valeur de x) et v´erifie
F (x) = Fj pour xj ≤ x < xj+1 .

Nj
N1

Effectifs cumulés

n

19

x1 x2

xj

xJ

Valeurs de X

Figure 2.5: Courbe cumulative

Par cons´equent, F (x) est nulle pour les valeurs de x inf´erieures `a la plus petite valeur
observ´ee de la variable et est ´egale `a 1 pour les valeurs de x sup´erieures `a la plus grande
valeur observ´ee.
Exemple 19 Pour la variable “Nombre d’enfants” d´ecrite dans les exemples 15 et 16,
la Figure 2.6 repr´esente la courbe cumulative des fr´equences.

2.3

Variables quantitatives continues

Une variable quantitative continue peut en th´eorie prendre n’importe quelle valeur `a
l’int´erieur d’un intervalle. En pratique, la pr´ecision de l’instrument de mesure n’est
jamais infinit´esimale et les donn´ees obtenues sont en quelque sorte des valeurs arrondies
ou discr`etes. Par exemple, un poids sera exprim´e en milligrammes, grammes, kilos ou
tonnes selon l’objectif et les moyens de l’´etude.
On pourrait donc envisager de d´ecrire la r´epartition d’une population suivant une

0.6
0.4
0.0

0.2

Fréquences cumulées

0.8

1.0

20

0

1

2

3

4

5

6

7

Nombre d’enfants

Figure 2.6: Courbe cumulative des fr´equences pour la variable “Nombre d’enfants” sur les
donn´ees “Etudiants IG”

variable continue comme on vient de le faire pour une variable discr`ete. La premi`ere
d´emarche consiste `a d´eterminer les valeurs distinctes observ´ees et pour les obtenir,
il est naturel de commencer par ordonner les valeurs observ´ees, g´en´eralement de la
plus petite (ou la moins bonne,...) `a la plus grande (ou la meilleure,...). On obtient
ainsi la s´erie ordonn´ee pour laquelle on adopte habituellement les notations sp´ecifiques
suivantes: S˜ = {x(1) , x(2) , . . . , x(n) } o`
u x(i) ≤ x(j) si i ≤ j.
Exemple 20 Une enquˆete men´ee dans un quartier comptant dix maisons tentait de d´eterminer le flux de trafic local. Pour cela, le nombre de voitures (variable X) poss´ed´ees
par chacune des familles a ´et´e enregistr´e. Le tableau suivant reprend les donn´ees observ´ees o`
u l’indice i correspond aux num´eros des maisons:
i
xi

1 2
0 3

3 4
1 2

5 6
1 0

7
2

8 9
2 2

10
3

Comme les donn´ees xi sont num´eriques, elles peuvent ˆetre rang´ees dans l’ordre croissant: 2 donn´ees sont nulles (les familles habitant les maisons des num´eros 1 et 6 ne
poss`edent pas de voiture), 2 donn´ees sont ´egales `
a 1 (les familles d’indices 3 et 5 ont

21
une seule voiture), 4 donn´ees sont ´egales `
a 2 (les familles d’indices 4, 7, 8, 9 poss`edent
deux voitures), et deux familles (indices 2 et 10) ont trois voitures. La s´erie ordonn´ee
est donc S˜ = {0, 0, 1, 1, 2, 2, 2, 2, 3, 3}. Ainsi, x(2) = x1 , x(10) = x10 , . . .
A partir des donn´ees tri´ees, il est plus ais´e de d´enombrer les effectifs, comme le montre
l’exemple suivant.
Exemple 21 Les observations relatives `
a la variable “Taille” sur les donn´ees “Etudiants IG” sont r´esum´ees dans le tableau 2.5. Les tailles des 82 individus sont mesur´ees
en centim`etres. En triant les donn´ees dans l’ordre croissant comme dans le tableau
Tableau 2.5: Valeurs des observations de la variable “Taille” pour les donn´ees “Etudiants
IG”
167
180
178
179
163
170

180
172
170
181
177
180

186
180
179
160
169
168

168
172
183
162
175
181

174
180
187
179
180
183

195
192
184
176
174
180

187
177
180
175
185
185

195
172
180
163
175
178

174
187
176
189
170
197

175
178
182
170
173
180

170
175
175
182
181
184

170
183
172
184
172
175

182
177
183
175
175

178
178
178
188
171

2.6, on rep`ere plus facilement les diff´erentes valeurs prises par la variable ainsi que le
nombre de fois que chacune d’elles a ´et´e observ´ee.
Tableau 2.6: Observations ordonn´ees de la variable “Taille” pour les donn´ees “Etudiants
IG”
160
171
175
178
180
185

162
172
175
178
181
185

163
172
175
179
181
186

163
172
175
179
181
187

167
172
175
179
182
187

168
172
176
180
182
187

168
173
176
180
182
188

169
174
177
180
183
189

170
174
177
180
183
192

170
174
177
180
183
195

170
175
178
180
183
195

170
175
178
180
184
197

170
175
178
180
184

170
175
178
180
184

Transcrire les effectifs des valeurs observ´ees dans un tableau des effectifs conduirait a`
un grand nombre de lignes tandis que de nombreux effectifs seraient de faible amplitude. De mˆeme, utiliser un diagramme en bˆatons pour repr´esenter la r´epartition de la
population m`ene `
a la Figure 2.7 qui est fort chahut´ee mˆeme si certaines tendances s’en
d´egagent.

22

Figure 2.7: Diagramme en bˆatons pour la variable “Taille” observ´ee sur l’ensemble de
donn´ees “Etudiants 1 BAC Gestion ”

Pour une meilleure vision de la r´epartition de la population, il est courant d’effectuer
des groupements. Plusieurs valeurs proches de la variable sont regroup´ees dans une
mˆeme cat´egorie (appel´ee classe). On parle alors de donn´ees group´ees.

2.3.1

Groupement des donn´
ees

Consid´erons une variable continue X dont les valeurs se situent dans l’intervalle de
variation [a, b]. On divise cet intervalle en J classes C1 , . . . , CJ : de a = e0 `a e1 , de e1 `a
e2 , . . . , et de eJ−1 `a eJ = b. La j`eme classe Cj est caract´eris´ee par ses deux bornes ej−1
e +e
et ej , par son amplitude aj = ej − ej−1 , par son centre cj = j 2 j−1 et aussi par son
effectif nj (qui est le nombre d’observations se trouvant dans la classe). De mani`ere
`a obtenir des classes mutuellement exclusives, il faut pr´eciser si les bornes inf´erieure
et sup´erieure de la classe appartiennent ou non `a la classe. Par convention (et sauf
mention explicite d’une autre r`egle), nous consid´ererons des classes Cj = [ej−1 , ej [ pour
j = 1, . . . , J − 1 et CJ = [eJ−1 , eJ ]. Une classe correspondant `a un intervalle dont la
borne inf´erieure ou sup´erieure n’existe pas est dite ouverte (ou non born´ee). De telles
classes ont un inconv´enient majeur: elles n’ont pas de centre.
On d´efinit aussi
– La fr´equence de la classe Cj : fj =

nj
.
n

23
– L’effectif cumul´e de la classe Cj (c’est-`a-dire le nombre d’observations appartenant
P
aux j premi`eres classes, ou encore, inf´erieures `a ej ): Nj = ji=1 ni .

– La fr´equence cumul´ee de la classe Cj : Fj =

Nj
.
n

Il n’y a pas de m´ethode universelle pour grouper des donn´ees. Souvent, le statisticien
recourt `a des r`egles plus ou moins empiriques pour r´epondre aux questions suivantes:
– Combien de classes faut-il consid´erer?
→ Si on forme trop peu de classes, on risque de perdre trop d’informations par
rapport `a la s´erie de d´epart. Par contre, consid´erer trop de classes entraˆıne les
mˆemes inconv´enients que pour la s´erie non group´ee (diminution de la clart´e dans
la pr´esentation des r´esultats). Comme r`egle g´en´erale, il est recommand´e de ne pas
utiliser moins de 5 classes ou plus de 15 classes dans le groupement des donn´ees.
Souvent, le nombre de classes est fix´e par la nature du probl`eme. Si ce n’est pas
le cas, on peut toujours suivre la formule de Sturges qui pr´econise un nombre J
de classes ´egal au plus petit nombre entier sup´erieur ou ´egal `a k avec
k =1+

10
log10 n
3

o`
u n est l’effectif de la population.
– Les classes ont-elles toutes la mˆeme amplitude?
→ C’est le cas le plus fr´equent et le plus simple puisque des classes de longueurs
diff´erentes entrainent des difficult´es suppl´ementaires dans les repr´esentations graphiques.
– Comment choisir les bornes des classes?
→ Souvent, la premi`ere borne inf´erieure co¨ıncide avec la donn´ee la plus petite
et la derni`ere borne sup´erieure avec la donn´ee la plus grande. Ensuite, suivant
les d´ecisions prises pour les deux questions pr´ec´edentes, on peut d´eterminer les
bornes interm´ediaires.
Un outil assez performant pour d´eterminer des groupements ad´equats est le diagramme
en tiges et feuilles (stem and leaf display, en anglais) propos´e par Tukey (1977). Ce
graphique d´ecrit la distribution des effectifs de la s´erie tout en pr´esentant l’ensemble
des valeurs distinctes observ´ees. Pour construire un tel diagramme, chaque valeur
de la s´erie est d´ecompos´ee en deux parties: la partie principale appel´ee tige et la
partie secondaire appel´ee feuille. Ensuite, les tiges sont align´ees les unes en dessous
des autres (dans l’ordre croissant) et les feuilles sont ´ecrites `a cˆot´e, de nouveau dans
l’ordre croissant. La d´efinition des tiges et des feuilles d´epend des donn´ees. Les deux
exemples suivants vont illustrer cela.

24
Exemple 22 Chaque observation de la s´erie statistique S = {6.4, 7.6, 8.8, 8.8, 9.1, 9.4, 9.5, 9.8,
10.0, 10.4, 10.5, 10.6, 11.3, 11.3, 11.9, 12.0, 12.1, 12.1, 12.4, 12.4} peut ˆetre d´ecompos´ee en
sa partie enti`ere et sa partie d´ecimale. Un diagramme en tiges et feuilles pour cet
ensemble de donn´ees peut ˆetre alors construit en les deux ´etapes suivantes:
1. isoler dans une colonne la partie enti`ere des donn´ees, les tiges
2. inscrire, pour toute observation, la partie d´ecimale, la feuille, dans une deuxi`eme
colonne sur la mˆeme ligne que la partie enti`ere correspondante
6
7
8
9
10
11
12

4
6
88
1458
0456
339
01144

Exemple 23 En reprenant l’exemple des tailles, les diff´erentes tiges peuvent ˆetre d´efinies
par les valeurs 160, 170, 180 et 190, tandis que les feuilles correspondent aux unit´es.
Le diagramme en tiges et feuilles relatif `
a ce choix de tiges et de feuilles est repr´esent´e
ci-dessous.
16
17
18
19

02337889
000000122222344455555555566777888888999
0000000000111222333344455677789
2557

Cette repr´esentation montre qu’une r´epartition en quatre classes d’amplitude 10 cm
(c1 = [150, 160[; c2 = [160, 170[, . . .), correspond `
a une d´ecomposition assez peu informative ´etant donn´e que la majorit´e des donn´ees se trouvent sur les deuxi`eme et
troisi`eme tiges. Il est possible d’affiner le diagramme afin de d´ecomposer les tiges en
deux parties; la premi`ere partie reprenant les feuilles de 0 `
a 4; la deuxi`eme, les feuilles
de 5 a` 9. Dans ce cas, le diagramme prend la forme suivante

25
16
16
17
17
18
18
19
19

0233
7889
0000001222223444
55555555566777888888999
00000000001112223333444
55677789
2
557

Vu ce diagramme, une d´ecomposition en huit classes d’amplitude 5 cm semble convenir.
Notons que ce nombre de classes est aussi conseill´e par la formule de Sturges. Le tableau
2.7 r´esume l’information dont on dispose apr`es le groupement en classes.
Tableau 2.7: Tableau statistique pour la variable “Taille” sur les donn´ees group´ees “Etudiants 1 BAC Gestion ”
Classes
[160; 165[
[165; 170[
[170; 175[
[175; 180[
[180; 185[
[185; 190[
[190; 195[
[195; 200[
Total

Effectifs
4
4
16
23
23
8
1
3
82

Effectifs cumul´es
4
8
24
47
70
78
79
82
-

Fr´equences
0.05
0.05
0.20
0.28
0.28
0.10
0.01
0.03
1

Fr´equences cumul´ees
0.05
0.10
0.30
0.58
0.86
0.96
0.97
1
-

Exemple 24 L’Institut National de Statistique publie dans la revue “Statistiques financi`eres” les donn´ees relatives `
a la statistique fiscale des revenus soumis a` l’impˆ
ot
des personnes physiques. Ces donn´ees sont habituellement fournies d´ej`a group´ees dans
des classes pr´ecises. Ces classes sont au nombre de 101, les 100 premi`eres d’amplitude
1.000 Euro, tandis que la derni`ere est non born´ee. Vu le nombre de d´eclarations concern´ees (de l’ordre de 5 millions), la formule de Sturges pr´econise une r´epartition en
23 classes. Le Tableau 2.8 propose une telle r´epartition pour la distribution des revenus
correspondant `
a l’exercice 2002.
On constate que les bornes inf´erieures font partie de la classe tandis que les bornes
sup´erieures en sont exclues, le nombre de classes ´etant par ailleurs conforme a` la formule de Sturge. La derni`ere classe n’est pas born´ee. De plus, les fr´equences (traduites
en pourcentages) sont directement disponibles dans les statistiques officielles.

26

Tableau 2.8: R´epartition du revenu total net imposable en Belgique pour l’exercice 2002
(revenus de 2001)
Classes (unit´e: 1000 Euro)
1
[0, 2[
2
[2, 3[
3
[3, 4[
4
[4, 5[
5
[5, 6[
6
[6, 7[
7
[7, 8[
8
[8, 9[
9
[9, 10[
10
[10, 11[
11
[11, 12[
12
[12, 13[
13
[13, 14[
14
[14, 15[
15
[15, 16[
16
[16, 17[
17
[17, 18[
18
[18, 19[
19
[19, 20[
20
[20, 25[
21
[25, 30[
22
[30, 45[
23
[45, 75[
24
[75, +∞[
Total

2.3.2

Nombres de d´eclarations
152.812
47.179
50.414
52.955
58.689
75.877
99.202
103.927
143.691
203.232
201.342
203.870
182.769
191.786
182.325
172.746
169.881
166.977
162.825
639.957
405.970
697.043
420.780
119.374
4.905.623

Pourcentages
3,11
0,96
1,03
1,08
1,20
1,55
2,02
2,12
2,93
4,14
4,10
4,16
3,73
3,91
3,72
3,52
3,46
3,40
3,32
13,05
8,28
14,20
8,56
2,42
100

Histogramme

La r´epartition de la population en classes peut ˆetre visualis´ee sur un histogramme.
Dans un syst`eme d’axes orthogonaux, chaque classe correspond `a un rectangle dont la
base co¨ıncide avec l’intervalle de la classe et dont la surface est proportionnelle `a son
effectif ou `a sa fr´equence.
– Lorsque toutes les classes ont la mˆeme amplitude ac , il est ´equivalent de construire
des rectangles dont la hauteur est proportionnelle aux effectifs ou fr´equences des
classes.

27

a × fj
a × f1

f1
e0

ac

fj
ej−1 ac

ej

eJ

Il est mˆeme souvent commode de prendre la hauteur d’un rectangle exactement
´egale `a l’effectif ou la fr´equence de la classe correspondante. Dans ce cas, la
surface totale de l’histogramme vaut ac × n ou ac × 1.
Exemple 25 Des histogrammes caract´erisant la distribution des tailles au sein
des ´etudiants de premier bachelier IG sont repr´esent´es `a la Figure 2.8. Le premier
(resp. deuxi`eme) dessin correspond au groupement en 4 (resp. 8) classes discut´e
a` l’exemple 23. Pour les deux graphiques, la hauteur des rectangles est ´egale a`
l’effectif des classes.

Figure 2.8: Histogrammes pour la r´epartition des tailles en premier bachelier IG

– Lorsque les amplitudes des classes sont diff´erentes, les hauteurs des rectangles
doivent ˆetre ajust´ees en fonction de ces amplitudes. En effet, sans cette correction,
les plus grandes classes seraient avantag´ees. Par exemple, prenons trois classes
telles que a1 = a3 = a et a2 = 2 × a. Prendre la fr´equence comme hauteur
des rectangles donne la repr´esentation ci-dessous, sur laquelle la deuxi`eme classe
correspond `a une aire deux fois trop grande:

28

2 × a × f2

f2
a × f1

f1
e0

a

a2 = 2 × ae

e1

2

e3

Il faut r´epartir ´equitablement la masse dans des classes d’amplitude ´equivalente avant
de repr´esenter l’histogramme ainsi qu’illustr´e ci-dessous:

f2
2

2×a×

f2
2

a × f1

f1
e0

a

e1

a

a

e2

e3

Cet ajustement est relativement naturel puisqu’il consiste `a d´eterminer la plus petite
amplitude de classes (appel´ee “l’unit´e d’amplitude”) permettant de r´e-exprimer la
r´epartition en classes `a l’aide de classes d’amplitude constante. Ensuite, les classes
plus grandes sont d´ecompos´ees en classes plus petites en s´eparant la masse totale de
fa¸con ´equitable. La proc´edure suivante d´ecrit explicitement comment construire en
pratique un histogramme relatif `a des classes d’amplitudes diff´erentes:
– On choisit comme unit´e d’amplitude de classe u le plus grand commun diviseur
des diverses amplitudes de classe.
– On exprime les amplitudes des classes en fonction de cette unit´e. Donc, pour la
classe Cj , on d´etermine γj ∈ IN tel que aj = γj u.
– La hauteur hj du rectangle repr´esentatif de la classe Cj est prise ´egale `a hj =

nj
γj

f

(resp. hj = γjj ) de telle sorte que la surface de ce rectangle est ´egale `a u × nj (resp.
u × fj ) et est donc proportionnelle `a l’effectif ou la fr´equence de la classe.

La surface totale de l’histogramme construit de cette fa¸con vaut u × n ou u × 1.
Exemple 26 Revenons `
a la r´epartition des nombres de d´eclarants Belges class´es selon
les cat´egories de revenus consid´er´ee `
a l’exemple 24. Les amplitudes des classes born´ees

29

0.03
0.02
0.00

0.01

pourcentages

0.04

sont ´egales `
a 1, 2, 5, 15 et 30, tandis que la derni`ere classe a une amplitude infinie.
L’unit´e d’amplitude de classe est le plus grand commun diviseur de ces amplitudes, soit
1. Les classes c2 `
a c19 correspondent `
a des intervalles de longueur ´egale a` cette unit´e; les
hauteurs des rectangles associ´es `
a ces classes n’ont pas besoin d’ˆetre modifi´ees et seront
prises ´egales `
a la fr´equence des classes. Par contre, l’amplitude de c1 vaut deux fois
l’unit´e. La hauteur h1 est obtenue en divisant f1 par 2. Les classes c20 et c21 sont 5 fois
plus large que l’unit´e d’amplitude; les hauteurs sont donc donn´ees par les fr´equences
correspondantes divis´ees par 5. La classe c22 (resp. c23 ) d’amplitude 15 (resp. 30) est
23
22
(resp. h23 = f30
). Notons encore que la
associ´ee `
a un rectangle de hauteur h22 = f15
derni`ere classe n’´etant pas born´ee, on ne connaˆıt pas son amplitude exacte. Cependant,
on peut supposer que la fr´equence par unit´e d’amplitude de classe est n´egligeable. Cette
classe n’est donc pas prise en consid´eration dans l’histogramme repr´esent´e a` la Figure
2.9.

0

20

40

60

Revenus de 2002 (unité: 1000 Euro)

Figure 2.9: Histogramme de la r´epartition des revenus en Belgique pour l’exercice 2002.

Ne pas ajuster la hauteur des rectangles en fonction de l’amplitude des classes introduit
une distorsion pour les classes les plus ´etendues. Dans l’histogramme de la Figure 2.10,
les hauteurs de tous les rectangles sont donn´ees par les fr´equences des classes. Les plus
grandes classes sont sur´evalu´ees par rapport aux classes des d´eclarants aux revenus

30

12
10
8
6
4
2
0

pourcentages non adaptés

14

plus modestes.

0

20

40

60

Revenus de 2002 (unité: 1000 Euro)

Figure 2.10: Histogramme incorrect pour la r´epartition des revenus en Belgique pour
l’exercice 2002.

Remarque: La comparaison des deux histogrammes ne peut se faire qu’en prenant certaines pr´ecautions. Par exemple, pour comparer des populations d’effectifs diff´erents, on
construit habituellement des histogrammes de surface unitaire. Il suffit pour cela de prendre
f
hj = ajj , ∀j = 1, . . . , J.
Exemple 27 Lors de l’ann´ee acad´emique 2001–2002, le mˆeme examen a ´et´e propos´e aux
´etudiants de deux sections diff´erentes: les ´etudiants de premier bachelier SG (effectif= 71)
et ceux de premier bachelier SE (effectif= 30). Des histogrammes d´ecrivant les s´eries de
r´esultats sont repr´esent´es `
a la Figure 2.11. Les histogrammes de la premi`ere ligne ont des
rectangles dont les hauteurs sont ´egales aux effectifs des classes. L’effectif total de la section SG ´etant plus important que celui de la section SE, la comparaison n’est pas ´evidente.
Par contre, sur la seconde ligne, des histogrammes de surface unitaire permettent de mieux
distinguer les diff´erences entre les deux s´eries de r´esultats.

31

Figure 2.11: Histogrammes pour les s´eries de points de l’examen de math des ´etudiants de
SG et SE (ann´ee acad´emique 2001–2002).

2.3.3

Polygone des effectifs ou des fr´
equences

Le polygone des effectifs ou des fr´equences est une autre repr´esentation graphique qui donne
de la distribution une image plus continue.
• Lorsque toutes les classes ont la mˆeme amplitude ac , le polygone des effectifs (resp. des
fr´equences) s’obtient en reliant par une ligne bris´ee les points qui se trouvent au milieu
des cˆot´es sup´erieurs des rectangles de l’histogramme des effectifs (resp. des fr´equences).
Par d´efinition, la somme des surfaces des rectangles de l’histogramme vaut ac × n ou
ac × 1. Pour que cette propri´et´e reste vraie pour la surface d´elimit´ee par le polygone et
l’axe des abscisses, on compl`ete la courbe avec les deux points (a − a2c , 0) et (b + a2c , 0).
Triangles isom´etriques
Triangles isom´etriques
b

b

b

b

b

e0

e1

e2

e3

Le segment reliant deux milieux cons´ecutifs d´elimite deux triangles isom´etriques (donc
de surfaces ´egales), un se trouvant sous la ligne bris´ee et l’autre au-dessus. La surface

32
de l’histogramme tronqu´ee par le segment est donc r´ecup´er´ee par une surface identique
sous la ligne.
• Lorsque les amplitudes des classes varient, relier les milieux des cˆot´es sup´erieurs des
rectangles de l’histogramme ne permet pas de respecter la propri´et´e de conservation de
la surface. En effet, les segments joignant les milieux de deux rectangles cons´ecutifs
de bases diff´erentes ne d´elimitent plus des triangles isom´etriques, comme le montre la
Figure ci-dessous.
a
b

b

a
2

e0

e1 a e2 2 × a e3

e4

e5

La construction du polygone va donc ˆetre modifi´ee en exploitant de nouveau l’unit´e
d’amplitude de classe u. En exprimant l’amplitude de la classe Cj en fonction de cette
unit´e, on obtient γj ∈ IN tel que aj = γj u. Le rectangle de base aj et de hauteur
hj associ´e `a cj dans l’histogramme peut alors ˆetre divis´e en γj rectangles de base u et
de hauteur hj . Ce sont les milieux des cˆot´es sup´erieurs des nouveaux rectangles ainsi
construits qui, reli´es par une ligne bris´ee, vont d´efinir le polygone des effectifs ou des
fr´equences. Par cette proc´edure, des paliers apparaissent dans le graphique du polygone.
De plus, en compl´etant le polygone par les deux points (a − u2 , 0) et (b + u2 , 0), la surface
d´elimit´ee par le polygone et l’axe des abscisses est ´egale `a la surface recouverte par
l’histogramme.
b

b

b

b

b

b

b

b

b

ue0
2

e1

u

e2

u

e3

e4

e5

33
L’histogramme et le polygone des effectifs ou des fr´equences permettent d’avoir une
image rapide des caract´eristiques principales des donn´ees (les pics, les baisses, les points de
concentration,...). Le polygone a un avantage sur l’histogramme: il permet de comparer
directement plusieurs distributions de fr´equences.

0.03
0.01

0.02

pourcentages

0.03
0.02
0.00

0.00

0.01

pourcentages

0.04

0.04

Exemple 28 Une comparaison entre les r´epartitions des revenus en Belgique pour deux
ann´ees diff´erentes peut ˆetre obtenue en superposant les polygones de fr´equences construits a`
partir des histogrammes des fr´equences.

0
0

20

40

20

40

60

60
Revenus de 2007 (unité: 1000 Euro)

0.00

0.01

0.02

0.03

0.04

Revenus de 2002 (unité: 1000 Euro)

0

20

40

60

Revenus

Figure 2.12: Comparaison des r´epartitions des revenus pour les ann´ee 2002 et 2007 (et, `a
titre d’information, le mˆeme graphique comparant les revenus, toujours exprim´es en francs
belges, entre les ann´ee 1986 et 1996
Les deux premiers graphiques de la Figure 2.12 correspondent aux histogrammes et polygones des fr´equences pour les r´epartitions des revenus des ann´ees 2002 et 2007. Les surfaces

34
des deux histogrammes (et donc sous les deux polygones) sont ´egales a` l’unit´e d’amplitude de
classes (u = 1). Le graphique du bas a` gauche de la Figure 2.12 montre que les polygones des
fr´equences des deux ann´ees consid´er´ees sont fort similaires mis `
a part le pic plus important
en 2007 qu’en 2002 pour les petits revenus.

2.3.4

Ogive des effectifs ou fr´
equences cumul´
es

Par d´efinition, l’effectif cumul´e Nj (resp. la fr´equence cumul´ee Fj ) de la classe Cj est le nombre (resp. la proportion) d’observations se trouvant dans les j premi`eres classes ou inf´erieures
`a la borne sup´erieure ej de la j`eme classe. Comme dans le cas d’une variable quantitative
discr`ete, on pourrait avoir envie de repr´esenter ces effectifs ou fr´equences cumul´es ou, plus
g´en´eralement, les fonctions y = N (x) ou y = F (x) qui, pour toute valeur de x, donne le
nombre ou la fr´equence des observations inf´erieures `a x.
Concentrons-nous sur les fr´equences cumul´ees. Une premi`ere esquisse de cette fonction
peut ˆetre obtenue en reportant dans un syst`eme d’axes orthogonaux les couples de points
(ej , Fj ), j = 1, . . . , J. Pour “boucher les trous”, c’est-`a-dire pour d´efinir la valeur de la
fonction entre deux bornes de classes, il faut supposer que les observations sont r´eparties
uniform´ement au sein de chaque classe. Cette hypoth`ese permet d’approcher la fonction par
la ligne bris´ee joignant les couples de points (ej , Fj ). En notant finalement que la fonction
doit ˆetre nulle pour toute valeur de x inf´erieure `a la borne inf´erieure e0 et ´egale `a 1 pour
toute valeur de x sup´erieure `a la derni`ere borne sup´erieure eJ , on obtient la ligne bris´ee
repr´esent´ee `a la Figure 2.13 et qui est appel´ee ogive des fr´equences cumul´ees.

Figure 2.13: Ogive des fr´equences cumul´ees

L’ogive des fr´equences cumul´ees peut ˆetre exploit´ee de plusieurs fa¸cons pour obtenir
des informations sur la distribution des fr´equences. Par d´efinition, pour une valeur x∗

35
donn´ee, F (x∗ ) indique la proportion des observations dont la valeur est inf´erieure `a x∗ .
R´eciproquement, pour toute proportion y ∗ ∈ ]0, 1[, la fonction inverse de F donne la valeur
de la variable en dessous de laquelle une proportion y ∗ d’observations se trouve.

80
60
40
20
0

Fréquences cumulées

100

Exemple 29 Les ogives des fr´equences cumul´ees pour les r´epartitions des revenus en 2002 et
2007 sont presque des courbes lisses (voir la Figure de gauche de la Figure 2.14, le graphique
droite caract´erisant lui les ann´ees 1986 et 1999 o`
u F1 correspond a` l’ann´ee 1986 et F2
a l’ann´ee 1996). Pour un revenu x donn´e, F1 (x) et F2 (x) indiquent les proportions des
`
personnes d´eclarant un revenu inf´erieur `
a x lors de l’ann´ee consid´er´ee. R´eciproquement,
a partir d’une proportion 0 < y < 1, les fonctions inverses permettent d’estimer le revenu
`
maximal d´eclar´e par la proportion y des personnes de revenus les plus bas. On constate ainsi
que le pourcentage de personnes ayant un revenu inf´erieur `
a x∗ = 1200 × 1000 francs est
sup´erieur en 1986 qu’en 1996. On voit aussi que le revenu maximal d´eclar´e par la moiti´e
la plus pauvre des d´eclarants est pass´e de 500 `
a 700 (en unit´e ´egale a` 1.000 francs) en dix
ans. Par contre, la comparaison des courbes des ann´ees 2002 et 2007 ne montre pas de
changenement significatif en 5 ans avec des revenus exprim´es en Euro.

0

20

40

60

80

100

120

Revenus

Figure 2.14: Ogives des fr´equences cumul´ees pour les r´epartitions des revenus en Belgique
pour les ann´ees 2002 et 2007 (`a gauche) et, `a titre d’information, pour les ann´ee 1986 et
1996 (`a droite)

2.3.5

Lien entre l’ogive des fr´
equences cumul´
ees et l’histogramme
de surface unitaire

Propri´
et´
e 1 Soit X une variable continue dont les valeurs sont group´ees en J classes et
dont la distribution des fr´equences est d´ecrite par un histogramme de surface unitaire ainsi

36
que par l’ogive des fr´equences cumul´ees y = F (x). Pour toute valeur x∗ , la surface d´elimit´ee
par l’histogramme et l’axe des abscisses et situ´ee `
a gauche de x∗ est ´egale a` l’ordonn´ee F (x∗ ).
Preuve:
Soient les classes [e0 , e1 [, [e1 , e2 [, . . . , [eJ−1 , eJ ]. Notons A(x∗ ) la surface `a gauche de x∗ ,
• si x∗ < e0 , A(x∗ ) = 0 et F (x∗ ) = 0.
• si x∗ ≥ eJ , A(x∗ ) = 1 et F (x∗ ) = 1.
• si x∗ ∈ [e0 , e1 [: on a

A(x∗ ) = (x∗ − e0 ) ×

f1
a1

tandis que F (x) est une droite entre les points (e0 , 0) et (e1 , F1 ) dont l’´equation s’´ecrit
y−0=

F1 − 0
(x − e0 ).
e1 − e0

Le point (x∗ , F (x∗ )) appartenant `a cette droite, on a
F (x∗ ) =

F1 ∗
(x − e0 ).
a1

D’o`
u la conclusion car F1 = f1 .
• si x∗ ∈ [ej−1 , ej [,


A(x ) =

j−1
X
k=1

ak

fk
fj
fj
+ (x∗ − ej−1 ) = Fj−1 + (x∗ − ej−1 ).
ak
aj
aj

La fonction F (x) est une droite entre les points (ej−1 , Fj−1 ) et (ej , Fj ) dont l’´equation
s’´ecrit
Fj − Fj−1
y − Fj−1 =
(x − ej−1 ).
ej − ej−1

Le point (x∗ , F (x∗ )) appartenant `a cette droite, on obtient
F (x∗ ) = Fj−1 +
La conclusion F (x∗ ) = A(x∗ ) est imm´ediate.

fj ∗
(x − ej−1 ).
aj


Chapitre 3
Param`
etres de tendance centrale
Les chapitres 3 et 4 poursuivent le mˆeme but que le chapitre 2: r´esumer l’information
contenue dans les donn´ees brutes d’une s´erie statistique univari´ee. Le chapitre 2 exploite
des tableaux et graphiques tandis que les deux chapitres suivants caract´erisent la s´erie de
mani`ere beaucoup plus succincte en lui associant des valeurs typiques. Le chapitre 3 d´ecrit
des mesures de l’emplacement du centre de la s´erie. Ces mesures sont encore appel´ees
param`etres de tendance centrale. Le chapitre 4 introduit des mesures de la dispersion des
observations autour du centre, ou des param`etres de dispersion, ainsi que des param`etres
caract´erisant la sym´etrie ou la forme de la distribution.
Dans ce chapitre, trois param`etres de tendance centrale sont consid´er´es en d´etail: la
moyenne arithm´etique, la m´ediane et le mode. De plus, les moyennes pond´er´ees et les
quantiles, g´en´eralisations de la moyenne et la m´ediane, sont ´egalement introduits.

3.1
3.1.1

Les moyennes
La moyenne arithm´
etique

Soit une population de n individus et X une variable d’int´erˆet. La moyenne arithm´etique
de la s´erie des valeurs observ´ees est ´egale `a la somme des observations divis´ee par l’effectif
total n de la s´erie. Elle se note x¯.
Exemple 30 La moyenne des cotes de l’examen de math´ematiques de janvier 2000 en premier bachelier ing´enieur de gestion est ´egale `
a 9,2.
La d´efinition de la moyenne entraˆıne quelques remarques:
1. Une moyenne arithm´etique ne peut se calculer que si les valeurs observ´ees sont num´eriques. Une s´erie correspondant a` l’´etude d’une variable qualitative ne poss`ede donc pas
de moyenne arithm´etique.
37

38
2. La moyenne arithm´etique est ind´ependante de l’ordre des observations dans la s´erie.
3. La moyenne arithm´etique est rarement ´egale `a une valeur observ´ee. Dans le cas d’une
variable discr`ete, la moyenne arithm´etique peut mˆeme ne pas ˆetre associ´ee `a une valeur
observable de la variable.
Exemple 31 La taille moyenne calcul´ee sur les donn´ees “Etudiants IG” est de
177,7cm. Cette taille moyenne n’a pas ´et´e observ´ee et est la taille d’un individu fictif
(individu moyen) dont la seule raison d’ˆetre est de repr´esenter un milieu.
Exemple 32 Le nombre moyen d’enfants dans les familles des ´etudiants de premier
bachelier IG est de 2,32, ce qui n’est ´evidemment pas un nombre observable pour cette
variable. Il faut donc interpr´eter ce r´esultat avec prudence. On peut dire que les familles
concern´ees comprennent en moyenne plus de 2 enfants, mais moins de 3 enfants.
4. Calculs de la moyenne arithm´etique en fonction de la forme dans laquelle la s´erie statistique est fournie:
• Si on dispose de toutes les observations particuli`eres S = {x1 , . . . , xn }, x¯ est calcul´ee
par la formule
Pn
xi
(3.1)
x¯ = i=1 .
n
• Si la s´erie est donn´ee via le tableau des effectifs, on ne dispose que des couples
(xj , nj ), j = 1, . . . , J o`
u x1 , . . . , xJ sont les valeurs distinctes observ´ees dont les
effectifs respectifs sont n1 , . . . , nJ . Dans ce cas, chaque valeur observ´ee xj apparaˆıt
dans la d´efinition (3.1) un nombre de fois ´egal `a son effectif nj :
x¯ =

J
X
nj
j=1

n

xj =

PJ

j=1

n

nj x j

,

(3.2)

P
avec n = Jj=1 nj . Le calcul de x¯ revient `a associer `a chacune des valeurs distinctes
un poids ´egal `a son effectif divis´e par le nombre total d’observations. Par d´efinition,
nj
est la fr´equence fj de xj et l’´egalit´e (3.2) peut s’´ecrire
n
x¯ =

J
X

f j xj .

j=1

• Lorsque la s´erie est group´ee en J classes d’effectifs n1 , . . . , nJ , la moyenne arithm´etique des donn´ees group´ees ne peut se calculer exactement que si la moyenne des
observations de chaque classe est connue. Notons x¯1 , x¯2 , . . . , x¯J les moyennes des
classes. Comme, par d´efinition, la moyenne arithm´etique est ´egale `a la somme
de toutes les observations divis´ee par leur nombre total, il suffit de connaˆıtre la

39
somme des observations de chaque classe pour pouvoir calculer x¯. Or, la somme
des observations de la j`eme classe vaut nj x¯j et la somme de toutes les observations
group´ees est donn´ee par n1 x¯1 + n2 x¯2 + . . . + nJ x¯J . En divisant cette somme par
l’effectif total n = n1 + . . . + nJ , on obtient la moyenne arithm´etique
PJ
¯j
j=1 nj x
.
x¯ =
n
Exemple 33 Le Tableau 2.8 de l’exemple 24 du chapitre 2 pr´esente seulement
une partie de la publication officielle de l’INS pour d´ecrire les statistiques fiscales
des revenus soumis `
a l’impˆ
ot des personnes physiques. En effet, en plus de la
r´epartition des d´eclarants selon les diff´erentes classes de revenus, les statistiques
indiquent ´egalement la masse totale (c’est-`
a-dire la somme) des revenus d´eclar´es
par les individus de chacune des classes. Le Tableau 3.1 est le tableau complet de
la statistique fiscale du Royaume pour l’exercice de 2002.
On dispose donc directement des sommes des observations de chaque classe. Notons
la masse P
totale des revenus de la classe cj par mj . Le revenu moyen m
¯ est donn´e
par m
¯ =

24
j=1

n

mj

= 24.691, 76.

Lorsqu’on ne dispose que des limites des classes avec les effectifs correspondants
sans poss´eder ni les donn´ees initiales ni les moyennes des classes, il n’est plus
possible de d´eterminer exactement la moyenne arithm´etique de la s´erie. On peut
cependant en obtenir une valeur approch´ee, que l’on notera toujours x¯ par abus de
notation. Pour parvenir `a cette approximation, on suppose que les observations de
la classe Cj sont uniform´ement r´eparties dans la classe. Cela permet de consid´erer
le centre de la classe cj comme la moyenne des valeurs observ´ees dans cette classe.
La moyenne arithm´etique est donc
PJ
j=1 nj cj
.
x¯ =
n
Exemple 34 L’exemple 31 se base sur les 82 observations relatives a` la variable
“Taille” ´etudi´ee sur les ´etudiants de premier bachelier IG. Au lieu d’avoir toutes les
donn´ees individuelles, cette s´erie pourrait ˆetre fournie d´ej`a group´ee via le Tableau
statistique construit lors de l’exemple 23 du chapitre 2. Les centres des classes
sont respectivement 162,5; 167,5; 172,5; 177,5; 182,5; 187,5; 192,5; 197,5 avec les
effectifs 4, 4, 16, 23, 23, 8, 1, 3. Une valeur approch´ee de la moyenne arithm´etique
= 14.645
= 178, 5 au lieu de 177,7
de la s´erie est donc x¯ = 4×162,5+4×167,5+...+3×197,5
82
82
qui est la valeur pr´ecise.
Propri´
et´
es math´
ematiques de la moyenne arithm´
etique
Les propri´et´es sont d´evelopp´ees en supposant disposer de la s´erie brute S = {x1 , . . . , xn }.

40

Tableau 3.1: Montant et r´epartition en pourcents du revenu total net imposable en Belgique
pour l’exercice 2002
Classes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Total

[0, 2[
[2, 3[
[3, 4[
[4, 5[
[5, 6[
[6, 7[
[7, 8[
[8, 9[
[9, 10[
[10, 11[
[11, 12[
[12, 13[
[13, 14[
[14, 15[
[15, 16[
[16, 17[
[17, 18[
[18, 19[
[19, 20[
[20, 25[
[25, 30[
[30, 45[
[45, 75[
[75, +∞[

Nombres de
d´eclarations
152.812
47.179
50.414
52.955
58.689
75.877
99.202
103.927
143.691
203.232
201.342
203.870
182.769
191.786
182.325
172.746
169.881
166.977
162.825
639.957
405.970
697.043
420.780
119.374
4.905.623

%
3,11
0,96
1,03
1,08
1,20
1,55
2,02
2,12
2,93
4,14
4,10
4,16
3,73
3,91
3,72
3,52
3,46
3,40
3,32
13,05
8,28
14,20
8,56
2,42
100

Montant des
revenus
143.477.244
117.727.370
177.581.318
238.124.842
323.655.391
496.101.333
745.566.907
884.436.706
1.373.325.220
2.145.593.991
2.313.775.629
2.546.638.256
2.468.146.816
2.781.779.980
2.824.336.576
2.849.732.579
2.972.416.927
3.088.535.702
3.174.523.620
14.279.109.275
11.103.299.769
25.435.294.910
23.449.489.989
15.195.811.336
121.128.481.686

%
0,11
0,10
0,15
0,20
0,27
0,41
0,62
0,73
1,13
1,77
1,91
2,10
2,04
2,30
2,33
2,35
2,45
2,55
2,62
11,79
9,16
20,98
19,38
12,54
100

1. Si un changement d’´echelle et d’origine est effectu´e sur les observations x1 , . . . , xn pour
obtenir la nouvelle s´erie S ′ = {x′1 , . . . , x′n } avec x′i = axi +b o`
u a et b sont des constantes


r´eelles, alors la moyenne arithm´etique x¯ de la s´erie S est donn´ee par
x¯′ = a¯
x + b,
o`
u x¯ est la moyenne arithm´etique de S = {x1 , . . . , xn }.
Pn
P
P
x′i
Preuve: x¯′ = i=1
= n1 ni=1 (axi + b) = n1 (a ni=1 xi + nb) = a¯
x + b.
n



2. D´efinissons la s´erie des valeurs centr´ees Sc en prenant les diff´erences entre les valeurs
observ´ees de la s´erie S = {x1 , . . . , xn } et la moyenne arithm´etique de la s´erie S. Cette
nouvelle s´erie Sc = {x1 − x¯, . . . , xn − x¯} a une moyenne nulle.

Preuve: Il s’agit d’un cas particulier de la propri´et´e 1 en prenant a = 1 et b = −¯
x.
On obtient directement x¯c = x¯ − x¯.


41
Une autre fa¸con d’interpr´eter cette propri´et´e est de dire que la somme des valeurs
centr´ees positives (c’est-`a-dire xi − x¯ ≥ 0) est compens´ee par la somme des valeurs
centr´ees n´egatives (c’est-`a-dire xi − x¯ ≤ 0).
3. La moyenne arithm´etique a une signification concr`ete. Par la propri´et´e pr´ec´edente, on
sait que les ´el´ements de la s´erie situ´es `a gauche de x¯ sont compens´es par les ´el´ements
situ´es `a droite de x¯. Cette situation peut ˆetre repr´esent´ee physiquement par une droite
gradu´ee sur laquelle les diff´erentes valeurs rencontr´ees dans la s´erie sont report´ees.
Des masses proportionnelles aux effectifs de ces valeurs sont plac´ees sur la droite. La
moyenne arithm´etique co¨ıncide avec le point d’´equilibre des masses ainsi plac´ees. On
dit que la moyenne est le centre de gravit´e de la s´erie.
Exemple 35 Consid´erons la s´erie suivante: S = {2, 3, 4, 4, 4, 5, 5, 6, 7, 7} dont la
moyenne arithm´etique est ´egale `
a x¯ = 4, 7. Lorque la balance est plac´ee a` l’emplacement
de la moyenne, la balance est en ´equilibre.

Figure 3.1: La moyenne arithm´etique comme centre de gravit´e d’une s´erie

4. La somme des carr´es des ´ecarts des ´el´ements d’une s´erie par rapport `a la moyenne
arithm´etique de la s´erie est inf´erieure ou ´egale `a la somme des carr´es des ´ecarts par
rapport `a toute autre valeur a ∈ IR. Cette propri´et´e s’´ecrit aussi
n
X
i=1

2

(xi − x¯) ≤

n
X
i=1

(xi − a)2 ∀ a ∈ IR.

Preuve: Pour un indice i quelconque entre 1 et n, on a
(xi − a)2 = (xi − x¯ + x¯ − a)2 = [(xi − x¯) + (¯
x − a)]2
= (xi − x¯)2 + (¯
x − a)2 + 2(xi − x¯)(¯
x − a).

42
Cette relation ´etant valable pour tout indice i, on peut additionner membre `a membre
pour i allant de 1 `a n :
Pn
Pn
P
P
2
¯)2 + n(¯
x − a)2 + 2(¯
x − a) ni=1 (xi − x¯) ≥ ni=1 (xi − x¯)2 ,
i=1 (xi − a) =
i=1 (xi − x
en utilisant la propri´et´e 2 et le fait que (¯
x − a)2 ≥ 0 ∀ a.
5. Si les individus d’une population P sont r´epartis en k sous-populations P1 , . . . , Pk
d’effectifs n1 , . . . , nk (avec n1 + . . . + nk = n), alors la moyenne arithm´etique globale d’une variable X ´etudi´ee sur la population compl`ete peut ˆetre calcul´ee `a partir des
moyennes x¯1 , . . . , x¯k des sous-populations par la formule suivante:
x¯ =

Pk

ni x¯i
Pi=1
k
i=1 ni

=

k
X

pi x¯i ,

i=1

o`
u pi est la proportion d’individus de la population P appartenant `a la sous-population
Pi .

3.1.2

Les moyennes arithm´
etiques pond´
er´
ees

Dans la d´efinition de la moyenne arithm´etique, on attribue `a chaque observation un poids
´egal `a n1 . En effet,
Pn
n
xi X xi
x¯ = i=1 =
.
n
n
i=1

Comme chaque observation a le mˆeme poids sur x¯, une valeur beaucoup plus petite ou
beaucoup plus grande que toutes les autres observations va fortement influencer la moyenne
arithm´etique. On dit que la moyenne est fortement influenc´ee par les valeurs extrˆemes de
la variable. Celles-ci se trouvant loin de la majorit´e des donn´ees attirent la moyenne vers
elles. La moyenne arithm´etique n’est donc pas un param`etre de tendance centrale indiqu´e
lorsque l’ensemble de donn´ees contient des observations atypiques. Le traitement des valeurs
atypiques est le sujet de la statistique robuste. Notez que ces valeurs peuvent ˆetre dues `a des
erreurs de mesure ou d’encodage (on parle alors d’observations aberrantes) ou sont le reflet
de faits exceptionnels.
En pr´esence d’observations atypiques mais ´egalement dans certaines autres situations, il
est utile de pouvoir associer aux diff´erentes valeurs de la s´erie statistique des poids diff´erents
dans le calcul de la moyenne. A chaque observation xi de la s´erie S = {x1 , . . . , xn }, on
attribue un poids wi , positif ou nul, permettant d’indiquer son importance relative par
rapport aux autres observations. La moyenne arithm´etique pond´er´ee par les poids wi est
d´efinie par
Pn
w i xi
.
x¯w = Pi=1
n
i=1 wi

(3.3)

43

Tableau 3.2: Cotes de premi`ere session d’un ´etudiant de premier bachelier
Cours
A
B
C
D
E
F
G
H
I
J
K
L
Total

Cote xi
13
14
12
12
14
13
10
13
12
8
10
11
142

Nombre d’heures
120h
105h
60h
45h
45h
45h
45h
45h
40h
30h
60h
60h
-

Poids wi
4
3,5
2
1,5
1,5
1,5
1,5
1,5
1,33
1
2
2
23,33

w i xi
52
49
24
18
21
19,5
15
19,5
15,99
8
20
22
283,6

Exemple 36 Lors d’une premi`ere session, un ´etudiant de premier bachelier a obtenu les
cotes reprises dans la deuxi`eme colonne du Tableau 3.2. Sur base de la moyenne arithm´etique
des cotes obtenues, l’´etudiant obtient une moyenne de 11,83/20, valeur sur laquelle le jury
se base pour discuter de la russite ou non de cet tudiant. Un autre r`eglement de d´elib´eration
pourrait consister `
a pond´erer les cotes par rapport `
a l’importance horaire des cours. Par
exemple, attribuons un poids unitaire au cours correspondant au plus petit nombre d’heures
(30h pour le cours J) et associons ensuite `
a chaque autre cours un poids ´egal a` la valeur
qui multipli´ee par 30 donne le nombre d’heures du cours. Les poids obtenus sont transcrits
dans
la 4`eme colonne du Tableau 3.2. La moyenne arithm´etique pond´er´ee des cotes vaut
P12
w
i xi
Pi=1
= 12, 17. Cette nouvelle moyenne, plus favorable pour cet ´etudiant que la pr´ec´edente,
12
w
i=1 i
pourrait mener `
a des conclusions diff´erentes dans les d´elib´erations.
Les moyennes arithm´etiques pond´er´ees sont tr`es souvent exploit´ees en finance pour calculer des taux moyens, des ´ech´eances moyennes,...
Exemple 37 Une personne d´esire calculer le taux de change moyen correspondant a` la
situation suivante: elle a d’abord achet´e q1 dollars au taux de t1 euros le dollar; ensuite q2
dollars au taux de t2 euros le dollar;. . . ; et enfin, qn dollars au taux de tn euros le dollar.
P
En tout, cette personne s’est procur´ee Q = ni=1 qi dollars pour une d´epense totale ´egale a`
P
D = ni=1 qi ti euros. Le taux de change moyen t est le coˆ
ut unitaire du dollar tel qu’une
quantit´e Q de dollars puisse est obtenue en d´epensant D euros:
Pn
qi t i
D
= Pi=1
.
D =t×Q⇒t=
n
Q
i=1 qi

44
Le taux moyen est donc la moyenne arithm´etique pond´er´ee des taux ti o`
u les poids sont
donn´es par les quantit´es achet´ees.
Comme indiqu´e ci-dessus, la moyenne arithm´etique simple n’est pas un param`etre de
tendance centrale ad´equat d`es que l’ensemble de donn´ees contient des valeurs atypiques
puisque de telles valeurs vont trop influencer la moyenne. Calculer une moyenne arithm´etique
pond´er´ee qui att´enuerait l’effet de ces points est une tactique sugg´er´ee par la statistique
robuste. De nombreux param`etres robustes de tendance centrale sont bas´es sur cette id´ee.
Le plus simple est la moyenne tronqu´ee au seuil α, not´ee x¯α , avec 0 ≤ α < 1/2. Le calcul de
x¯α consiste `a attribuer un poids nul aux αn plus petites observations ainsi qu’aux αn plus
grandes observations, o`
u n est la taille de la population ou de l’´echantillon. Le param`etre α
´etant une proportion, le produit αn n’est pas n´ecessairement un nombre entier. Dans ce cas,
on attribuera un poids nul aux [αn] plus petites et plus grandes observations, o`
u [k] d´esigne
le plus grand entier inf´erieur ou ´egal `a k.
Si la s´erie ordonn´ee est constitu´ee des observations x(1) ≤ x(2) ≤ . . . ≤ x(n) , la moyenne
tronqu´ee au seuil α est donn´ee par
Pn−[αn]
i=[αn]+1 x(i)
.
x¯α =
n − 2[αn]
Remarque: lorsque le param`etre α est ´egal `a 0, x¯α co¨ıncide avec la moyenne arithm´etique
simple.
Exemple 38 Reprenons les cotes d’examen consid´er´ees `
a l’exemple 36. Un autre r`eglement
de d´elib´eration pourrait ˆetre de ne pas consid´erer dans la moyenne la cote la plus mauvaise
ainsi que la cote la meilleure (un accident est tol´er´e mais en ´echange d’une meilleure cote!).
La cote de 8/20 du cours J ainsi que la cote de 14/20 du cours B (ou du cours E) sont
mises de cˆot´e avant de calculer la moyenne arithm´etique des cotes restantes. Cette valeur
est en fait la moyenne tronqu´ee au seuil α = 0.1 de la s´erie des 12 cotes. On obtient cette
fois-ci une moyenne de 12/20.

3.2

La m´
ediane

La m´ediane d’une s´erie statistique est une valeur qui se trouve au milieu des observations
lorsque celles-ci sont rang´ees par valeurs croissantes. Elle est donc telle que le nombre
d’observations qui pr´esentent une valeur qui lui est inf´erieure soit `a peu pr`es ´egal au nombre
d’observations qui pr´esentent une valeur qui lui est sup´erieure. La m´ediane ne s’applique
que lorsque les observations peuvent ˆetre ordonn´ees de la plus petite `a la plus grande. Elle
concerne donc des variables qui sont mesur´ees sur une ´echelle au moins ordinale et ne convient
pas pour des variables qualitatives mesur´ees sur une ´echelle nominale.

45
En pratique, le calcul de la m´ediane d´epend de la forme dans laquelle la s´erie est fournie:
1. Si on dispose des donn´ees brutes suppos´ees deux `a deux distinctes, la premi`ere op´eration
consiste `a trier les observations pour obtenir la s´erie ordonn´ee S˜ = {x(1) , . . . , x(n) }. La
d´etermination de la m´ediane d´epend de la parit´e de l’effectif n de la s´erie:
(a) Si n est impair (n = 2k + 1), alors la m´ediane correspond `a l’observation de rang
k + 1 : x˜ = x(k+1) .
(b) Si n est pair (n = 2k), alors toute valeur de la variable situ´ee entre l’observation
de rang n2 = k et l’observation de rang k + 1 v´erifie la propri´et´e caract´erisant
la m´ediane. On dit que ces deux observations d´efinissent un intervalle m´edian.
Cependant, un intervalle est moins ais´e `a manipuler qu’une valeur. C’est pourquoi,
dans le cas d’une variable quantitative, on suit g´en´eralement la convention de
d´efinir la m´ediane par la moyenne arithm´etique des deux observations qui d´elimitent l’intervalle m´edian:
x(k) + x(k+1)
x˜ =
.
2
Avec cette convention, la m´ediane est unique.
2. Si la s´erie est donn´ee par l’ensemble des couples (xi , ni ), i = 1, . . . , J o`
u x1 < x2 < . . . <
xJ sont les valeurs distinctes observ´ees avec les effectifs n1 , . . . , nJ , la d´etermination de
la m´ediane peut se faire directement `a partir des distributions des effectifs cumul´es ou
des fr´equences cumul´ees ou `a partir des courbes cumulatives correspondantes.
(a) S’il existe une valeur xj telle que Nj−1 <
x˜ = xj .
(b) S’il existe une valeur xj telle que Nj =

n
2

n
2

< Nj (resp. Fj−1 <

(resp. Fj = 12 ), alors x˜ =

1
2

< Fj ), alors

xj +xj+1
.
2

Ces deux cas sont repr´esent´es sur respectivement le premier et le deuxi`eme dessin de la
Figure 3.2.

Figure 3.2: D´etermination de la m´ediane `a partir de la courbe cumulative y = N (x)



Documents similaires


recapitulatif stats
statistiques iv
statistiques iii
cours de stats
seance 5
td 1 statistique descriptive


Sur le même sujet..