memoire RCS ouri benji .pdf



Nom original: memoire_RCS_ouri_benji.pdf
Titre: Analyse de données macroéconomiques sur le tourisme, développement et applications économétriques
Auteur: Romain Collenot-Spriet, Ouriane Aïssou, Benjamin Izérable; Université Paris 1 Panthéon-Sorbonne, Master 1 Econométrie-Statistiques

Ce document au format PDF 1.5 a été généré par LaTeX with hyperref package / XeTeX 0.99998, et a été envoyé sur fichier-pdf.fr le 06/02/2018 à 10:21, depuis l'adresse IP 193.55.x.x. La présente page de téléchargement du fichier a été vue 390 fois.
Taille du document: 1.1 Mo (53 pages).
Confidentialité: fichier public


Aperçu du document


Analyse de données macroéconomiques sur le tourisme,
développement et applications économétriques
Projet statistique appliquée sur R
Romain Collenot-Spriet, Ouriane Aïssou, Benjamin Izérable
Université Paris 1 Panthéon-Sorbonne, Master 1 Econométrie-Statistiques
Décembre 2017
Abstract
L’objectif de ce projet est de s’intéresser aux relations entre développement économique, touristique
et envirronnemental. Nous détaillons les étape de création de la base à partir de données pertinentes
provenant de différentes sources puis nous créons une variable spécifique pour étudier le tourisme sous
un angle différent de celui adopté par la littérature en général. A partir de cette base, nous faisons une
cartographie des pays qui nous permet de les rassembler en groupes homogènes. On remarque alors un
découpage très semblable au à celui des continents. Après cette étude qualitative, nous nous intéressons à
l’intensité des relations entre responsabilité écologique, développement et tourisme. Un résultat marquant
de cette étude est la mise en avant de leaders touristiques atypiques.

Contents
1 Introduction

2

2 Revue de littérature

2

3 Traitement des données
3.1 Importation des bases et suppression des symboles associés aux nombres
3.2 Fusion des bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Conversion des variables caractère en numérique . . . . . . . . . . . . .
3.4 Traitement des valeurs manquantes . . . . . . . . . . . . . . . . . . . . .
3.5 Création de nouvelles variables. . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

2
3
4
5
6
10

4 Analyse statistique
4.1 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Analyse en Composante Principale (ACP) . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Utilisation de notre indicateur du tourisme . . . . . . . . . . . . . . . . . . . . . . .
4.5 Analyse Factorielle des Correspondances (AFC) . . . . . . . . . . . . . . . . . . . . .
4.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Tandem Analysis : appliquer une CAH sur les dimensions de l’ACP non normalisées
4.8 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

12
12
16
17
23
28
31
33
38

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

5 Applications économétriques
42
5.1 Croissance économique et empreinte énergétique . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Modélisation non-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6 Conclusion

53

1

1

Introduction

Par ce présent mémoire, nous avons voulu traiter le lien existant entre le tourisme, et le développement
des pays de manière innovante, en utilisant un indice du tourisme relatif. Cet indice, calculé spécialement
pour notre étude, apporte une vision différente de celle adoptée par la littérature contemporaine. En effet,
le tourisme est exclusivement étudié à travers le prisme du nombre absolu de touristes, et nous avons tous
en mémoire le trio de tête composé de la France, des Etats-Unis et de l’Espagne. Cependant la présence
de la Chine en quatrième position de ce classement, nous a poussé à adopter une démarche critique et à
repenser la manière académique d’aborder le tourisme. Qu’en est-il du tourisme des pays, une fois neutralisé
l’effet taille? Quel est le réel impact du tourisme sur l’économie des pays? C’est précisément à ces questions
que nous allons tenter de répondre dans notre recherche. Pour ce faire nous avons constitué notre propre
base de données, rassemblant 165 pays. Nous avons tenté d’être le plus complet possible compte tenu des
variables nécessaires à notre étude. Aussi, nous avons voulu synthétiser l’ensemble exhaustif des méthodes
statistiques apprises en cours. Dans cette entreprise, nous avons donc quelque peu élargi le sujet en traitant
par exemple la cas révélé atypique des pays d’Afrique, ou encore en identifiant précisément les differences
principales existantes entre les pays de notre base de données.

2

Revue de littérature

En passant en revue les différents articles de recherche traitant du tourisme nous avons pu nous apercevoir
q’un sujet était devenu incontournable depuis plusieurs décennies : le tourisme durable. A l’image de
l’article de Monsieur Liu dans le Journal of sustainable tourism, paru en 2003 et intitulé Substainable
tourism development, le développement d’un tourisme durable et respectueux de la nature semble dans l’air
du temps. En intégrant l’Indice de Performance Environnementale à notre recherche, nous avons voulu voir
le lien réel entre le tourisme et le niveau écologique des pays. A première vue, les pays à tourisme intensif
devraient ressortir comme étant mauvais en matière de performance environnementale, mais que ressort-il
vraiment dans notre enquête? Le lien entre économie et tourisme est également largement mentionné dans
la littérature, à l’image de l’article de Lee et Chang publié en 2008 et intitulé Tourism developement and
economic growth. La majorité de ces articles traitent le nombre de touristes absolu, ensuite mis en lien
avec une croissance et un PIB par habitant bien relatif. Mais en terme relatif existe-t-il réellement un lien
entre croissance économique et tourisme? C’est l’une des questions auxquelles nous tenterons de répondre
dans cette recherche. Pour finir cette courte revue de littérature nous citerons l’article de Dieke intitulé The
polictical economy of tourism developement in Africa paru en 2000. Cet article met l’accent sur les efforts
africains faits en matière de tourisme, à l’image notamment de l’Afrique du Sud, pionnier dans le domaine
qui a basé une grande partie de son économie sur le tourisme. Cet article est intéressant pour comprendre
la particularité confirmée dans notre article des pays africains, notamment en terme de développement.

3

Traitement des données

Nous analysons dans ce devoir le lien existant entre tourisme et développement mais aussi performance
environnementale, parmi un échatillon de près de 200 pays à la date de 2013.
Premièrement, nous allons vous présenter la démarche qui nous a permis de constituer notre base. Cette
étape a été la plus chronophage du mémoire et mérite que l’on s’y attarde.
Tout d’abord voici les packages utilisés dans ce devoir (stringr est essentiel pour le traitement de notre base
notamment avec les fonctions sub, gsub, replace, str_sub…)
library(stringr)
library(FactoMineR)
library(factoextra)
library(corrplot)

2

library(broom)
library(dplyr)
library(tidyr)
library(ggplot2)
library(modelr)
library(plotROC)
library(lmtest)

3.1

Importation des bases et suppression des symboles associés aux nombres

Nous avons récolté des bases de données sur PopulationData.net et nous vous présentons dans cette partie
toutes les étapes et tous les problèmes que nous avons dus résoudre pour constituer la base finale de notre
analyse.
La première base est celle relative au PIB, nous l’importons et nous séléctionnons les colonnes qui nous
intéressent c’est à dire le pays (V2), le continent (V3), et la valeur du PIB (V4).
pib<-read.table(file = "pib.csv", dec=",",sep=";")
pib2<-pib[,c(2,3,4)]
Pour les autres importations de base, nous avons procédé avec la même méthode que ci-dessus mais nous
expliquerons les commandes supplémentaires qui nous ont permis de répondre à certains problèmes posés
par ces tables.
natalité<-read.table("natalité.csv", dec=",",sep=";")
natalité2<-natalité[,c(2,4)]
natalité2$V4<-str_sub(natalité2$V4,1,4)
mortalité<-read.table("mortalié.csv", dec=",",sep=";")
mortalité2<-mortalité[,c(2,4)]
mortalité2$V4<-str_sub(mortalité2$V4,1,4)
#Visualisation du problème
head(mortalité)
##
##
##
##
##
##
##

1
2
3
4
5
6

V1
V2
V3
V4
NA Afrique du Sud Afrique 32,80 ‰
NA
Albanie Europe 8,70 ‰
NA
Algérie Afrique 20,90 ‰
NA
Allemagne Europe 2,20 ‰
NA
Andorre Europe 2,10 ‰
NA
Angola Afrique 76,50 ‰

V5
NA
NA
NA
NA
NA
NA

La nouvelle commande présente en troisième ligne des deux blocs nous permet de résoudre un problème
majeur. En effet, sur les tables “natalité” et “mortalité”, les variables correspondantes ont été rentrées
en pour-mille avec le “‰” associé aux nombres. Le problème est que Rstudio prend alors la variable en
caractère alors qu’évidemment nous la voulons en numérique. Ainsi, “str_sub”” nous permet de séléctionner
les quatre premiers caractères de la variable qui sont ceux qui nous intérressent. (le “‰” etant de ce fait
supprimé).
esperance<-read.table("esperance.csv", dec=",",sep=";")
esperance2<-esperance[,c(2,4)]
esperance2$V4<-str_sub(esperance2$V4,1,5)
#Visualisation du problème

3

head(esperance)
##
##
##
##
##
##
##

1
2
3
4
5
6

V1
V2
V3
V4 V5
NA Afrique du Sud Afrique 64,00 ans NA
NA
Albanie Europe 78,55 ans NA
NA
Algérie Afrique 77,60 ans NA
NA
Allemagne Europe 80,26 ans NA
NA
Andorre Europe 89,14 ans NA
NA
Angola Afrique 60,29 ans NA

Nous effectuons les mêmes commandes pour esperance, mais cette fois-ci pour enlever le “ans” à la fin du
nombre.
demo<-read.table("demo.csv", dec=",",sep=";")
demo2<-demo[,c(2,3)]
demo2$V3<-str_replace_all(demo2$V3,"hab.","")
#Visualisation du problème
head(demo)
##
##
##
##
##
##
##

1
2
3
4
5
6

V1
V2
V3 V4 V5 V6
NA
NA NA NA
NA
Chine 1 374 620 387 hab. NA NA NA
NA
Inde 1 295 237 138 hab. NA NA NA
NA États-Unis
326 205 445 hab. NA NA NA
NA Indonésie
265 061 322 hab. NA NA NA
NA
Brésil
208 163 965 hab. NA NA NA

Nous avons rencontré ici un nouveau problème, car la fonction “str_sub”” permet de garder les X caractères
d’une variable, or ici, la population est représentée par un nombre allant de 3 chiffres à 10 chiffres dans notre
base. Nous utilisons donc la fonction str_replace qui nous permet de remplacer le “hab.” à la fin du nombre
par “rien” (symbolisé ici par “”).
touriste<-read.table("touriste.csv", dec=",",sep=";")
touriste2<-touriste[,c(2,4)]
ipe<-read.table("ipe.csv", dec=",",sep=";")
ipe2<-ipe[-c(172,173),c(2,4)]
idh<-read.table("idh.csv",sep=";",dec=",")
idh2<-idh[-c(194),c(2,4)]
Ces 3 tables ne présentent à première vue aucun problème et nous les importons normalement.

3.2

Fusion des bases

La focntion merge nous permet de fusionner en fonction d’un variable (ici V2 qui est la variable pays). La
focntion all=T nous permet de garder même les pays n’étant que dans une des 2 bases à “merger”. Par
défaut la commande merge ne garde que les pays présents simultanément dans les 2 bases. Nous utilisons la
commande all=T quand ceci nous paraît pertinent par rapport à notre base et notre problématique.
data1<-merge(natalité2,mortalité2,by="V2",all=T)
data2<-merge(data1,esperance2,by="V2",all=T)
data3<-merge(data2,touriste2,by="V2",all=T)
data4<-merge(data3,pib2,by="V2",all=T)
data4b<-merge(data4,demo2,by="V2")

4

data5<-merge(data4b,ipe2,by="V2")
data6<-merge(data5,idh2,by="V2")
names(data6)<-c("pays","natalité","mortalité","esperance","touristes","continent",
"pib","habitants","ipe","idh")
Nous renommons également les variables de la nouvelle base avec la fonction “names”

3.3

Conversion des variables caractère en numérique

str(data6)
## 'data.frame':
166 obs. of 10 variables:
## $ pays
: Factor w/ 215 levels "Afrique du Sud",..: 1 2 3 4 6 8 9 10 11 13 ...
## $ natalité : chr "21,3" "11,0" "26,0" "8,40" ...
## $ mortalité: chr "32,8" "8,70" "20,9" "2,20" ...
## $ esperance: chr "64,00" "78,55" "77,60" "80,26" ...
## $ touristes: Factor w/ 211 levels "1 000","1 007 000",..: 39 139 33 127 167 194 72 154 8 179 ...
## $ continent: Factor w/ 5 levels "Afrique","Amériques",..: 1 4 1 4 1 2 3 2 3 5 ...
## $ pib
: Factor w/ 213 levels "","1 009","1 040",..: 148 101 115 133 88 33 65 30 91 143 ...
## $ habitants: chr "56 521 948 " "2 876 591 " "41 267 046 " "82 799 977 " ...
## $ ipe
: num 70.5 71.4 70.3 84.3 51.3 ...
## $ idh
: num 0.666 0.764 0.745 0.926 0.533 0.786 0.847 0.827 0.743 0.939 ...
Nous remarquons que beaucoup de variables numériques sont comptées en caractère par Rstudio. Pour les
3 variables suivantes le problème vient de la décimale (,).
data6$natalité<-sub(",", ".", data6$natalité)
data6$natalité<-as.numeric(as.character(data6$natalité))
data6$mortalité<-sub(",", ".", data6$mortalité)
data6$mortalité<-as.numeric(as.character(data6$mortalité))
data6$esperance<-sub(",", ".", data6$esperance)
data6$esperance<-as.numeric(as.character(data6$esperance))
#Visualisation du problème
head(natalité2)
##
##
##
##
##
##
##

V2
V4
1 Afrique du Sud 21,3
2
Albanie 11,0
3
Algérie 26,0
4
Allemagne 8,40
Andorre 8,67
5
6
Angola 38,6

La commande sub permet de remplacer les “,” par des “.”. Ensuite la commande “as.numeric”” permet de
convertir en numérique la variable caractère.
Le problème des 3 variables suivantes est que les nombres sont marqués d’un espace tous les 3 chiffres, ce
qui ne permet pas à Rstudio de voir les variables comme des variables numériques (1000000 est écrit dans la
table : 1 000 000).
data6$touristes<-gsub("[[:space:]]","", data6$touristes)
data6$touristes<-as.numeric(as.character(data6$touristes))

5

data6$pib<-gsub("[[:space:]]","", data6$pib)
data6$pib<-as.numeric(as.character(data6$pib))
data6$habitants<-gsub("[[:space:]]","", data6$habitants)
data6$habitants<-as.numeric(as.character(data6$habitants))
#Visualisation du problème
head(touriste2)
##
##
##
##
##
##
##

V2
V4
1 Afrique du Sud 10 044 000
2
Albanie 4 735 511
3
Algérie 1 710 000
4
Allemagne 35 579 000
Andorre 2 999 722
5
6
Angola
592 000

La focntion gsub permet de remplacer les espaces par rien. Pour que Rstudio comprenne espace il fallait
mettre : [[:space:]] et non pas ” ”
Nous remplacons les numéros des lignes par le nom des pays (colonne 1), et nous supprimons dans la foulée
la variable pays devenue obsolète.
rownames(data6)<-data6[,1]
data6<-data6[,-c(1)]
data6<-data6[-40,]
# on enlève la cote d'ivoire

3.4

Traitement des valeurs manquantes

Nous allons ici mettre en oeuvre quelques techniques de remplacement des valeurs manquantes, en choississant
pour chacune des 5 valeurs manquantes (NA) la méthode qui paraît la plus pertinente.
3.4.1

NA esperance de vie Canada

Pour le Canada nous décidons simplement de remplacer la valeur manquante pour l’espérance de vie par sa
valeur trouvée sur le site des statistiques officielles du Canada. En effet la valeur nous semblait aisément
accessible et le plus pertinent était de remplacer le NA par la vraie valeur (81.80)
data6$esperance[row.names(data6)=="Canada"]<-81.80

3.4.2

NA espérance de vie Oman

Pour la valeur de l’esperance de vie d’Oman nous n’avons pas la chance d’avoir un site national nous
permettant de receuillir la donnée exacte. Nous devons procéder à une autre méthode. Il nous vient l’idée
de faire un graphique représentant l’espérance de vie en fonction de la mortalité
plot(data6$mortalité,data6$esperance,col="black",xlab="Mortalité
infantile (1/1000)",ylab="Espérance de vie (années)")
reg1<-lm(data6$esperance~data6$mortalité)
abline(reg1)

6

80
70
60
50
40
30

Espérance de vie (années)

0

20

40

60
Mortalité
infantile (1/1000)

80

100

Figure 1: Espérance de vie et mortalité infantile
Nous voyons une relation à peu près linéaire et connaissant la valeur de la mortalité pour Oman (sur notre
base) nous décidons de faire une régression pour récupérer ensuite la veleur de l’éspérance de vie.
summary(reg1)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

Call:
lm(formula = data6$esperance ~ data6$mortalité)
Residuals:
Min
1Q
-24.9082 -1.8676

Median
0.4503

3Q
2.1492

Max
11.7345

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
79.5920
0.4864 163.64
<2e-16 ***
data6$mortalité -0.3265
0.0140 -23.33
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.242 on 160 degrees of freedom
(3 observations deleted due to missingness)
Multiple R-squared: 0.7728, Adjusted R-squared: 0.7714
F-statistic: 544.1 on 1 and 160 DF, p-value: < 2.2e-16

Grâce à la régression nous trouvons une valeur approchée de l’espérance de vie pour Oman et nous la mettons
dans la table. (type y=ax+b où a et b connu par reg1 et x connu dans la table)
espOman<-79.56413-0.32668*data6$mortalité[row.names(data6)=="Oman"]
espOman
## [1] 76.98336

7

26
24
22
20
18
14

16

Mortalité
Infantile (1/1000)

1995

2000

2005

2010

Années

Figure 2: Mortalité infantile au Mexique

data6$esperance[row.names(data6)=="Oman"]<-espOman

3.4.3

NA mortalité Mexique

La troisième valeur manquante est la mortalité du Mexique. Le mexique est un pays de l’OCDE et nous
avons retrouvé les données relatives à la mortalité de 1995 à 2012 sur le site de l’OCDE. Nous allons voir la
tendance pour pouvoir faire une prévision pour 2013. Nous importons premièrement la base.
Mexique<-read.table("Mexique.csv",sep=",",quote="\\")
Mexique<-Mexique[,c(9,10)]
Mexique$V9<-str_sub(Mexique$V9,3,6)
Mexique$V9<-as.numeric(as.character(Mexique$V9))
On à enlver les “” aux dates pour que celles ci soient prises comme des variables numériques par Rstudio.
Nous faisons ensuite un graphique de mortalité=f(année) pour voir la relation.
plot(Mexique$V9,Mexique$V10,xlab="Années",ylab="Mortalité
Infantile (1/1000)", col="black")
Nous observons une relation pas vraiment linéaire (Convexe), donc on décide de faire un log niveau (ou
semilog) pour la régression.
reg2<-lm(log(Mexique$V10)~Mexique$V9)
summary(reg2)
##
##
##
##
##
##
##
##
##
##

Call:
lm(formula = log(Mexique$V10) ~ Mexique$V9)
Residuals:
Min
1Q
Median
-0.014531 -0.009611 -0.003035

3Q
0.007467

Max
0.026420

Coefficients:
Estimate Std. Error t value Pr(>|t|)
8

##
##
##
##
##
##
##
##

(Intercept) 83.0609583 1.1475115
72.38
<2e-16 ***
Mexique$V9 -0.0400097 0.0005728 -69.86
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.01261 on 16 degrees of freedom
Multiple R-squared: 0.9967, Adjusted R-squared: 0.9965
F-statistic: 4880 on 1 and 16 DF, p-value: < 2.2e-16

La regression log niveau est significative et nous permet de faire une prévison de la mortalité pour 2013
grâce à une bonne interprétation du log niveau : une variation d’une unité de x entraîne une variation de
beta% de y. Ici une variation d’une année entraîne une variation de la mortalité de -4% par rapport à l’année
précedente. On écrit donc la mortalité du Mexique en 2013 comme ceci.
mortMexique<-Mexique$V10[Mexique$V9=="2012"]*(1-0.0400097)
mortMexique
## [1] 12.76787
data6$mortalité[row.names(data6)=="Mexique"]<-mortMexique
On met la valeur trouvée dans la table.
3.4.4

NA esperance de vie Finlande

Pour l’espérance de vie de la Finlande (4ème NA), on pourrait appliquer par exemple la méthode de la
moyenne : mettre la moyenne de l’espérance de vie de l’ensemble de notre base. Mais avant regardons le
graphique suivant.
plot(data6$esperance~data6$pib,xlab="PIB/habitants ($)",ylab="Espérance de vie
(années)",main="Esperance de vie et PIB/habitant", col="black")

70
60
50
30

40

Espérance de vie
(années)

80

Esperance de vie et PIB/habitant

0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

PIB/habitants ($)

A la vision du graphique, il nous semble plus pertinent de sélectionner les pays riches (PIB>24000) pour
trouver une espérance en cohérence pour la Finlande. En effet comme nous montre le graphique ci-dessus,
la relation est concave (type logarythmique). Vu que la Finlande a un PIB de 42000 et que l’asymptote
apparaît pour un PIB >24000, on prendra les pays >24000 (2000/mois) comme valeur arbitraire cohérente

9

de sépartation de la table. On remplace donc le NA de la Finlande par la moyenne de l’espérance des pays
ayant un PIB>24000.
esp<-mean(data6$esperance[data6$pib>24000],na.rm =T)
esp
## [1] 81.13357
data6$esperance[row.names(data6)=="Finlande"]<-esp

3.4.5

NA pib Equateur

Pour le dernier NA (PIB de l’Equateur) on utilise la méthode des distances euclidiennes, pour déterminer le
pays le plus ressemblant à l’Equateur.
Nous avons créé la base data7 en enlevant la variable qualitative “continent” et la variable “pib” qui est
manquante pour l’Equateur. Ensuite nous centrons reduisons la table, la convertissons en data frame, puis
créons la matrice des distance pour ensuite chercher la distance minimum et le pays correspondant (pays le
plus près de l’Equateur).
data7<-data6[,-c(5,6,7)]
data7cr<-scale(data7,center = T,scale=T)
data7cr<-as.data.frame(data7cr)
dist<-as.matrix(dist(data7cr))
which.min(dist[row.names(dist)=="Équateur"])
## [1] 46
Attention la matrice a en sa diagonale des valeurs correspondant à la distance entre le même pays, qui est
donc égale à 0. Donc cette commande nous renvoie à l’Equateur lui même.
which.min(dist[row.names(dist)=="Équateur",-c(47)])
## Équateur
##
46
data6$pib[row.names(data6)=="Équateur"]<-data6$pib[row.names(data6)=="Pérou"]
Donc c’est avec cette commande (on a enlvé la colonne 47 correspondant à l’équateur comme nous l’avons
vu) que nous avons le pays le plus proche de l’Equateur sur notre base : le Pérou. Nous remplacons donc le
NA par le PIB du pérou.
Voilà comment nous avos traité les NA. nous avons essayer de présenter différentes manière de traiter ces
NA mais cette liste n’est pas exhaustive. En effet nous aurions pu effectuer la méthode de la distance de
Manhattan ou de Mahalanobis par exemple.

3.5

Création de nouvelles variables.

Nous décidons de créer une nouvelle variable “tourpib” permettant de mieux rendre compte du tourisme et
son rapport au PIB et au nombre d’habitants du pays. Et nous verrons que cela changera profondement les
conclusions de notre ACP. En effet le nombre de touriste est à notre avis à mettre en relation avec l’échelle
économique et démographique du pays donc nous créons notre propre indicateur permettant de capter toutes
ces informations.
data6$tourpib<-data6$touristes*10000/(data6$pib*data6$habitants)

10

Nous décidons aussi de créer une variable qualitative ordinale en fonction de la valeur prise par la variable
“idh”. Cela nous permttra d’effectuer une AFC car on aura 2 vraribales qualitatives dans notre base et voir
si il existe une relation entre idh et continent.
data6$dvp[data6$idh>0.85]<-5
data6$dvp[data6$idh<0.85 & data6$idh>0.75]<-4
data6$dvp[data6$idh<=0.75 & data6$idh>0.60]<-3
data6$dvp[data6$idh<0.60 & data6$idh>0.50]<-2
data6$dvp[data6$idh<0.50]<-1
Enfin nous transformons l’ipe en indice (allant de 0 à 1).
data6$ipe<-data6$ipe/100
Pour finir nous enlevons la variable habitants qui nous sert à rien dans notre analyse en tant que telle. Elle
nous a juste servi à cacluer notre indice : “tourpib”.
data6<-data6[,-c(7)]
head(data6)
##
##
##
##
##
##
##
##
##
##
##
##
##
##

natalité mortalité esperance touristes continent
pib
21.3
32.8
64.00 10044000
Afrique 5274
11.0
8.7
78.55
4735511
Europe 3945
26.0
20.9
77.60
1710000
Afrique 3804
8.4
2.2
80.26 35579000
Europe 41219
38.6
76.5
60.29
592000
Afrique 3111
15.8
12.5
76.50
852250 Amériques 13715
ipe
idh
tourpib dvp
Afrique du Sud
0.7052 0.666 0.33693758
3
Albanie
0.7141 0.764 4.17293601
4
Algérie
0.7028 0.745 0.10893118
3
Allemagne
0.8426 0.926 0.10424760
5
Angola
0.5132 0.533 0.06808035
2
Antigua-et-Barbuda 0.6980 0.786 6.53850529
4

Afrique du Sud
Albanie
Algérie
Allemagne
Angola
Antigua-et-Barbuda

Notre base est enfin constituée et prête pour l’ACP, le clustering et la régression que nous effectuerons dans
les parties suivantes.

11

4

Analyse statistique

4.1

Variables quantitatives

Tout d’abord, nous allons commencer par faire les graphiques des variables quantitatives sur une vue globale,
pour ensuite illustrer plus précisement quelques relations qui nous paraissent pertinentes.
plot(data6[,-c(5,10)], main="Visualisation de tous les graphiques", col="brown")
Visualisation de tous les graphiques
40

80

0e+00

4e+07

8e+07

0.4

0.6

0.8

0

2

4

6
50

0

80

10

natalité

30 70

0

mortalité
esperance

0e+00

touristes
0e+00

0.4 0.9

pib

0.4 0.9

ipe
idh

0

4

tourpib
10

30

50

30

50

70

0e+00

6e+04

0.4

0.6

0.8

Nous avons enlever les 2 variables qualitatives dans cette commande. Nous voyons des liens très forts entre
de nombreuses variables mais nous ne présenterons en details que quelques unes de ces relations. En effet,
nous ne voulons pas charger plus que ce qu’il faut ce mémoire. Nous retiendrons donc 4 relations nous
permttant d’illustrer des phénoménes économiques trés connus.
4.1.1

Le paradoxe d’Easterlin

plot(data6$pib,data6$idh,,xlab="PIB/habitant ($)",ylab="IDH",main="Paradoxe
d'Easterlin", col=blues9)

12

0.7
0.6
0.4

0.5

IDH

0.8

0.9

Paradoxe
d'Easterlin

0e+00

2e+04

4e+04

6e+04

8e+04

1e+05

PIB/habitant ($)

L’IDH est un indice de développement allant plus loin que le simple développement économique mercantile,
en prenant en compte la santé ou encore l’éducation en plus de la richesse. Nous pouvons donc l’assimiler au
bonheur en général, les paramètres incluent dans l’IDH influençant fortement le bien-être. Nous voyons sur
ce graphique une parfaite illustration du trés célébre paradoxe d’Easterlin : Le PIB en s’accroissant permet
d’augmenter le bonheur d’une population (ici l’IDH), mais à partir d’un certain seuil, l’augmentation du
PIB ne permet plus d’accroître le bonheur (rendement marginal proche de zéro après un certain seuil). Ceci
est illustré par la concavité de la courbe, où le bonheur semble atteindre un palier à partir d’une valeur du
PIB de 30000euros environ.
4.1.2

Ecologie versus Développement

plot(data6$idh,data6$ipe, xlab="IDH",ylab="IPE",main="Performance écologique et développement"
, col="green")
reg3<-lm(data6$ipe~data6$idh)
abline(reg3)

13

0.6
0.4

0.5

IPE

0.7

0.8

0.9

Performance écologique et développement

0.4

0.5

0.6

0.7

0.8

0.9

IDH

Nous voyons ici un phénoméne économique trés interressant. Les pays ayant un niveau de développement plus
élevé semblent avoir de meilleures performances environnementales. Ceci conforte la vision assez répandue
selon laquelle les pays peu développés ou en cours de développemnt seraient les pays les plus pollueur, à
l’image de la Chine. 2 interprétations sont alors possibles pour expliquer ce phénomène. D’un coté, on peut
expliquer ce fait, en affirmant que les pays peu ou moyennement développés seraient plus intérréssés par
leur développement économique que par l’enjeu écologique. Cette vision nous semble un peu réductrice, et
une autre interprétation serait de mettre ce phénomène en lien avec la désindustrialisation opérée dans les
pays développés au cours des dernières décennies, donnant alors le rôle aux pays peu développés de véritable
“usines” permettant de fournir les pays les plus développés. Cette analyse remet alors en cause les bons
indices de performances environnementales obtenus par les pays développés, qui par leur consommation de
produits manufacturés venant des pays pauvres, sont tout aussi responsables de la pollution rejettée par ces
derniers.
4.1.3

Transition démographique

Pour étudier ce phénomène nous effectuons 2 graphiques.
plot(data6$idh,data6$natalité, xlab="IDH", ylab="Taux de natalité
(1/1000)",main="Taux de natalité et développement",
col="magenta")
reg4<-lm(data6$natalité~data6$idh)
abline(reg4)

14

30
20
10

Taux de natalité
(1/1000)

40

50

Taux de natalité et développement

0.4

0.5

0.6

0.7

0.8

0.9

IDH

plot(data6$idh,data6$esperance, xlab="IDH",ylab="Espérance de vie (années)",
main="L'espérance de vie et développement", col="purple")
reg5<-lm(data6$esperance~data6$idh)
abline(reg5)

70
60
50
40
30

Espérance de vie (années)

80

L'espérance de vie et développement

0.4

0.5

0.6

0.7

0.8

0.9

IDH

Les 2 graphiques ci-dessus nous permettent de mettre l’accent sur une phénomène démographique trés connu
: La transition démographique. En effet ce phénomene décrit le passage d’une population à fort taux de
natalité et à faible espérance de vie, à une population dotée d’une natalité faible et d’une espérance de
vie haute. Ici ce phénomene est parfaietment visible. En effet grâce au graphique 1 nous voyons que
plus le pays est développé plus son taux de natalité est faible (moyens de contraception, émancipation de
la femme, recul du religieux…). Ce phénomene est trés visible aujourd’hui avec par exemple le contraste
d’un continent africain en plein boom démographique et d’une Europe peinant à renouveller sa population.
L’immigration permettant de pallier à ce problème comme un système de vase communiquant, le sujet
n’en finit pas d’alimenter les nombreux débats politiques et identitaires. Ce recul de la natalité dans les
pays développés est un problème majeur surtout pour les pays ayant opté pour un système de retraite par
répartition. Le deuxieme graphique illustre la deuxième composante de la transition démographique, à savoir
15

que le développement entraîne un accroissement de l’espérance de vie grâce notamment à une amélioration
des conditions de santé. Les 2 phénomènes illustrés par les 2 graphiques forment conjointement ce qu’on
appelle la transition démographique.
Nous aurions pu illustrer d’autres relations quantitatives présentent dans notre base, mais dans un soucis de
légereté, nous nous cantonnerons à ces 4 analyses.

4.2

Variables qualitatives

t1<-table(data6$continent)
pct1=round(t1/nrow(data6),3)
pie(t1,labels=paste(names(t1),pct1),main="Répartition des pays par continent (%)")

Répartition des pays par continent (%)

Afrique 0.285

Amériques 0.176

Océanie 0.048
Asie 0.248
Europe 0.242
Nous avons représenter ici la répartition des pays en fonction du continent. Nous pouvons voir que le nombre
de pays de l’Océanie est beaucoup plus faible que celui des autres continents.
t2<-table(data6$dvp)
barplot(t2,names.arg=c("trés faible","faible","moyen","fort","trés fort"),
main="Répartition des pays le selon niveau de développement",
col=c("green","red","yellow","pink","blue"),xlab="Developpement", ylab="Nombre de pays")

16

30
20
0

10

Nombre de pays

40

Répartition des pays le selon niveau de développement

trés faible

faible

moyen

fort

trés fort

Developpement

Nous voyons la répartition des pays en fonction de leur catégorie de développement. L’indice que nous avons
construit réparti assez equitablement les pays entre les classes.

4.3
4.3.1

Analyse en Composante Principale (ACP)
Tourisme en valeur absolue

data8<-data6[,-c(9,10)]
La base data8 nous servira pour notre première ACP. Nous avons volontairement laissé la variable “continent”
qui nous servira de variable supplémentaire.
library(corrplot)
co<-cor(data8[,-c(5)])
corrplot(co)

17

idh

ipe

pib

touristes

esperance

mortalité

natalité

1

natalité

0.8
0.6

mortalité

0.4

esperance
0.2

touristes

0
−0.2

pib

−0.4

ipe

−0.6
−0.8

idh

−1
Pour le corrplpot nous avons enlevé momentanément la variable continent (qualitative). Nous voyons de
nombreuses corrélations entre les différentes variables et qui, qui plus est, sont trés fortes. Il n’y a aucune
incohérence à cela, en effet il est normal que l’espérance de vie soit corrélée négativement à la natalité (cf
: théorie de la trasition démographique), ou encore que la mortalité infantile soit corrélée négativement à
l’IDH (le développement améliore le système de santé et fait donc reculer la mortalité infantile), par exemple.
En fait, mis à part le tourisme, toutes les autres variables sont des variables témoignant du développement
et sont donc hautement corrélées. Le tourisme justement en valeur absolue, bien que plus faiblement corrélé
semble avoir des liens tout de même avec le développement (représenté par les autre variables)
res.pca<-PCA(data8,quali.sup = 5,graph=FALSE)
eig.val<-get_eigenvalue(res.pca)
eig.val
##
##
##
##
##
##
##
##

Dim.1
Dim.2
Dim.3
Dim.4
Dim.5
Dim.6
Dim.7

eigenvalue variance.percent cumulative.variance.percent
4.91308977
70.1869967
70.18700
0.80898654
11.5569505
81.74395
0.57353574
8.1933678
89.93731
0.34012872
4.8589816
94.79630
0.18942555
2.7060792
97.50238
0.11062186
1.5803123
99.08269
0.06421183
0.9173119
100.00000

Nous faisons l’ACP en mentionnant la variable “continent” comme variable qualitative supplémentaire. On
visualise les valeurs propres et leurs pourcentages (7 en tout). Par exemple on peut voir que les 2 premières
dimensions récoltent 81% de l’information de la base. Cela peut déja nous orienter vers le nombre de
dimensions à conserver mais le graphique suivant sera plus parlant pour cette tâche.
fviz_eig(res.pca, addlabels = TRUE, title="Choix du nombre d'axes",
ylab="Pourcentage de variance expliquée" )

18

Choix du nombre d'axes
70.2%

Pourcentage de variance expliquée

60

40

20

11.6%
8.2%
4.9%

2.7%

1.6%

0.9%

5

6

7

0
1

2

3

4

Dimensions

Ce graphique est déterminant pour choisir le nombre de dimensions à conserver. Il existe en effet 3 manières
de choisir : -le coude sur le graphique -rassembler par exemple 80% de l’information de la base (ou fixer un
autre seuil en fonction) -choisir 2 axes pour une interprétation plus aisée de l’ACP. Ici nous conserverons les
2 premiers axes, car les 3 méthodes convergent vers cette option. En effet, le coude est visible au niveau de
la deuxieme dimension, les 2 premières dimensions explique également plus de 80% de la variance de la base,
et 2 dimensions nous apportent une aisance dans l’interprétation.
fviz_pca_var(res.pca, col.var= "blue",
title="Cercle des corrélations des variables")

Cercle des corrélations des variables
1.0

touristes

Dim2 (11.6%)

0.5

mortalité
natalité

pib
ipe
idh
esperance

0.0

−0.5

−1.0
−1.0

−0.5

0.0

0.5

1.0

Dim1 (70.2%)
Ici nous voyons que l’axe 1 correspond au développement. En effet, l’IDH, le PIB, ou l’espérance de vie

19

sont orientés vers la droite, avec des coordonnées proche du cercle (environ 0,8 sur l’axe 1). A l’opposé,
la natalité et la mortalité s’orientent vers la gauche avec des coordonnées trés bonnes également (envrion
0.8). Le developpement ira donc croissant de gauche à droite. On peut rajouter l’IPE, qui va dans le sens
du developpement, confirmant les résultata de notre analyse préliminaire affirmant que les pays développés
ont de meilleures performances environnementales. Nous pouvons interpréter économiquement cet axe et
en montrer toute sa logique. Le développement entraînant une amélioration des conditions de santé, fait
reculer la mortalité infantile, mais également par le biais de la tranistion démographique fait recluer la
natalité en même temps que l’espérance de vie augmente. Il est également normal que le PIB aille dans le
même sens que le développement, selon un raisonnement écononomique des plus trivial. Enfin l’IDH allant
de 0 (développement nul) à 1 (développement parafit) est selon toute logique dans le sens de notre axe
“développement”.
L’axe 2 est le nombre de touriste en valeur absolue sans contesteation possible (coordonnées de 0.8 sur l’axe
2). PLus le pays sera touristique, plus il sera vers le Haut (pour etre plus précis on peut même dire vers le
coin supérieur droit).
Pour résumer, en bas à gauche nous auront les pays peu developpés et peu touristiques en valeur absolue,
en haut à gauche les pays peu developpés touristiques. En haut à droite les pays developpés touristiques
apparaitront tandis qu’en bas à droite nous trouverons les pays developpés peu touristiques en absolu.
fviz_contrib(res.pca, choice = "var", axes = 1, top = 10,
title="Contribution des variables à l'axe 1")
Contribution des variables à l'axe 1

Contributions (%)

15

10

5

te

s

b

is
ur
to

e

pi

lit
ta
na

ip

é

é
lit
ta
m
or

es

pe

ra
n

id

ce

h

0

Nous voyons ici les variables contribuant à l’axe 1. On voit clairement ici que l’axe 1 sera un axe représentatif
du développement comme le montrait notre cercle des corrélations. On voit cependant que le PIB contribue
moins à l’axe, la moyenne des contributions étant au dessus.
fviz_contrib(res.pca, choice = "var", axes = 2, top = 10,
title="Contribution des variables à l'axe 2")

20

Contribution des variables à l'axe 2
80

Contributions (%)

60

40

20

e
ip

h
id

pi
b

é
na

ta

lit

ce
pe
ra
n
es

m

to

or

ur

is

ta

lit

te
s

é

0

Pour l’axe 2 il n’y a pas de doute, il représente le tourisme du pays en valeur absolue (contribution > 0.8).
fviz_contrib(res.pca, choice = "var", axes =c(1,2),
top = 10,title="Contribution des variables aux axes 1 et 2")
Contribution des variables aux axes 1 et 2

Contributions (%)

15

10

5

b
pi

e
ip

é
ta
na

ra
n
es

pe

lit

ce

é
lit
ta

id

h

m
or

to

ur

is

te

s

0

On voit que les contributions sont globalement bien réparties entre les variables bien que l’IPE et le PIB
soient un peu en dessous de la moyenne.
ind <-get_pca_ind(res.pca)
fviz_contrib(res.pca, choice = "ind",
axes = c(1,2), title="Contribution des individus aux axes 1 et 2")

21

Contribution des individus aux axes 1 et 2

Contributions (%)

4

3

2

1

On voit que les individus ne contribuent pas tous équitablement à l’axe 1 (de plus de 4% pour la France, à
moins de 0,1% pour le Viet-nam)
p<-fviz_pca_ind(res.pca,col.ind.sup="blue",pointsize= "cos2",pointshape= 21,
fill="#E7B800",repel=TRUE)
sup<-fviz_add(p,res.pca$quali.sup$coord,color="red")
sup
Individuals − PCA
5

France
États−Unis

4

3

Dim2 (11.6%)

R

ép

ub
liq Ré
ue pu
dé bli
m qu
oc e É
ra ce ta F
tiqS nt Ets r
G
uui eierrasfrp−aaUnc
nédra Tic gnie
eu L cain s
MLux −BCoeohnaeed
oze isnsgne
I
Swam
mbNtaaou
R
oyA Bazboiqiugleie
l Surilaurgr
Bu aulemm
uu ne
rk ea−igsnsddi
inGCuhUnee
a ininn
M
A
N utaFaéeei
o
Ét rrvilècahswo
h i
AJnaioMpgaee
IsBgépooieli
A
I
r
C Cu llaannlina
ast ndn
Mam
aZ enraadl ee
G
OuSraitmroudiea
ui
N né PauNgauaènbine
ou e S Fysigndie
ve éqinignl−Bérdae
lle uGaaaapn aia
É ds
M D−Zréytotmriobuer
adan Glahralie
a e née
BSgamrèdcee
C CSeloolgusdacrek
or o viqaar
m
é
Sa
ePo Moérnuien
d r aee
o
To
Tc CutTuSgltes
m
Séhéonougadl
Pa
é
po Ém −e T EDsjnibéqgugioo
ua
ira Ct−PaYnétoouael
P zmn t
si
e− ts aZamariknacneinei
r im b is i ie
N
ou abebaoHdtpagen
ve Pos bawïe
lu t
lle M
eQxoagnniési
−RGw
M
Li uaiqntuaer
ya
tKuinde
nm T eanéa
ar haCKï irLanyieea
(B Tuhlainbaos
ir Iryqpdeti
Ba m
Gasrure
M SngRuhnaaieiëel
onlola Cssna)
Botévad hie
t néqeusihli
w gi
HsC
Co anroe
C U BSrnroguarbaa
o
strueurntiiee
Bo
M
ag e
sn
RArLgealaRubiaiei
ouettoiscay
ie
n i
Bé −e
NAm
lbatnniniee
t
Anlar −H aO
ma e
tigus eTrzPMGaaminbiiiee
ua (B adéagnubr aone
icn
−e iél jikoavm
t−Soaruistinae
BalosInaden
Tr
s
in M rbmiee
ité aB BL rudon)
−e cuélgibésa
t−UBdoaanil
Ar H BTokoraliivrniee
ab o Kahbainie
Aize Andowregïoe
esrarmuIreaïnt
Mbo ér s
O SGGoalduïddniaiek
uz r reéoajate
CbiéLnargvine
o kandie
is ke
C loNm
a T taa
N B p−oénbpiane
ic ho FVegal
V
Af enaTrautidrt
riq S euznguanji
uÉe qaBl euiesia
Mduvali lae
S aulatdezoe
R
JMauoriPndéSivuudrr
ép
mngarmoes
ub
liq KGirgGSAaaïmqolieeu
ue Puahiulgyéoue
i aria
do arteazm
KamJoÉ gstaanae
g n
Phzainkridcyaupalay
hante
InilipMpastinaiee
Vdi o inron
êtn Ir ec
Nésains
ame

0

2

1

0

−1

Espagne
République démocratique du Congo
Guinée équatoriale
Nigéria
Mexique
Chine
Zambie
Cambodge
Sénégal Laos
Thaïlande
Indonésie
Inde
Swaziland
Myanmar (Birmanie)
Philippines
Italie
Arabie saoudite
Maroc
Angola Pakistan
Turquie
Royaume−Uni
Ukraine
Zimbabwé Namibie
Afrique
du
Sud
Sierra Leone Ouganda
Algérie
Kazakhstan Brésil Hongrie Russie
Égypte
Viêt
Nam
République centrafricaine Congo
Allemagne
Paraguay République dominicaine Émirats arabes unis
Iran
Tanzanie
Éthiopie
Grèce
Pologne
Jordanie
Autriche
Colombie Malaisie
Tchad Malawi
Gabon Équateur
Kiribati
Argentine
Canada
Japon
Venezuela
Bulgarie
Mozambique
Guinée−Bissau
Comores Guatemala
Corée du Sud
Panama
Pays−Bas
Pérou
Niger Burundi
Afrique Irak Kirghizistan
Tchéquie Singapour
Mali
Irlande Suisse
Europe
Guyana Asie Tunisie Croatie
Cameroun
Sao Tomé−et−Principe
Soudan
Slovaquie
Danemark
Kenya Népal
Koweït
AustralieNorvège
Amériques
Trinité−et−Tobago
Togo
Costa RicaQatar
Guinée Gambie
Rwanda
Suède
Bhoutan Samoa
Suriname
Océanie
Géorgie
Albanie
Burkina Faso
Mauritanie Botswana Ghana
Portugal
Luxembourg
Salvador
Mongolie
Antigua−et−Barbuda Chili IsraëlChypre
Bénin Madagascar Yémen Honduras
Grenade
Belgique
Uruguay
OuzbékistanJamaïqueTonga Belize
Lettonie
Islande
Estonie
Nouvelle−Zélande
Haïti Tadjikistan Bolivie Nicaragua Maldives
Maurice
Érythrée
Fidji Sri Lanka
RoumanieCuba Lituanie Finlande
Liban
Bahreïn
Djibouti
Papouasie−Nouvelle−Guinée
Bangladesh
Salomon
Cap−Vert
Moldavie
Azerbaïdjan
Arménie
Macédoine
Bosnie−et−Herzégovine
Bélarus (Biélorussie)
OmanSerbie
Monténégro
Brunei Malte
Slovénie
−5.0

−2.5

0.0

cos2
0.25
0.50
0.75

2.5

Dim1 (70.2%)

La qualité de représentation est bonne pour une majorité de points (cos2>0.75). On voit bien les pays peu
développés à gauche (ex : Zimbabwé) comme prévu et les pays développés à droite (ex: France). Pour ce qui
est du tourisme, 5 pays se démarquent clairement et se retouvent en haut : la France, l’Espagne, les USA,
l’Italie et la Chine. En effet, en valeur absolue, se sont les plus touristiques. Mais on voit que pour un pays
comme la Chine il serait bien d’utiliser un autre indicateur, prenant en compte l’économie et l’echelle du
pays. C’est ce que nous allons faire dans la seconde ACP et nous allons voir si les résultats diffèrent. Pour
nos varaibles intrumentales, il faut se rappeler que le tourisme en absolu va vers le haut mais également un

22

peu vers la droite (en gros vers le coin de droite). Donc l’Afrique, l’Océanie, l’Asie et l’Amerique sont en
realité sur le même plan du point de vue touristique (tourisme moyen). Par contre l’Europe est du coup
globelement plus touristique que les autres continents (va un peu vers le coin haut droit). Pour ce qui est
du developpement, le résultat est sans appel : l’Afrique est le continent le moins developpé. L’Océanie,
l’Asie et l’Amérique se ressemblent beaucoup (d’un point de vue du développement et du tourisme) et sont
moyennement développés, alors que l’Europe est trés développée(vers la droite).
Nous voyons donc qu’en terme absolu, le tourisme est dépendant du développement des pays. Ene effet nous
avons vu que le tourisme en valeur absolu était plus fort dans les pays developpés à l’image de l’Europe. En
effet il est aisément compréhensible qu’un pays développé jouit d’une attractivité plus importante.
Mais pour vraiment rendre compte du tourisme dans un pays et de la dépendance économique de ce pays à
l’activité touristique, il faut estimer le tourisme de manière relative à sa taille et son PIB, ce que nous allons
faire dans l’ACP numéro 2.

4.4

Utilisation de notre indicateur du tourisme

Nous allons ici traiter le tourisme de manière assez innovante. En effet le tourisme est souvent analysé en
terme absolu, et tout le monde sait que la France ou encore les Etats-Unis sont les pays les plus touristiques.
Mais qu’en est-il de la réelle part du tourisme dans l’économie des pays? et quels sont les pays dépendant
réellement du tourisme? En gros quels pays sont vraiment basés sur le tourisme et sont-ils les mêmes que
les “best” souvent annoncé comme la France ou les USA? C’est ce que nous allons voir dans l’ACP suivante.
Pour répondre à ces questions, nous avons créé un indicateur du tourisme appelé “tourpib” reflétant la réel
part du tourisme dans l’économie mais aussi par rapport à la taille du pays : c’est un indicateur relatif du
tourisme permettant de comparer des pays de développemnt différent et de taille différente. Ce qui nous
à mis la puce à l’oreille est de voir la Chine en troisième position dans notre classement, tandis que des
pays pourtant réputés pour leur tourisme se retouvaient relegués au fond du classement. En effet analyser le
tourisme mondial en valeur absolu nous paraissaient peu pertinent quand il s’agissait de comparer un pays
comme la Chine et le Cap vert par exemple.
data9<-data6[,-c(4,10)]
Nous nous servirons de la base9 dans cette ACP, contenant notre variable du tourisme relatif à la place du
tourisme absolu.
co<-cor(data9[,-c(4)])
corrplot(co)

23

tourpib

idh

ipe

pib

esperance

mortalité

natalité

1

natalité

0.8
0.6

mortalité

0.4

esperance
0.2

pib

0
−0.2

ipe

−0.4

idh

−0.6
−0.8

tourpib

−1
La grosse différence par rapport à la matrice des corrélations précedente, est que le “tourpib”“, notre variable
du tourisme n’est plus corrélée aux autres variables de développemnt. Cela nous conforte dans la bonne
construction de cette variable, car c’était exactement le but recherché : isolé le tourisme de ses interactions
avec le niveau de développement du pays ou sa taille, pour pouvoir comparer des pays totalement différents
sur le point du développement ou de la taille, et ainsi pouvoir mesurer le réel impact du tourisme sur un pays.
Cette ACP nous montrera donc quels sont les pays les plus touristiques car on peut comparer le nombre de
touristes entre un pays comme la Chine et un pays comme le Cap vert, ce qui n’était pas faisable dans l’ACP
précdente.
res.pca2<-PCA(data9,quali.sup = 4,graph=FALSE)
eig.val2<-get_eigenvalue(res.pca2)
eig.val2
##
##
##
##
##
##
##
##

Dim.1
Dim.2
Dim.3
Dim.4
Dim.5
Dim.6
Dim.7

eigenvalue variance.percent cumulative.variance.percent
4.69169835
67.0242621
67.02426
1.07363664
15.3376663
82.36193
0.52250780
7.4643971
89.82633
0.34799569
4.9713669
94.79769
0.19015538
2.7165054
97.51420
0.10998248
1.5711783
99.08538
0.06402367
0.9146239
100.00000

On voit la que les 2 premiers axes permettent de conserver plus de 82 % de l’information de notre base.
fviz_eig(res.pca2, addlabels = TRUE,
title="Determinantion du nombre d'axes à conserver",
ylab="Pourcentage de variable expliquée")

24

Determinantion du nombre d'axes à conserver
67%

Pourcentage de variable expliquée

60

40

20

15.3%
7.5%
5%

2.7%

1.6%

0.9%

6

7

0
1

2

3

4

5

Dimensions

Le graphiques est formel avec le coude au deuxieme axe : Il faut conserver 2 axes. En plus ils rasemblent
plus de 80% de l’information et 2 axes nous permet une interprétation plus aisée de l’ACP.
fviz_pca_var(res.pca2, col.var= "orange",
title="Cercle des corrélations des variables")

Cercle des corrélations des variables
tourpib

1.0

Dim2 (15.3%)

0.5

0.0

ipeidh
esperance

natalité
mortalité

pib
−0.5

−1.0
−1.0

−0.5

0.0

0.5

1.0

Dim1 (67%)
Pour ce qui est de l’axe 1, nous avons les mêmes conclusions que sur l’ACP précédente. Cest l’axe du
développement. (pour de plus amples explications remonter au cercle des corrélations de la première ACP)
Pour l’axe 2 cest encore plus clair que dans l’ACP numéro 1 : il représente notre varaible de toursime relatif
(plus on est en haut plus on est touristique selon notre indice “tourpib”). On peut remarquer que le PIB

25

semble évoluer légerement en sens contraire de notre variable du tourisme sur l’axe 2, ce qui doit provenir
de l’effet dénominateur dû à la construction de la variable.
fviz_contrib(res.pca2, choice = "var", axes = 1,
top = 10,title="Contribution des variables à l'axe 1")
Contribution des variables à l'axe 1
20

Contributions (%)

15

10

5

ur

pi
b

pi
b

e
ip

é

to

na

ta

lit

ce
pe
ra
n
es

m

or

ta

lit

id

é

h

0

On voit bien que l’axe 1 est bien l’axe du développement. Rien à changer par rapport à la première ACP.
fviz_contrib(res.pca2, choice = "var",
axes = 2, top = 10,title="Contribution des variables à l'axe 2")
Contribution des variables à l'axe 2

Contributions (%)

75

50

25

ce

h

ra
n
es

pe

e

id

lit
ta
na

ip

é

é
lit
ta

pi

b

m
or

to

ur

pi

b

0

L’axe 2 est notre variable touristqiue. L’effet du pib est faible mais comme nous l’avons vu sur le cercle cet
effet évolue en sens contraire au tourisme relatif.

26

ub
liq Ré
ue puA
dé bnlitig
m quua
oc e −
ra ceet
tiqS nt−B
G uLeierrafar rb
ui u dra Tic u
néxeu L caid
e−mCoeohnaea
b
M S ABlbisonugnoed
ozw SNasarg
aNm
azu igniue
Bu Bo biliasser
rk Gurrviqèuned
in uui ngee
a
C MaFLnaaéodei
Aa lasos
C ÉuIps−M
a rl trVeawli
Ét mItsbhoaionadlireti
atAladpie
MsS−ngngdee
G
MFianlduUèonlae
ui
né C au Blainvdeies
e Alal mrJitaéndes
éq emeapnin
r i
PuaCaNtoigagoouenn
én
N R OGysa−nraiariea
ou o ZamBdle
ve ya Auugambaas
lleSui mFtar nbiie
D−nZgera−incdhae
anéapUce
ela o ne
É mndu i
E
M BsryMtItaaalrekr
ad Sepl ahr ltie
a og gée
S gauiqnuee
C C loQvsadcaen
or Po G é taar
ée Eomorèni r
dsrtturecee
Sa
Zi CuToSngiasl
o
Pa
mCrooude
To
P
po
m T abaonagt o
ua Ém é− cYhkéisbwgioe
qtaé
si ir et TSDéjéi m
e− at M −Pannboueine
N s a on Crizéagunt
ou r té hncnai
v a n y i iel
M
ya elle bRes Hégppree
nm − wauarïo
ar PGouIsinrandiasti
L Klon
B(aBirKituegnénëel
irai nyea
ngm
G
laahnbaie
BSolHo o dCaeineat)i
vn s
Ki UtBsawqguhriihli
rg kruaniee
BhuizCrainnea
Ar Blgisautabeai
Ug e r n
C GreunFtliizdiee
os Séoguin ji
e
t
NSaaeRrrbgaiey
ammicie
LeG
a
o
a
i
MTtotobboiae
Tr
a n
in RouRuunrigiaen
ité PamIssce
−e Kn anndie
Tat− OBoawmiee
r ea
dTj o m
ikb ésït
TG
Jahare isatgaaonil
Bo B
I
n
é
ï
m
A
l
sn la
Sarmaaïnardank
ie ru
éqndueee
−e s
Bloom
(
B
t− i BTuChlivoine
H élMahrqinie
e oa ue
Ar rzMéTruulsariesïien
abMa geonsi ieie
ieCcoéLxivqisnie)
Hs l dibue
Af AzNiocanooumoinaen
riqVe ardudbiee
a it
ueernbM
a agrae
de ïdruas
B uzujaoc
R
Sr hNo éSeulna
ép
ub
O Éqi LPéutpad
liq uzJour aanroaunl
ue K béÉgdatekua
doazaAklgisytpntier
mGkh Iérane
Sinu sraie
PIhnMdaolivcyaatannn
G
l a ina
Suuialitpopndéadvoe
M re i sier
PVaioêinnmanaeies
rat gNomlae
gualm
ie
ay

ép

R

Contributions (%)

27
pi
b

e

ip

é

lit

ta

na

ce

é

lit

ta

pi
b

pe
ra
n

es

or

m

ur

to

h

id

Contributions (%)

fviz_contrib(res.pca2, choice = "var", axes =c(1,2),
top = 10,title="Contribution des variables aux axes 1 et 2")
Contribution des variables aux axes 1 et 2

15

10

5

0

Les contributions sont homogènes meme si l’IPE et le PIB semble un peu en retraite sur ce graphique

ind <-get_pca_ind(res.pca2)
fviz_contrib(res.pca2, choice = "ind",
axes = c(1,2),title="Contribution des individus aux axes 1 et 2")
Contribution des individus aux axes 1 et 2

4

3

2

1

0

Pareil que dans la première ACP, les pays ne contribuent pas tous uniformement aux axes. Cependant l’odre
des pays a changé (de plus de 4% pour les Anigua et Barbuda à moins de 0.1% pour le Paraguay)

p<-fviz_pca_ind(res.pca2,col.ind.sup="blue",pointsize= "cos2",pointshape= 21,fill=
"#E7B800",repel=TRUE)

sup<-fviz_add(p,res.pca2$quali.sup$coord,color="red")
sup
Individuals − PCA
Antigua−et−Barbuda
Maldives Albanie
Cap−Vert
Croatie
Ukraine
Malte
Chypre
Laos
Monténégro
Kirghizistan
Cambodge
Gambie
Bulgarie
Estonie Grèce
Namibie
Hongrie
Nicaragua Fidji
Malawi Rwanda
Slovaquie
Samoa
Slovénie
Zimbabwé
Tchéquie
Guyana
Botswana
Swaziland
Cuba
Belize
Lettonie
Italie Espagne
Mozambique
Népal République dominicaine Jamaïque Maroc
Pologne
Thaïlande
France Autriche
2.5
Togo Haïti Honduras
Mongolie
Ouganda
Costa Rica
Viêt Nam Géorgie
Portugal Islande
Ouzbékistan Grenade
Zambie Myanmar (Birmanie)
Tonga Maurice Malaisie Uruguay
Singapour
Sao Tomé−et−PrincipeAfrique du Sud Jordanie
Burundi
Serbie
Arménie Macédoine
Congo
Philippines
Tunisie Sri Lanka
Ghana
Bosnie−et−Herzégovine Panama Finlande
Sénégal
Bélarus (Biélorussie)
Amériques
Éthiopie Cameroun
Salvador
Océanie
Suriname
Djibouti
MexiqueNouvelle−Zélande
Tadjikistan
Europe
Asie
Comores
Paraguay
Afrique
Liban
0.0 Guinée−Bissau
Bénin
Turquie Lituanie
Moldavie
Tanzanie KiribatiSalomon
Allemagne
Pérou
Burkina Faso
Russie Pays−Bas Japon Australie
République
Sierra
Leonecentrafricaine
Guatemala
Yémen
Madagascar
Oman
Trinité−et−Tobago
Chili
Bhoutan Algérie Indonésie
Mali
Colombie Roumanie
Nigéria Érythrée
Émirats arabes unis Suède Suisse
Tchad Guinée
Argentine
Bolivie Égypte KazakhstanÉquateur BrésilBrunei
Kenya
Royaume−Uni
Canada
République
démocratique
du Congo
Soudan
Niger
Inde Irak Iran Venezuela ChineKoweït Belgique
Papouasie−Nouvelle−Guinée
Danemark
Corée du Sud Norvège
AngolaMauritanie
Guinée équatoriale
PakistanBangladesh Gabon AzerbaïdjanBahreïn
Arabie saoudite
Israël Qatar États−UnisIrlande
Luxembourg

Dim2 (15.3%)

5.0

−5.0

−2.5

0.0

cos2
0.25
0.50
0.75

2.5

Dim1 (67%)

La qualité de représentation dans le plan est trés bonne pour la quasi totalité de nos pays (cos2>0.75). Mais
les conclusions sont différentes que celles de notre première ACP. Les affirmations quant au developpement
sont les mêmes et nous retrouvons les pays peu développés vers la gauche (ex: Guinée) et les pays developpés
vers la droite (ex : Suède). Cependant nous voyons que les pays les plus touristques relativement ne sont plus
les pays developpés comme le France ou les Etats-Unis, qui ne semblent plus si touristiques que ca quand on
ramène le tourisme à l’echelle économique et démographique du pays. Mais ce sont les pays intermdiaires en
developpement qui semblent se démarquer en terme de tourisme relatif à l’image des Antigua ou du Cap vert.
Nos variables supplémentaires sont trés parlantes en terme de développement, comme dans l’ACP numéro 1
: l’Afrique est à gauche et montre que les pays les moins developpés sont africains. Les pays de l’Océanie,
l’Asie et l’Amerique sont des pays inetrmédiares en développement et les pays d’Europe sont les pays les plus
développés. Nous remarquons cependant une différence importante et intéressante : en terme de tourisme
reltif les 5 continents sont identiques sur l’axe 2. Cela montre alors que le tourisme n’est ni une affaire de
développement ni une affaire de continent!
Cette nouvelle vision du tourime par le prisme d’un indicateur relatif et la comparaison de ces 2 ACP est
trés intérressante, car elle redéfinit notre vision du tourisme sur 2 points : tout d’abord les pays intenses en
tourisme ne sont pas la France ou l’Espagne mais plutot l’Albanie ou le Cap vert, ce qui n’est pas si commun
à dire. Deuxièmement, il n’y a pas de différence dans le tourisme relatif entre les continents.
Nous avons vu des conclusions trés fortes quant au développement des pays que nous allons approfondir dans
l’AFC suivante.

4.5

Analyse Factorielle des Correspondances (AFC)

data10<-data6[,c(5,10)]
contingence<-table(data10[,1],data10[,2])
contingence
##
##

1

2

3

4

5
28

##
##
##
##
##

Afrique
23 14 9 1 0
Amériques 1 0 14 12 2
Asie
1 6 15 13 6
Europe
0 0 4 13 23
Océanie
0 3 3 0 2

On a sélectionné nos 2 variables qualitatives pour réaliser notre AFC et voir encore plus en détail le lien
entre continent et développement. Et nous créons tout d’abord le tableau de contingence.
base.afc <-CA(contingence, graph=FALSE)
base.afc
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

**Results of the Correspondence Analysis (CA)**
The row variable has 5 categories; the column variable has 5 categories
The chi square of independence between the two variables is equal to 140.8914 (p-value =
*The results are available in the following objects:

1
2
3
4
5
6
7
8
9
10
11
12

name
"$eig"
"$col"
"$col$coord"
"$col$cos2"
"$col$contrib"
"$row"
"$row$coord"
"$row$cos2"
"$row$contrib"
"$call"
"$call$marge.col"
"$call$marge.row"

description
"eigenvalues"
"results for the columns"
"coord. for the columns"
"cos2 for the columns"
"contributions of the columns"
"results for the rows"
"coord. for the rows"
"cos2 for the rows"
"contributions of the rows"
"summary called parameters"
"weights of the columns"
"weights of the rows"

Nous réalisons ensuite l’AFC.
fviz_eig(base.afc, addlabels= TRUE,
title="Determinantion du nombre d'axe à conserver",
ylab="Pourcentage de la variance expliquée")

29

4.820567e-2

Determinantion du nombre d'axe à conserver
70.2%

Pourcentage de la variance expliquée

60

40

23%
20

6.5%
0.3%

0
1

2

3

4

Dimensions

Nous voyons ici les axes à conserver et en se fiant au coude nous choisissons de conserver les 2 premiers axes,
d’autant plus que ceux-ci rassemblent à eux deux presque 95% de l’information de notre base.
fviz_ca_biplot(base.afc, pointsize= "cos2",
repel = TRUE, title="Lien entre developpement et continent")
Lien entre developpement et continent
5
Europe

0.4

1

Dim2 (23%)

Afrique
cos2

2

0.25

Océanie

0.0

0.50
0.75

4

Asie

−0.4

3
Amériques
−1.0

−0.5

0.0

0.5

1.0

Dim1 (70.2%)

Nous remarquons un phénomène interressant sur ce plan. Le continent Africain est à coté du 1 et du
2 correspondant aux plus faibles développements (idh < 0.6). Ensuite nous avons l’Amérique et l’Asie
proche du 3 et 4 correspondant au développemnt moyen (0.60 < idh < 0.85). Enfin l’Europe est à coté du
5, correspondant au haut développement (idh >0.85). Ceci confirme la théorie de répartition inégale des
richesse à travers les continents. En effet la pauvreté extrême est le faible développement sont clairement
associés au continent Africain, tandis que la richesse et le fort développement sont étroitement associés au
continent Européen. L’Asie et l’Amérique sont ici des continent moyens sur le plan du développement, ce
qui peut en partie s’expliquer par une hétérogénéité des pays constituant ces continents. Les conclsuions
30

renforcent ici nos résultats obtenus sur l’axe 1 de nos ACP. Tout est trés bien représenté sur ce plan mis à
part l’Océanie (cos<0.2), mais nous avons vu sur notre ACP que ce continent en terme de développement
pouvait être assimilé à l’Amérique et à l’Asie, en position moyenne.

4.6

Clustering

Nous allons réaliser différentes méthodes de Clustering, mais la méthode par Classification Assendante
Hiérarchique pouvait être suffisante au vu de la taille de notre échantillon. L’objectif de cette partie est
de déterminer les différents groupes existants dans notre base. Nous basons notre clustering sur la base
utilisée pour l’ACP numéro 2, qui nous paraît plus pertiente comme expliqué au-dessus.
data11<-data6[,c(6,7,8,9)]
dta.cr<-scale(data11)
d.dta<-dist(dta.cr)
cah<-hclust(d.dta,method="ward.D2")
head(cah$merge)
##
##
##
##
##
##
##

[1,]
[2,]
[3,]
[4,]
[5,]
[6,]

4.6.1

[,1]
-46
-44
-95
-4
-26
-67

[,2]
-121
-70
-127
-30
-62
-149

Classification Ascendante Hiérarchique (CAH)

Ici on selectionne la table que l’on veut représenter puis on centre-réduit pour ensuite calculer les distances.
Enfin on regarde les pays qui sont les plus proches en les regroupant 2 à 2 etc… Nous voyons ici la méthode
sur les 6 premières lignes : les 2 pays les plus proches sont le 41 et le 67 qui sont regroupés, puis le 9 et le
91… remarque : le “-” indique que l’on regroupe 2 pays alors que le “+” indique qu’on rajoute un pays à un
groupe déja formé.
fviz_nbclust(dta.cr,hcut,method="wss")

31

0

La méthode du dendrogramme est la plus complète car elle prend en compte toutes les distances (entre toutes
les variables et tous les inidviuds). Cependant sur des bases plus imposantes elle devient vite longue à réaliser.
Nous allons raisonner en partant du haut pour une bonne compréhension des groupes bien que la CAH parte
du bas pour finir vers le haut. La première séparation apparaît entre les pays trés faiblement développés et
le reste de la base. Le premier groupe formé représente majoritairement les pays africains (dévloppés—). Le
deuxième groupe représente le reste de la base qui va etre affinée. A noter que ces 2 groupes représentent
les groupes les plus éloignée de notre base. Ensuite la deuxième ramification intervient pour séparer les
pays trés développés (vert) et les pays moyennement développés ou en voie de développement. Enfin la

Érythrée
Niger
République centrafricaine
Burundi
Guinée−Bissau
Éthiopie
Sierra
Leone
Mali
République démocratique du Congo
Tchad
Burkina
Faso
Guinée
Myanmar (Birmanie)
Haïti
Togo
Comores
Ouganda
Angola
Pakistan
Salomon
Yémen
Cameroun
Bénin
Djibouti
Soudan
Mauritanie
Papouasie−Nouvelle−Guinée
Bangladesh
Madagascar
Swaziland
Zimbabwé
Mozambique
Rwanda
Gambie
Malawi
Sao Tomé−et−Principe
Congo
Kiribati
Kenya
Nigéria
Tanzanie
Sénégal
Népal
Zambie
Honduras
Tadjikistan
Ghana
Inde
Guinée équatoriale
Bolivie
Ouzbékistan
Botswana
Namibie
Nicaragua
Arabie
saoudite
Kazakhstan
Koweït
Bahreïn
Oman
Qatar
Danemark
Singapour
Brunei
Israël
Corée
du
Sud
ÉmiratsLuxembourg
arabes unis
Norvège
Suisse
Belgique
Japon
Pays−Bas
Allemagne
Canada
Italie
Finlande
France
Nouvelle−Zélande
Royaume−Uni
Autriche
Islande
Australie
Suède
États−Unis
Irlande
Antigua−et−Barbuda
Albanie
Cambodge
Laos
Cap−Vert
Maldives
Paraguay
Salvador
Philippines
Afrique
du
Sud
Guatemala
Égypte
Indonésie
Bhoutan
Irak
Macédoine
Bosnie−et−Herzégovine
Liban
Viêt
Nam
Gabon
Moldavie
Algérie
Équateur
Pérou
Suriname
Turquie
Roumanie
Bélarus (Biélorussie)
Iran
Mongolie
Sri
Lanka
Azerbaïdjan
Chine
Venezuela
Géorgie
Fidji
Tonga
Bulgarie
Grenade
Arménie
Jamaïque
Croatie
Kirghizistan
Belize
Samoa
Uruguay
Lettonie
Slovaquie
Jordanie
République dominicaine
Thaïlande
Malaisie
Hongrie
Maurice
Guyana
Maroc
Monténégro
Tunisie
Ukraine
Panama
Trinité−et−Tobago
Brésil
Colombie
Mexique
Cuba
Serbie
Costa
Rica
Lituanie
Pologne
Russie
Argentine
Chili
Espagne
Slovénie
Portugal
Tchéquie
Estonie
Grèce
Chypre
Malte

Height

Total Within Sum of Square

Optimal number of clusters

600

400

200

1
2
3
4
5
6
Number of clusters k

32

7
8
9
10

Ce graphique nous permet de choisisr le nombre de groupe à conserver. Ici nous voyons le coude avec 4
clusters.

fviz_dend(cah,k=4,type="rectangle",rect=T,main="Dendrogramme de la CAH")
Dendrogramme de la CAH

20

15

10

5

dernière ramification est là pour séparer les pays en voie de développement en 2 groupes : le premier est
constitué des pays en voie de développement avec énormement de touristes (bleu), et le deuxième représente
les autres pays en voie de développement (violet). Nous remarquons donc 4 groupes: le premier constitue
les pays sous-développés (majoritairement pays d’Afrique). Ce groupe est le plus éloigné du reste de notre
base et constitue un groupe trés atypique par son développement trés faible. Ensuite au milieu en vert nous
avons les pays trés développés. En bleu nous voyons les pays moyennement développés avec un tourisme trés
important. Enfin en violet ce sont les pays moyennement développés ayant un tourisme dans la moyenne.
4.6.2

Methode des k.means

groups.kmeans<-kmeans(dta.cr,centers=4,nstart=100)
La méthode des kmeans est une méthode plus rapide mais moins précise que la CAH, à réaliser quand la
base est imposante.
groupes.cah<-cutree(cah,k=4)
print(table(groupes.cah,groups.kmeans$cluster))
##
## groupes.cah
1
##
##
2
##
3
##
4

1 2 3 4
0 2 0 72
6 0 0 0
0 25 0 6
0 0 51 3

Nous voyons ici les différences entre les clusters formés par les 2 méthodes. Il existe quelques différences
entre les 2 méthodes mais globalement c’est ressemblant. En effet le groupe de l’Afrique pour CAH (4)
représente à une difference pret le groupe 1 des k.means. Le groupe des pays en voie de développemnt trés
touristiques des CAH (2) est le même que le groupe 3 des k.means. Le groupe des pays développés du CAH
(3) représente le groupe 4 des k.means avec quand même 6 élements en moins que les CAH pour les K.means
(qui compte aussi 2 éléments supplémentaires). Enfin le groupe des pays en voie de développemnt des CAH
(1) correspond au groupe 2 des k.means avec aussi quelques différences.

4.7

Tandem Analysis : appliquer une CAH sur les dimensions de l’ACP non
normalisées

res.pca<-PCA(data11,ncp=Inf,graph=FALSE)
res.hcpc<-HCPC(res.pca,nb.clust= 4)

33

Érythrée
République centrafricaine
Niger
Burundi
Guinée−Bissau
Sierra
Leone
République démocratique
duÉthiopie
Congo
Mali
Tchad
Burkina
Faso
Guinée
Myanmar (Birmanie)
Haïti
Togo
Ouganda
Comores
Angola
Pakistan
Yémen
Salomon
Cameroun
Bénin
Djibouti
Soudan
Papouasie−Nouvelle−Guinée
Mauritanie
Madagascar
Bangladesh
Swaziland
Zimbabwé
Mozambique
Rwanda
Gambie
Malawi
Sao Tomé−et−Principe
Congo
Kiribati
Kenya
Tanzanie
Nigéria
Sénégal
Népal
Zambie
Honduras
Tadjikistan
Ghana
Inde
GuinéeOuzbékistan
équatoriale
Bolivie
Botswana
Nicaragua
Namibie
Kazakhstan
Arabie
saoudite
Koweït
Oman
Bahreïn
Qatar
Danemark
Singapour
Brunei
Israël
Émirats
arabes
unis
Corée
du
Sud
Luxembourg
Norvège
Suisse
Japon
Belgique
Pays−Bas
Allemagne
Canada
Italie
Finlande
France
Nouvelle−Zélande
Royaume−Uni
Autriche
Islande
Suède
Australie
États−Unis
Irlande
Antigua−et−Barbuda
Albanie
Cambodge
Laos
Cap−Vert
Maldives
Salvador
Paraguay
Philippines
Guatemala
Afrique
du
Sud
Indonésie
Égypte
Bhoutan
Irak
Macédoine
Bosnie−et−Herzégovine
Liban
Viêt
Nam
Moldavie
Gabon
Algérie
Équateur
Pérou
Suriname
Turquie
Roumanie
Iran
Bélarus (Biélorussie)
Mongolie
Sri
Lanka
Azerbaïdjan
Chine
Venezuela
Géorgie
Tonga
Fidji
Grenade
Bulgarie
Jamaïque
Arménie
Croatie
Kirghizistan
Samoa
Belize
Uruguay
Lettonie
Slovaquie
Jordanie
République dominicaine
Thaïlande
Malaisie
Maurice
Hongrie
Guyana
Maroc
Monténégro
Tunisie
Ukraine
Trinité−et−Tobago
Panama
Colombie
Brésil
Mexique
Serbie
Cuba
Costa
Rica
Pologne
Lituanie
Russie
Argentine
Chili
Slovénie
Espagne
Tchéquie
Portugal
Grèce
Estonie
Chypre
Malte

0.0

Height
0.5

1.0

1.5

Hierarchical Classification

34

0.0

0.6

Hierarchical Clustering

inertia gain

1.2

Hierarchical clustering on the factor map

1.0

6

Antigua−et−Barbuda

4
0.5

Albanie
Cap−Vert
Laos
Maldives
Cambodge
Croatie
Kirghizistan
Malte
Samoa
Belize
Monténégro
Fidji
Swaziland
Chypre
Tonga
Géorgie
Ukraine
Estonie
Bulgarie
Zimbabwé
Gambie
Jamaïque
Grèce
Malawi
Grenade
Mozambique
Hongrie
Namibie
Tunisie
Arménie
Maroc
Maurice
Jordanie
Nicaragua
Rwanda
Botswana
République
dominicaine
Guyana
Thaïlande
Slovénie
Malaisie
Lettonie
Slovaquie
Tchéquie
Costa
Rica
Espagne
Portugal
Autriche
Islande
Sénégal
Uruguay
Cuba
Salvador
Pologne
Lituanie
Serbie
Myanmar
(Birmanie)
Macédoine
Paraguay
Zambie
Panama
Viêt
Nam
Suriname
Mexique
Togo
Tadjikistan
Russie
Mongolie
Turquie
Afrique
du
Sud
Haïti
Ouganda
Bosnie−et−Herzégovine
Chili
Italie
Sao
Tomé−et−Principe
Congo
Honduras
France
Sri
Lanka
Philippines
Singapour
Népal
Guatemala
Émirats
arabes
unis
Argentine
Liban
Pérou
Trinité−et−Tobago
Colombie
Bélarus
(Biélorussie)
Guinée−Bissau
Nouvelle−Zélande
Équateur
Bhoutan
Algérie
Kiribati
Égypte
Burundi
Brésil
Iran
Roumanie
Tanzanie
Royaume−Uni
Irlande
Arabie
saoudite
Kazakhstan
Indonésie
Comores
Ghana
Moldavie
Finlande
Pays−Bas
Suède
Ouzbékistan
Kenya
Canada
Belgique
Cameroun
Danemark
Allemagne
du
Sud
Bolivie
Djibouti
Chine
Bénin
Venezuela
Irak
Japon
Madagascar
Australie
Azerbaïdjan
Salomon
Brunei
Inde
Gabon
Bahreïn
Oman
Nigéria
Yémen
Israël
Angola
Sierra
Leone
États−Unis
Éthiopie
Pakistan
Papouasie−Nouvelle−Guinée
Érythrée
Suisse
Burkina
Faso
Mali
République
centrafricaine
Niger
Soudan
République
démocratique
duCorée
Congo
Mauritanie
Guinée
Bangladesh
Tchad
Koweït
Guinée
équatoriale
Luxembourg
Qatar Norvège

0.0

height

8

−4

−2

0

2

4

Dim 2 (25.89%)

1.5

cluster 1
cluster 2
cluster 3
cluster 4

2
0
−2

6

Dim 1 (59.47%)

cluster 1
cluster 2
cluster 3
cluster 4

Antigua−et−Barbuda

4

Albanie
Cap−Vert
Laos
Maldives

2

Cambodge

0

Dim 2 (25.89%)

6

8

Factor map

Croatie
Kirghizistan
Malte
Samoa
Belize
Monténégro
Fidji
Swaziland
Chypre
Tonga
Géorgie
Ukraine
Estonie
Bulgarie
Zimbabwé
Gambie
Jamaïque
Grèce
Grenade
Malawi
Mozambique
Hongrie
Namibie
Tunisie
Arménie
Maroc
Maurice
Jordanie
Nicaragua
Rwanda
Botswana
République
dominicaine
Guyana
Thaïlande
Slovénie
Malaisie
Slovaquie
Lettonie
Tchéquie
Costa
Rica
Espagne
Portugal
Autriche
Islande
Sénégal
Uruguay
Cuba
Salvador
Lituanie
Pologne
Serbie
Myanmar
(Birmanie)
Macédoine
Paraguay
Zambie
Panama
Viêt
Nam
Suriname
Mexique
Togo
Tadjikistan
Russie
Mongolie
Turquie
Afrique
du
Sud
Haïti
Ouganda
Bosnie−et−Herzégovine
Chili
Italie
Sao
Tomé−et−Principe
Congo
Honduras
France
Sri
Lanka
Philippines
Singapour
Népal
Guatemala
Émirats
arabes
unis
Argentine
Liban
Pérou
Trinité−et−Tobago
Colombie
Bélarus
(Biélorussie)
Guinée−Bissau
Nouvelle−Zélande
Équateur
Bhoutan
Algérie
Égypte
Kiribati
Burundi
Brésil
Iran
Roumanie
Tanzanie
Royaume−Uni
Irlande
Arabie
saoudite
Kazakhstan
Indonésie
Comores
Ghana
Moldavie
Finlande
Pays−Bas
Suède
Ouzbékistan
Kenya
Canada
Belgique
Cameroun
Danemark
Allemagne
Corée
du
Sud
Bolivie
Djibouti
Chine
Bénin
Venezuela
Irak
Japon
Madagascar
Australie
Azerbaïdjan
Salomon
Brunei
Inde
Gabon
Bahreïn
Oman
Nigéria
Yémen
Israël
Angola
Sierra
Leone
États−Unis
Éthiopie
Pakistan
Papouasie−Nouvelle−Guinée
Érythrée
Suisse
Burkina
Faso
Mali
République
centrafricaine
Niger
Soudan
Norvège
République
démocratique
duKoweït
Congo
Mauritanie
Guinée
Bangladesh
Tchad
Guinée
équatoriale
Luxembourg
Qatar

−4

−2

0

2

4

6

Dim 1 (59.47%)
Cette méthode apporte les mêmes conclusions que la méthode du CAH, mais permet de compléter l’analyse
35

ou tout du moins la faciliter. En effet, on voit bien que les pays trés faiblement développés se démarquent
non pas par un tourisme faible ( centrés sur l’axe 2 ) mais par un sous développement (trés à gauche sur l’axe
1). Ensuite on voit bien que dans les pays en voie de développement ( au milieu de l’axe 1) il y a 2 groupes
: les pays en voie de développemnt avec une activité touristique dans la moyenne (vert) et un groupe qui se
détache en rouge représentant les pays en voie de développement ayant une très forte activité touristique (
en haut de l’axe 2 en rouge). Enfin nous voyons le groupe des pays très développés en bleu à droite de l’axe
1 mais qui ne se démarque pas en terme de tourisme relatif (au milieu de l’axe 2). Nous voyons donc que
les 3 groupes ( noir, vert et bleu), sont globalement aussi intense en activité touristique, et se démarquent
juste par leur niveau de développemnt. Et au sein du groupe moyennement développé il y a 2 groupe avec
les pays normaux en touriste ( vert) et les PVD trés touristiques (rouge).
fviz_dend(res.hcpc,palette="jco",rect=TRUE,rect_fill=TRUE,rect_border="jco",main="
Dendrogramme du Tandem Analysis")
Dendrogramme du Tandem Analysis
1.5

Height

1.0

0.5

−0.5

Érythrée
République centrafricaine
Niger
Burundi
Guinée−Bissau
Sierra
Leone
République démocratique duÉthiopie
Congo
Mali
Tchad
Burkina
Faso
Guinée
Myanmar (Birmanie)
Haïti
Togo
Ouganda
Comores
Angola
Pakistan
Yémen
Salomon
Cameroun
Bénin
Djibouti
Soudan
Papouasie−Nouvelle−Guinée
Mauritanie
Madagascar
Bangladesh
Swaziland
Zimbabwé
Mozambique
Rwanda
Gambie
Malawi
Sao Tomé−et−Principe
Congo
Kiribati
Kenya
Tanzanie
Nigéria
Sénégal
Népal
Zambie
Honduras
Tadjikistan
Ghana
Inde
GuinéeOuzbékistan
équatoriale
Bolivie
Botswana
Nicaragua
Namibie
Kazakhstan
Arabie
saoudite
Koweït
Oman
Bahreïn
Qatar
Danemark
Singapour
Brunei
Israël
Émirats
arabes
Corée
du unis
Sud
Luxembourg
Norvège
Suisse
Japon
Belgique
Pays−Bas
Allemagne
Canada
Italie
Finlande
France
Nouvelle−Zélande
Royaume−Uni
Autriche
Islande
Suède
Australie
États−Unis
Irlande
Antigua−et−Barbuda
Albanie
Cambodge
Laos
Cap−Vert
Maldives
Salvador
Paraguay
Philippines
Guatemala
Afrique
du Sud
Indonésie
Égypte
Bhoutan
Irak
Macédoine
Bosnie−et−Herzégovine
Liban
Viêt
Nam
Moldavie
Gabon
Algérie
Équateur
Pérou
Suriname
Turquie
Roumanie
Iran
Bélarus (Biélorussie)
Mongolie
Sri
Lanka
Azerbaïdjan
Chine
Venezuela
Géorgie
Tonga
Fidji
Grenade
Bulgarie
Jamaïque
Arménie
Croatie
Kirghizistan
Samoa
Belize
Uruguay
Lettonie
Slovaquie
Jordanie
République dominicaine
Thaïlande
Malaisie
Maurice
Hongrie
Guyana
Maroc
Monténégro
Tunisie
Ukraine
Trinité−et−Tobago
Panama
Colombie
Brésil
Mexique
Serbie
Cuba
Costa
Rica
Pologne
Lituanie
Russie
Argentine
Chili
Slovénie
Espagne
Tchéquie
Portugal
Grèce
Estonie
Chypre
Malte

0.0

Nous permet de voir la méthode du tandem analysis mais sur un dendrogramme. Les conclusions sont les
mêmes
fviz_cluster(groups.kmeans,data=dta.cr,palette="set2",ggtheme=theme_minimal(),
main="Clustering avec les kmeans",repel=T)

36

Clustering avec les kmeans

Dim2 (25.9%)

Antigua−et−Barbuda
Albanie
Maldives
Cap−Vert
5.0 Gambie
Croatie
Swaziland
Samoa
Hongrie
Mozambique Cambodge
Zimbabwé
Bulgarie
Belize
Monténégro
Guinée−Bissau
Rwanda
Malte
Tonga Lettonie Chypre
Kirghizistan Fidji
Botswana
Nicaragua
Guyana
Jamaïque
Laos
Tchéquie Estonie
Togo Zambie
Tunisie
Slovénie
Salvador
Costa Rica
Macédoine Arménie Namibie
Malawi
Grèce
Ukraine
Autriche
Cuba
Mongolie
2.5
Ouganda
Bosnie−et−Herzégovine
Slovaquie
Géorgie Thaïlande
Pologne Portugal Espagne
Haïti
Myanmar (Birmanie) Viêt Nam
Maurice
Grenade
Mexique Italie
France Islande
Malaisie
Madagascar Bénin
Philippines
Jordanie
Maroc
Panama
Nouvelle−Zélande Finlande
Burundi Comores Sénégal
Suriname
Afrique
du Sud dominicaine
Guatemala
République
Turquie Singapour Suède
Djibouti Ghana
Tadjikistan
Pérou
Bhoutan
Suisse
Serbie
Sri
Lanka
Irlande
Uruguay
Burkina Cameroun
Faso
Honduras
Sao Tomé−et−Principe
Congo Népal Paraguay
Norvège
Lituanie
0.0
Pays−Bas
Sierra Leone
Royaume−Uni
Bélarus (Biélorussie)Chili Russie
Tanzanie
Australie
Liban
Émirats arabes unis
Colombie
Danemark
Kiribati
Érythrée
Trinité−et−Tobago
République
centrafricaine
Iran
ÉthiopieSalomon
Argentine
Équateur
Ouzbékistan
Corée
du
Sud
Brésil
Kenya
Indonésie
Égypte Chine
Venezuela
Kazakhstan
Roumanie
Canada
Belgique
PakistanBolivie
Tchad
Israël
Yémen
Mali
Papouasie−Nouvelle−Guinée
Soudan
Algérie
Nigéria Moldavie Irak
Niger Guinéedémocratique
République
Mauritanie
Angola
duBangladesh
Congo
Guinée équatoriale
Inde Gabon
Azerbaïdjan
Bahreïn
Oman
Koweït
Arabie saoudite
Brunei
Qatar Japon
Allemagne
États−Unis
Luxembourg
−2

0

2

cluster
a 1
a 2
a 3
a 4

4

Dim1 (59.5%)

Cette commande nous permet de visualiser les K-means sur le premier plan factoriel. On obtient comme on
le voit, globalement les mêmes résultats qu’avec la CAH ou le tandem analysis. Les pays trés faiblement
développés sont à gauche les pays moyennement développés sont au centre et les pays développés à droite.
Cest trois groupes sont sur la même lignes démontrant que le tourisme est de manière relative aussi important
dans les 3 groupes. On observe également le fameux goupe des pays trés touristiques en haut, appartenant
aux pays de développement moyen (au milieu de l’axe 1).
Remarque : Pour notre base relativement petite la méthode du dendrogramme semble la plus pertinente, car
peu chronophage pour 200 pays. Mais nous avons voulu rendre compte des différentes méthodes de clustering.
Nous avons vu que la méthode du tandem analysis est un bon compromis qui, de part sa représentation sur
les 2 axes, apportaient aussi des éléments de conclusions intérressants. Les k-means avec ce dernier graphique
est aussi très parlant, et beaucoup plus rapide bien que moins précis.
En conclusion de ces 2 ACP, de l’AFC et du clustering nous avons pu relever un point trés pertinent sur le
tourisme. En effet l’analyse du tourisme est souvent faite avec les chiffre absolus. Or nous avons vu que le
nombre de touristes était en fait très dépendant du développpement du pays. En effet dans notre première
ACP, l’Europe se trouvait être le continent le plus touristique en nombre. Mais ce point de vue est en fait
largement du au développement élevé de cette zone. Quand on utilise notre indice du tourisme prenant en
compte l’économie et l’échelle des pays, nous avons des conclusions complétement différentes. Premièrement
le tourisme relatif ne semble pas être une question de développement et deuxièment les pays les plus intenses
toursitiquement ne sont plus les pays développés tels les Etats-Unis ou la France mais les pays en voie de
développement tel que le Cap vert, les Maldives ou Antigua et Barbuda. Aussi nous avons pu voir dans la
deuxième ACP que les continents étaient globalement égaux en tourisme relatif alors que en terme absolu les
pays d’Europe tenaient la dragée haute dans la première ACP. Enfin les conclusions quant au développement
sont sans appel et sans surprise. En tête du cortège se trouvent les pays majoritairement européens alors
que en queue de celui-ci se trouvent les pays africains (au milieu Asie, Océanie, et Amériques). Nous avons
pu voir également dans quels sens jouaient les différentes variables sur l’axe de développement (mortalité
infantile, natalité, perfomances environementales…)
Après s’être intéresser aux relations entre individus de manière qualitative, nous allons maintenant voir les
relations quantitatives entre certaines variables : en particulier entre le pib et l’ipe, et entre tourisme idh et
ipe.

37

4.8
4.8.1

Arbre de décision
Construction de l’arbre

library(rpart.plot)
## Loading required package: rpart
library(rpart)
tourisme.tree <- rpart(data6$continent~., data=data6, method="class",
control=rpart.control(minsplit=5,cp=0))
plot(tourisme.tree, uniform=TRUE, branch=0.5, margin=0.1)
text(tourisme.tree, all=FALSE, use.n=TRUE)

esperance< 66.7
|
natalité>=30.05

natalité>=13.5

pib>=1837
ipe>=0.6787
natalité< 8.245
Afrique
pib>=4118
34/0/0/0/0
mortalité>=46.2
natalité>=18.65
natalité>=12.35
Afrique
Asie
esperance>=73.94
pib< 8174
5/0/0/0/0
0/0/3/0/0
mortalité>=4.85 ipe< 0.7113
Asie
Amériques
Amériques
Asie
1/0/4/0/0
0/1/0/0/1
0/15/0/1/0
touristes>=1.24e+06
touristes>=8.059e+05 0/1/16/0/0 touristes>=1.461e+07
mortalité>=4.25
Afrique
Asie
Amériques
Europe
3/0/0/0/0 esperance>=70.25
0/0/4/0/0
0/3/0/1/0
0/0/0/2/2
mortalité>=16.55
mortalité< 5
Asie
Amériques
AsieEurope
Europe
0/0/3/0/0
0/2/1/0/1 esperance>=68.44
0/0/4/0/0
1/0/1/8/0 0/0/0/21/0
Amériques
Asie
Océanie
Amériques
Europe
1/5/0/0/0
0/0/2/0/0
0/0/0/0/3
0/2/0/0/0
0/0/0/7/0
AsieAfrique
1/0/3/0/0
1/0/0/0/1
L’arbre de décision contient beaucoup trop de branches, ce qui complexifie son utilisation. Il devient
préférable de nous pencher sur le paramètre de complexité pour trouver la valeur qui minimmise la valeur
du taux de mauvais classement. Cela va nous permettre d’obtenir le nombre de branches optimales.
plotcp(tourisme.tree)

38

size of tree
2

3

4

5

7

13

18

23

Inf

0.26

0.16

0.053

0.023

0.016

0.012

0.0098

0

0.8
0.6
0.4

X−val Relative Error

1.0

1

cp

#on choisit cp qui minimise l'erreur
D’après le grahique, le nombre optimal de branches est de 4 pour un paramètre de complexité de 0,053. Nous
obtenons donc la représentation suivante :
tourisme.tree_Opt <- prune(tourisme.tree,
cp=tourisme.tree$cptable[which.min(tourisme.tree$cptable[,4]),1])
prp(tourisme.tree_Opt,extra=1, box.palette = "auto")
yes

esperanc < 67

no

natalité >= 30

Afrique
34 0 0 0 0

natalité >= 14

pib >= 1837

Afrique
5 0 0 0 0

ipe >= 0.68

Asie
1 1 4 0 1

natalité < 8.2

pib >= 4118

Amérique
0 15 0 1 0

esperanc >= 74

Afrique
3 0 0 0 0

Asie
0 0 3 0 0

natalité >= 19

pib < 8174

Asie
0 2 4 0 1

Amérique
1 5 0 0 0

Asie
0 0 4 0 0

touriste >= 806e+3

esperanc >= 70

Asie
0 0 2 0 0

Asie
0 1 16 0 0

mortalit >= 17

Asie
2 0 3 0 1

natalité >= 12

ipe < 0.71

mortalit >= 4.8

Amérique
0 3 0 1 0

Europe
0 0 0 2 2

touriste >= 15e+6

Asie
0 0 4 0 0

Europe
0 2 0 28 0

Europe
1 0 1 8 0

Océanie
0 0 0 0 3

Bien que l’arbre de décision soit construit à partir de toutes les variables explicatives, les variables retenues par
l’algorithme sont l’espérance de vie, la natalité et l’IPE. Ainsi, tandis que nos résultats précédents indiquaient
que l’IDH était un bon indicateur de classification des pays par continents, notre arbre de décision semble
plutot se focaliser sur des variables démographiques (non-économiques).

39

4.8.2

Test à partir d’un échantillon

Nous reprenons la procédure précédente sur un échantillon d’apprentissage afin de tester la fiabilité de nos
prévisions.
set.seed(3)
sample <- sample(c(TRUE, FALSE), nrow(data6),
replace = T, prob = c(0.7,0.3))
train <- data6[sample, ]
test <- data6[!sample, ]
tourisme.tree <- rpart(train$continent~., data=train, method="class",
control=rpart.control(minsplit=5,cp=0))
plot(tourisme.tree, uniform=TRUE, branch=0.5, margin=0.1)
text(tourisme.tree, all=FALSE, use.n=TRUE)

esperance< 66.7
|
natalité>=30.05

natalité>=12.5

tourpib>=0.2872
ipe>=0.6787
ipe< 0.7268
Afrique
23/0/0/0/0
pib< 3942
natalité>=16.75 pib>=1.714e+04
AfriqueAsie
Europe
5/1/0/0/0
0/0/1/0/1
0/1/1/21/0
esperance>=72.53
mortalité>=6.6 tourpib>=0.8719
natalité>=9.85
Asie Asie
0/0/10/0/0
0/0/5/0/0
tourpib< 1.546idh>=0.536
AfriqueAsieAmériques
Océanie
Afrique
Europe
3/0/0/0/0
0/0/2/0/0
0/15/0/0/0
0/0/0/1/2
1/0/1/0/0
0/0/0/4/0
Amériques
Océanie
Asie Océanie
0/3/0/0/0
1/0/0/0/2
1/1/8/0/0
0/0/0/0/2
plotcp(tourisme.tree)
size of tree
2

3

4

5

7

9

13

14

16

Inf

0.24

0.19

0.076

0.033

0.027

0.021

0.015

0.0086

0

0.8
0.6
0.4

X−val Relative Error

1.0

1

cp

40

tourisme.tree_Opt <- prune(tourisme.tree,
cp=tourisme.tree$cptable[which.min(tourisme.tree$cptable[,4]),1])
prp(tourisme.tree_Opt,extra=1, box.palette = "auto")

yes

esperanc < 67

Afrique
28 1 1 0 1

no

natalité >= 12

ipe >= 0.68

ipe < 0.73

pib < 3942

esperanc >= 73

Afrique
3 0 0 0 0

Asie
0 0 2 0 0

pib >= 17e+3

natalité >= 17

tourpib >= 0.87

mortalit >= 6.6

Amérique
0 15 0 0 0

Océanie
0 0 0 1 2

tourpib < 1.5

Amérique
0 3 0 0 0

Océanie
1 0 0 0 2

Asie
0 0 10 0 0

Asie
0 0 5 0 0

Europe
0 1 1 21 0

Europe
1 0 1 4 0

idh >= 0.54

Asie
1 1 8 0 0

Océanie
0 0 0 0 2

La modification de l’échantillon d’apprentissage change la réprésentation de notre arbre de décision puisque
le nombre de branches évolue de 4 à 14.
tourisme.test_Predict<-predict(tourisme.tree_Opt,newdata=test, type= "class")
mc<-table(test$continent,tourisme.test_Predict)
print(mc)
##
##
##
##
##
##
##

tourisme.test_Predict
Afrique Amériques Asie Europe Océanie
Afrique
12
0
0
0
1
Amériques
0
3
3
1
1
Asie
3
1
7
1
1
Europe
0
0
2
10
2
Océanie
0
1
0
0
0

erreur.classement<-1-(mc[1,1]+mc[2,2]+mc[3,3]+mc[4,4])/sum(mc)
print(erreur.classement)
## [1] 0.3469388
Finalement, les décisions de l’arbre sont plutôt fiables, il convient tout de même de noter que pour un petit
continent comme l’Océanie, l’arbre est incapable de prévoir qu’un pays appartienne bien à ce continent. On
peut penser qu’il faut un nombre minimum d’inividus présent dans une classe pour que l’arbre la prenne en
compte.

41

5

Applications économétriques

5.1

Croissance économique et empreinte énergétique

attach(data6)
ggplot(data6, aes((pib),(ipe))) +
geom_point() +
geom_smooth(method = "lm") +
geom_smooth(se = FALSE, color = "red")

(ipe)

1.00

0.75

0.50

0

25000

50000

75000

100000

(pib)

On remarque que la relation entre ces deux variables n’est pas linéaire et donc que les MCO ne seront pas
significatifs si l’on conserve cette forme fonctionnelle. On remarque en effet une relation concave entre l’ipe
et le pib. Une façon de répondre à ce problème est de modifier la forme fonctionnelle en prenant le log du
pib.
ggplot(data6, aes(log(pib),(ipe))) +
geom_point() +
geom_smooth(method = "lm") +
geom_smooth(se = FALSE, color = "red")

42

0.9

0.8

(ipe)

0.7

0.6

0.5

0.4

6

8

10

log(pib)

Nous constatons que la relation devient plus ajustée. Néanmoins, la présence de points extrêmes augmente
sensiblement la variance du modèle. Nous soupçonnons la présence d’hétéroscédascité. La variance semble
croître avec le pib. Pour en avoir le coeur net, nous allons réaliser un test de Breusch-Pagan.
Nous rejettons l’hypothèse d’homoscédasticité au risque alpha de 1%.
d’hétéroscédasticité étaient donc fondés.

Nos doutes sur la présence

Nous effectuons donc la méthode de la distance de cook pour identifier les points aberrants et les supprimer.
Cela nous permettra d’ajuster davantage le modèle.
model1 <- lm(ipe ~ log(pib), data = data6)
model1_results <- augment(model1, data6)
model1_results %>%
top_n(5, wt = .cooksd)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

.rownames natalité mortalité esperance touristes continent
1
Bahreïn
15.8
7.6 79.00000
838000
Asie
2 Guinée équatoriale
35.0
68.2 57.65000
6000
Afrique
3
Koweït
16.3
7.4 74.58000
198000
Asie
4
Oman
6.2
7.9 76.98336
1519000
Asie
5
Qatar
11.8
6.8 78.60000
2930000
Asie
pib
ipe
idh
tourpib dvp
.fitted
.se.fit
.resid
1 22600 0.4200 0.824 0.246285563
4 0.7546488 0.011397198 -0.3346488
2 14440 0.4190 0.592 0.002116804
2 0.7208082 0.009782607 -0.3018082
3 29301 0.5111 0.800 0.015288238
4 0.7742659 0.012462697 -0.2631659
4 20495 0.4590 0.796 0.177305473
4 0.7472627 0.011017672 -0.2882627
5 73653 0.4890 0.856 0.148824573
5 0.8438997 0.016695594 -0.3548997
.hat
.sigma
.cooksd .std.resid
1 0.012406441 0.09917008 0.06802839 -3.290983
2 0.009140297 0.09983599 0.04049664 -2.963128
3 0.014834574 0.10050244 0.05055184 -2.591197
4 0.011593932 0.10007864 0.04709318 -2.833651
5 0.026622866 0.09867080 0.16901486 -3.515528

Nous obtenons donc les 5 pays considérés commes les point les plus aberrants du modèle. Le point commun

43

entre ces pays est le fait d’avoir un ipe relativement faible au vue de leur pib.
dta
dta
dta
dta
dta

<<<<<-

data6[!rownames(data6)=="Qatar",]
dta[!rownames(dta)=="Bahreïn",]
dta[!rownames(dta)=="Guinée équatoriale",]
dta[!rownames(dta)=="Koweït",]
dta[!rownames(dta)=="Oman",]

ggplot(dta, aes(log(pib),(ipe))) +
geom_point() +
geom_smooth(method = "lm") +
geom_smooth(se = FALSE, color = "red")
## `geom_smooth()` using method = 'loess'

(ipe)

0.8

0.6

0.4

6

8

10

log(pib)

model2 <- lm(ipe ~ log(pib), data = dta)
summary(model2)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

Call:
lm(formula = ipe ~ log(pib), data = dta)
Residuals:
Min
1Q
-0.257648 -0.056190

Median
0.003422

3Q
0.057724

Max
0.215679

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.062605
0.041268 -1.517
0.131
log(pib)
0.083724
0.004789 17.482
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.08673 on 158 degrees of freedom
Multiple R-squared: 0.6592, Adjusted R-squared: 0.6571

44

## F-statistic: 305.6 on 1 and 158 DF,

p-value: < 2.2e-16

Visuellement, le phénomène d’hétéroscédasiticité semble corrigé, la variance des résidus apparaît constante
avec le pib.
Nous allons confirmer cette intuition en renouvelant un nouveau test de Bresusch-Pagan.
Nous voyons donc qu’il n’y a pas d’hétéroscédasticité dans les résidus. En effet la p-value est de 0.6, ce qui
est bien supérieur au risque alpha de 5%.
Les résultats de la régression nous permettent de voir qu’il existe une relation assez forte entre le logarithme
du pib et le niveau de l’ipe. Ainsi, on peut penser que, d’une part, bien qu’il existe des transferts de
technologies entre les pays, il est impossible de sauter les étapes du développement énergétique et que,
d’autre part, le niveau de responsabilité environnementalle est dépendant du pib par habitant.
Après s’être intéressé au lien entre développement et responsabilité énergétique, nous testons l’intensité des
relations entre le tourisme, l’idh, l’ipe et une variable qualitative codé de la façon suivante : qui représente
les pays d’Afrique qui apparaissaient distants des autres dans le clustering. Nous choisissons d’intégrer la
dummy “Afrique” car les pays africains semblent assez “atypiques” comparés aux autres pays.
Nous réalisons deux régressions par MCO. La première en semi-logarithmique et l’autre en niveau.
dta1 <- data6
dta1$afrique <- ifelse(dta1$continent=="Afrique",1,0)
mco <- lm(dta1$touristes~log(dta1$ipe)+log(dta1$idh)+dta1$afrique,data=dta1)
mco1 <- lm(dta1$touristes~(dta1$ipe)+(dta1$idh)+dta1$afrique,data=dta1)
summary(mco)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

Call:
lm(formula = dta1$touristes ~ log(dta1$ipe) + log(dta1$idh) +
dta1$afrique, data = dta1)
Residuals:
Min
1Q
-14035985 -6789585

Median
-2630519

3Q
2482144

Max
67938771

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
17664761
2203538
8.017 2.1e-13 ***
log(dta1$ipe) 14165996
6739877
2.102
0.0371 *
log(dta1$idh) 11267803
8152166
1.382
0.1688
dta1$afrique
688384
3122478
0.220
0.8258
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 12450000 on 161 degrees of freedom
Multiple R-squared: 0.1758, Adjusted R-squared: 0.1604
F-statistic: 11.45 on 3 and 161 DF, p-value: 7.641e-07

summary(mco1)
##
## Call:
## lm(formula = dta1$touristes ~ (dta1$ipe) + (dta1$idh) + dta1$afrique,
##
data = dta1)
##
## Residuals:

45

##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

Min
-15905754

1Q
-6524855

Median
-2355416

3Q
2519338

Max
66444340

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -23112941
6859925 -3.369 0.000943 ***
dta1$ipe
23203179
10844289
2.140 0.033888 *
dta1$idh
20962538
12358713
1.696 0.091785 .
dta1$afrique
1332477
3012065
0.442 0.658808
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 12290000 on 161 degrees of freedom
Multiple R-squared: 0.1969, Adjusted R-squared: 0.182
F-statistic: 13.16 on 3 and 161 DF, p-value: 9.952e-08

Notre second modèle estimé en niveau semble davantage significatif. En effet, l’IDH est significatif à 10%
contrairement au premier. Enfin, le coefficient de détermination et plus particulièrement le coefficient de
détermination ajusté est plus élevé par rapport à notre premier modèle. Egalement, bien que notre second
modèle soit significatif dans son ensemble, on remarque tout de même que la variable “idh” et la dummy
“Afrique” ne sont pas sgnificatives au seuil de 5% dans les deux modèles. Ces deux régressions nous font
donc penser que le toursime n’est pas lié au développement global d’un pays et que les pays d’Afrique ne
sont pas particulièrement discriminés par rapport aux autres.

5.2

Modélisation non-linéaire

L’objectif de cette partie est de réaliser une régression logistique afin de déterminer si un pays est africain en
ayant à notre disposition seulement quelques informations socio-économiques. Nous créons donc une variable
dummy “Afrique”.

data6$afrique[data6$continent=="Afrique"]<-"Yes"
data6$afrique[data6$continent=="Europe"|data6$continent=="Amériques"|data6$continent=="Asie"|data6$conti
(a<-as_tibble(data6))
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

# A tibble: 165 x 11
natalité mortalité esperance touristes continent
pib
ipe
idh
*
<dbl>
<dbl>
<dbl>
<dbl>
<fctr> <dbl> <dbl> <dbl>
1
21.3
32.80
64.00 10044000
Afrique 5274 0.7052 0.666
2
11.0
8.70
78.55
4735511
Europe 3945 0.7141 0.764
3
26.0
20.90
77.60
1710000
Afrique 3804 0.7028 0.745
8.4
4
2.20
80.26 35579000
Europe 41219 0.8426 0.926
5
38.6
76.50
60.29
592000
Afrique 3111 0.5132 0.533
6
15.8
12.50
76.50
852250 Amériques 13715 0.6980 0.786
7
21.5
15.20
74.11 17994000
Asie 20482 0.5530 0.847
8
17.5
9.87
76.92
5559000 Amériques 12449 0.7984 0.827
9
13.6
8.80
75.00
1192000
Asie 3489 0.6041 0.743
3.00
83.00
7444000
Océanie 49928 0.8722 0.939
10
12.9
# ... with 155 more rows, and 3 more variables: tourpib <dbl>, dvp <dbl>,
#
afrique <chr>

a %>%
mutate(prob = ifelse(data6$afrique == "No", 1, 0)) %>%
ggplot(aes(data6$esperance, prob)) +
geom_point(alpha = .15) +
geom_smooth(method = "glm", method.args = list(family = "binomial")) +

46

ggtitle("Modèle de Régression Logistique Simple") +
xlab("Esperance de vie") +
ylab("Probabilité d'être un pays non africain")
Modèle de Régression Logistique Simple

Probabilité d'être un pays non africain

1.00

0.75

0.50

0.25

0.00
30

40

50

60

70

80

Esperance de vie

Ainsi, le modèle de régression simple représente la probabilité d’être un pays non-africain en fonction de
l’espérance de vie. En bas sur l’axe y=0, nous avons les différents pays africains (leurs coordonnées en x
représentent leurs espérances de vie respectives). On remarque que ces pays sont majoritairement à gauche,
donc possède une espérance de vie plutot faible. Sur l’axe y=1 nous voyons les pays non africains (leurs
coordonnées en x représentent leurs espérances de vie respectives). Nous voyons au contraire ici que les pays
sont majotitairment à droite donc ont des espérances de vie plutôt fortes. Grâce à la courbe bleue nous
voyons donc les différentes probabilités d’être non-africain en fonction de l’espérance de vie. Par exemple,
pour une espérance de vie de 70 ans, la probabilité d’être un pays non-africain est de 75%.
Maintenant nous allons procéder à un échantillonnage, pour pouvoir tester 2 différents modèles que nous
allons construire.
a$afrique[a$continent=="Afrique"]<-1
a$afrique[a$continent=="Europe"|a$continent=="Amériques"|a$continent=="Asie"|a$continent=="Océanie"]<-0
a$afrique<-as.numeric(as.character(a$afrique))
set.seed(123)
sample <- sample(c(TRUE, FALSE), nrow(a), replace = T, prob = c(0.6,0.4))
train <- a[sample, ]
test <- a[!sample, ]
Voici notre premier modèle qui est tout simplement celui que nous avons représenté sur le graphique cidessous.
model1 <- glm( afrique~ esperance, family = "binomial", data = train)
summary(model1)
##
## Call:
## glm(formula = afrique ~ esperance, family = "binomial", data = train)
##
47

##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

Deviance Residuals:
Min
1Q
Median
-1.8340 -0.4128 -0.2087

3Q
0.1831

Max
2.7292

Coefficients:
Estimate Std. Error z value
(Intercept) 22.04534
4.38130
5.032
esperance
-0.33177
0.06416 -5.171
--Signif. codes: 0 '***' 0.001 '**' 0.01

Pr(>|z|)
4.86e-07 ***
2.32e-07 ***
'*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 123.583
Residual deviance: 56.474
AIC: 60.474

on 101
on 100

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 6

Les paramètres sont ici significatifs au seuil 5% (pavlue<0.05). Nous interpretons le coefficient grâce aux
odd-ratios ci-dessous :
exp(coef(model1))
## (Intercept)
esperance
## 3.751212e+09 7.176552e-01
Grâce à ce résultat nous voyons que si nous augmentons l’espérance de vie de 1 année nous augmentons la
probabilité d’être un pays non-africain de 0.7%.
confint(model1)
## Waiting for profiling to be done...
##
2.5 %
97.5 %
## (Intercept) 14.481548 31.8752172
## esperance
-0.476412 -0.2214494
Ici nous donnons l’intervalle de confiance du paramètre esperance : Il y a 95% de chance que le paramètre
se situe entre -0.46 à -0.21.
Nous allons faire une prediction à l’aide de notre echantillonnage :
g<-tibble(esperance=70)
predict(model1,g, type = "response")
##
1
## 0.2353617
Nous voulons prédire avec le modèle 1, quelle est la probabilité d’être un pays non-africain si l’espérance de
vie est de 70 ans. Ici, si l’espérance de vie est de 70 ans, la probabilité d’être un pays africain est de 25%.
Deuxième modèle à régression multiple, avec en variables explicatives l’espérance de vie et le tourisme relatif
:
model2 <- glm(afrique ~ esperance + tourpib,
family = "binomial", data = train)
tidy(model2)
##

term

estimate

std.error statistic

48

p.value

## 1 (Intercept) 23.2198040 4.72691051 4.912258 9.003347e-07
## 2
esperance -0.3414055 0.06833987 -4.995700 5.862263e-07
## 3
tourpib -0.8441723 0.49633152 -1.700824 8.897612e-02
L’espérance de vie est significative au seuil 5%, mais le tourisme relatif est significatif seulement au seuil
20% (pvalue<0.2).
exp(coef(model2))
## (Intercept)
esperance
tourpib
## 1.214039e+10 7.107706e-01 4.299130e-01
Ici le coefficient affecté à l’espérance de vie est le même que dans le modele 1 (1 année d’esperance de vie en
plus augmente de 0.7% la probabilité d’être non-africain) Pour le coefficient du tourisme relatif, 1 point de
plus dans l’indice du tourisme relatif, augmente de 0.5% la probabilité d’être non-africain. Cependant, il faut
rappeler que ce coefficient est non signifiactif à 5%, donc cette interprétation est donnée à titre d’illustration
mais ne sera pas retenue.
new.df <- tibble(esperance =75, tourpib =2)
predict(model2, new.df, type = "response")
##
1
## 0.01672548
Ici nous faisons une prédiction avec un pays ayant 75 ans d’esperance de vie et un indice du tourisme relatif
égal à 2 : Le pays a seulement 2,9% de chance d’être africain d’après notre modèle 2.
Test du rapport de vraissemblance
anova(model1, model2, test = "Chisq")
##
##
##
##
##
##
##
##
##

Analysis of Deviance Table
Model 1: afrique ~ esperance
Model 2: afrique ~ esperance + tourpib
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1
100
56.474
2
99
52.906 1
3.5678 0.05891 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ici nous voyons que notre modèle 2 a une Residual deviance inférieur, ce qui est mieux, mais cette amélioration
n’est pas significative au seuil 5%.
Pseudo R carré de McFadden
list(model1 = pscl::pR2(model1)["McFadden"],
model2 = pscl::pR2(model2)["McFadden"])
##
##
##
##
##
##
##

$model1
McFadden
0.5430252
$model2
McFadden
0.5718946

Ici le modèle 2 semble légerement meilleur (McFadden supérieur) Cependant, au vu de la non-significativité
de notre variable du tourisme relatif au seuil 5% (pvalue=0.18), dû au résultat du test anova (modèle 2 non

49

significativement meilleur), ainsi que de la faible différence du McFadden, nous choisissons le modèle 1 qui
bien que simplifié, semble plus pertinent.
Nous allons représenter les résidus de notre modèle 1 :
model1_data <- augment(model1) %>%
mutate(index = 1:n())
ggplot(model1_data, aes(index, .std.resid, color = afrique)) +
geom_point(alpha = .5) +
geom_ref_line(h = 3)

3

2

afrique
1.00

.std.resid

1
0.75
0.50
0.25

0

0.00

−1

−2
0

25

50

75

100

index

En couleur ici apparaissent les résidus des pays africains (en haut, signe positif)
Nous décidons ensuite de sélectionner les pays avec des résidus trés forts (supérieur à 2), pour voir pourquoi
ces pays semblent atypiques.
model1_data %>%
filter(abs(.std.resid) > 2)
##
##
##
##
##
##
##
##

afrique esperance
.fitted
.se.fit
.resid
.hat
.sigma
1
77.60 -3.699702 0.7008076 2.729151 0.01156706 0.7030866
1
74.55 -2.687815 0.5389254 2.346755 0.01732172 0.7168241
1
75.10 -2.870287 0.5665433 2.418851 0.01629414 0.7144004
.cooksd .std.resid index
1 0.2393640
2.745073
2
2 0.1318383
2.367348
58
3 0.1485322
2.438802
95
1
2
3

mean(data6$esperance[data6$continent=="Afrique"])
## [1] 61.17957
Nous voyons en fait que nous avons des pays africains avec des espérances de vie relativement fortes (75ans),
alors que nous avons vu que les pays africains avaient une espérance de vie moyenne de 61 ans. Ces pays
sont donc atypiques. Ces 4 pays sont l’Algérie, le Maroc, la Tunisie et l’ile Maurice.

50




Télécharger le fichier (PDF)

memoire_RCS_ouri_benji.pdf (PDF, 1.1 Mo)

Télécharger
Formats alternatifs: ZIP







Documents similaires


aprica no2
tp7
cours mpsi mathematiques 2
memoire rstudio
memoire rcs ouri benji
me moire le tourisme saharien1

Sur le même sujet..