Mémoire La modération en arabe CHAAR tirage .pdf


À propos / Télécharger Aperçu
Nom original: Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf
Titre: Traitement automatique de la langue arabe
Auteur: Rayan

Ce document au format PDF 1.5 a été généré par Microsoft® Word 2010, et a été envoyé sur fichier-pdf.fr le 12/04/2018 à 11:43, depuis l'adresse IP 62.23.x.x. La présente page de téléchargement du fichier a été vue 757 fois.
Taille du document: 3 Mo (95 pages).
Confidentialité: fichier public


Aperçu du document


Institut National des Langues et Civilisations Orientales (I.N.A.L.C.O)
Filière Traductique et gestion de l’information

MEMOIRE
Pour l’obtention du Diplôme du Master 2 d’ingénierie linguistique
En Traductique et gestion de l’information

Directeur du mémoire :
SLODZIAN Monique (E.R.T.I.M. ; INALCO)

Traitement automatique de la langue arabe
La modération en arabe
CHAAR Adam

Jury d’examen :
SLODZIAN-Monique (E.R.T.I.M. ; INALCO)
DAUBE-Jean-Michel (E.R.T.I.M. ; INALCO)
Institut National des Langues et Civilisations Orientales (I.N.A.L.C.O)
Paris, 04 juillet 2012

Remerciements
Mes remerciements les plus sincères à toutes les personnes qui auront contribué de près ou
de loin à l'élaboration de ce mémoire ainsi qu'à la réussite de cette formidable année
universitaire.
Je tiens à remercier sincèrement Madame Monique Slodzian, qui, en tant qu’encadreur de
mémoire, s'est toujours montrée à l'écoute et très disponible tout au long de la réalisation de
ce mémoire, ainsi pour la gentillesse, l'inspiration, la relecture, l'aide et le temps qu'elle a
bien voulu me consacrer et sans qui ce mémoire n'aurait jamais vu le jour.
Mes remerciements s’adressent également à Monsieur Jean Michel Daub : Directeur du
Master, qui m’a fait découvrir le domaine du TAL qui m’a bien intéressé et de l’aide qu’il
m’a attribué tout au long de l’année d’étude en Traductique et gestion de l’information.
Je tiens à exprimer mes sincères remerciements à tous les professeurs qui m’ont enseigné
et qui par leurs compétences m’ont soutenu dans la poursuite de mes études.
Je tiens à remercier Monsieur Ian Sprunck de la société Scan and Target, pour son temps,
ses remarques pertinentes lors de nos discussions, sa relecture et son aide précieuse de tous
les jours.
J'exprime ma gratitude à tous les consultants et internautes rencontrés lors des recherches
effectuées et qui ont accepté de répondre à mes questions avec gentillesse.
Mes dernières pensées iront vers ma famille, et surtout mes parents, qui sont toujours à
mes côtés et qui m’auront permis de poursuivre mes études jusqu’à aujourd’hui.
Enfin, j'adresse mes plus sincères remerciements à tous mes proches et amis, qui m'ont

Merci à tous et à toutes

Adam CHAAR

Chapitre : Remerciements

toujours soutenu et encouragé au cours de la réalisation de ce mémoire.

2

Résumé :
L’objectif de ce mémoire est d’appliquer un système de modération adapté pour la langue
arabe, dans le but de modérer les commentaires d’une page Facebook appartenant à un
présentateur de la chaîne « Al Jazzera ».
Pour ce faire, nous avons étudié les caractéristiques et la particularité de la langue arabe
afin de trouver des solutions pour son traitement automatique.
L’arabe est caractérisé par l’agglutination. Cela nécessite donc un système qui prenne en
compte toutes les variations graphiques et syntaxiques de cette langue. Nous avons été
confrontés également à plusieurs problématiques comme l’absence de signes diacritiques,
l’absence de notion de majuscule et de minuscule et la grande variété d’écriture entre l’arabe
standard (MSA) et l’arabe dialectal.
Ensuite, nous avons construit notre corpus de travail qui est extrait d’une page fan sur le
réseau social Facebook, afin de créer un corpus de référence et un corpus de test.
Nous avons terminé par une évaluation des résultats, à la fois manuelle et automatique, en
s’appuyant sur des mesures statistiques traditionnelles en TAL. Cette évaluation montre que
nos résultats d’analyse par notre système de modération sont très bons.
Mots clés:
Traitement automatique de la langue arabe, TAL, modération, morphosyntaxique de la langue

Chapitre : Résumé :

arabe, corpus de référence, corpus de test, base lexicale, analyse.

3

Abstract:
The objective of this thesis is to implement a moderation system suitable for the Arabic
language, in order to moderate comments on a Facebook page belonging to a presenter of the
channel "Al Jazeera".
To do this, we have studied the characteristics and peculiarities of the Arabic language in
order to find solutions for automatic processing.
Arabic is characterized by agglutinations. This requires a system that takes into account all
variations in graphics and syntax of the language. We were also faced with several problems
such as the lack of diacritical marks, the absence of the notion of uppercase and lowercase as
well as the difference in writing in between Standard Arabic (MSA) and colloquial Arabic.
We then built our body of work from extractions of a fan page on the social network
Facebook, in order to create a reference corpus and a test corpus.
We concluded with an evaluation of results, both manual and automatic, based on
traditional statistical measures in NLP. This evaluation demonstrates that the analytical results
from our moderation system are very good.
Key words:
Automatic processing of the Arabic language, TAL, moderation, morphosyntactic of Arabic,

Chapitre : Abstract:

reference corpus, test corpus, basic lexical analysis

4

Sommaire
INTRODUCTION GÉNÉRALE ........................................................................................... 11
Chapitre 1 : La langue arabe ................................................................................................. 14
1.1 Introduction ....................................................................................................................... 14
1.2 Caractéristique et particularité de la langue arabe ............................................................ 14
1.3 L’alphabet arabe ................................................................................................................ 15
1.4 Morphologie de l’arabe ..................................................................................................... 16
1.5 L’arabe sur le Web ............................................................................................................ 24
1.6 Conclusion......................................................................................................................... 27
Chapitre 2 : Traitement automatique de l’arabe ................................................................ 28
2.1 Introduction ....................................................................................................................... 28
2.2 Difficulté du traitement automatique de l’arabe ............................................................... 29
2.3 Conclusion......................................................................................................................... 37
Chapitre 3 : La modération ................................................................................................... 38
3.1 Objet de la modération ...................................................................................................... 38
3.2 Les thèmes de la modération ............................................................................................. 38
3.3 La modération, état de l’art ............................................................................................... 39
3.4 Conclusion......................................................................................................................... 43
Chapitre 4 : L’évaluation ....................................................................................................... 44
4.1 Contexte de l’évaluation.................................................................................................... 44
4.2 Corpus de test et de référence ........................................................................................... 44
4.3 Traitement de l’arabe dans notre système ......................................................................... 45
4.4 Evaluation de notre travail ................................................................................................ 53
4.5 Conclusion......................................................................................................................... 63
CONCLUSION GÉNÉRALE................................................................................................ 64
BIBLIOGRAPHIE ................................................................................................................. 87
Chapitre : Sommaire

GLOSSAIRE ........................................................................................................................... 90

5

TABLE DE MATIÈRE
Remerciements ........................................................................................................................... 2
Résumé : .................................................................................................................................... 3
Abstract: .................................................................................................................................... 4
Sommaire................................................................................................................................... 5
TABLE DE MATIÈRE ............................................................................................................ 6
LISTE DES TABLEAUX ........................................................................................................ 9
LISTE DES FIGURES ........................................................................................................... 10
INTRODUCTION GÉNÉRALE ........................................................................................... 11
Chapitre 1 : La langue arabe ................................................................................................. 14
1.1 Introduction ..................................................................................................................... 14
1.2 Caractéristiques et particularités de la langue arabe .................................................. 14
1.3 L’alphabet arabe ............................................................................................................. 15
1.4 Morphologie de l’arabe ................................................................................................... 16
1.4.1

Catégorie d’un mot arabe ............................................................................................... 16

1.4.1.1

Le verbe ......................................................................................................................... 17

1.4.1.2

Le nom .......................................................................................................................... 19

1.4.1.3

Les particules ................................................................................................................ 20

1.4.2

Structure d’un mot arabe ............................................................................................... 21

1.4.3

Les différentes formes de la Hamza ‫ ء ئ ؤ أ إ‬.................................................................. 21

1.5 L’arabe sur le Web .......................................................................................................... 24
1.6 Conclusion ........................................................................................................................ 27
Chapitre 2 : Traitement automatique de l’arabe ................................................................ 28
2.1 Introduction ..................................................................................................................... 28
2.2 Difficulté du traitement automatique de l’arabe .......................................................... 29
Problèmes de formes ....................................................................................................... 29

2.2.1.1

L’absence de voyelle ou de signes diacritiques............................................................ 29

2.2.1.2

L’absence de majuscule dans les entités nommées ..................................................... 30

2.2.1.3

Le caractère spécial « Kachidé » ou « Tatouïl » ......................................................... 30

2.2.2
2.2.2.1
2.2.3
2.2.3.1

Problème de la diversité de l’arabe................................................................................ 31
L’arabe MSA face à l'arabe dialectal .......................................................................... 31
Orthographe .................................................................................................................... 32
Fautes d’orthographe communes ................................................................................ 32

Chapitre : TABLE DE MATIÈRE

2.2.1

6

2.2.3.1.1 La confusion de graphie de la « hamza » .................................................................... 32

2.2.3.1.2 La confusion du « alif maqṣūra-‫ » ى‬et « yāʾ-‫ » ي‬........................................................ 33
2.2.3.1.3 Restitution de la lettre « tāʾ marbūta-‫ » ة‬finale .......................................................... 33
2.2.3.2

Fautes d’orthographe générées par l’influence de l’arabe dialectal.......................... 34

2.2.3.2.1 La confusion du « ḍād-‫ » ض‬et « ẓāʾ- ‫ » ظ‬..................................................................... 34
2.2.3.2.2 La confusion des lettres parodontales ......................................................................... 34
2.2.3.2.2.1

La confusion entre « sīn-‫» س‬, « ṯāʾ-‫ » ث‬et « tāʾ-‫ » ت‬.......................................... 34

2.2.3.2.2.2

La confusion entre « zāy-‫ » ز‬et « ḏāl-‫ » ذ‬............................................................. 35

2.2.3.2.2.3

La confusion du « qāf-‫ » ق‬et « hamza-‫ » ء‬.......................................................... 35

2.3 Conclusion ........................................................................................................................ 36
Chapitre 3 : La modération ................................................................................................... 37
3.1 Objet de la modération ................................................................................................... 37
3.2 Les thèmes de la modération .......................................................................................... 37
3.2.1

Le respect de la loi ........................................................................................................... 38

3.2.2

La convivialité.................................................................................................................. 38

3.2.3

Le détournement de trafic .............................................................................................. 38

3.3 La modération, état de l’art ........................................................................................... 38
3.3.1

Modération humaine ....................................................................................................... 39

3.3.2

Modération automatique : mots clés ............................................................................. 40

3.3.3

Modération automatique : un moteur d’analyse lexicale ............................................ 41

3.4 Conclusion ........................................................................................................................ 42
Chapitre 4 : L’évaluation ....................................................................................................... 43
4.1 Contexte de l’évaluation ................................................................................................. 43
4.2 Corpus de test et de référence ........................................................................................ 43

4.3.1

Traitement des signes diacritiques ................................................................................. 44

4.3.2

Traitement du préfixe et du suffixe ............................................................................... 45

4.3.2.1

Les pronoms et les particules ....................................................................................... 45

4.3.2.2

Les préfixes et les suffixes du verbe inaccompli .......................................................... 45

4.3.2.3

Les suffixes du verbe accompli .................................................................................... 46

4.3.2.4

Le pluriel externe.......................................................................................................... 46

4.3.2.5

Le pluriel interne .......................................................................................................... 46

4.3.2.6

Le duel .......................................................................................................................... 47

4.3.3

Traitement des fautes d’orthographe ............................................................................ 47

Chapitre : TABLE DE MATIÈRE

4.3 Traitement de l’arabe dans notre système .................................................................... 44

7

4.3.4

Traitement des caractères non alphanumériques ........................................................ 50

4.3.5

La codification informatique des lettres arabes ........................................................... 50

4.4 Evaluation de notre travail ............................................................................................. 52
4.4.1

Introduction ..................................................................................................................... 52

4.4.2

Evaluation humaine et annotation du corpus ............................................................... 53

4.4.3

Evaluation de l’analyse ................................................................................................... 55

4.4.3.1

Démarche d’évaluation ................................................................................................ 55

4.4.3.2

Objectifs et tableau des résultats .................................................................................. 56

4.4.4

Interprétation des résultats ............................................................................................ 57

4.4.4.1

Mesures d’évaluation ................................................................................................... 57

4.4.4.2

Automatisation.............................................................................................................. 58

4.4.4.3

Précision ....................................................................................................................... 59

4.4.4.4

Rappel ........................................................................................................................... 59

4.4.4.5

F-mesure ....................................................................................................................... 60

4.4.4.6

Bruit et silence .............................................................................................................. 61

4.5 Conclusion ........................................................................................................................ 62
CONCLUSION GÉNÉRALE................................................................................................ 63
LISTE DES TABLEAUX ...................................................................................................... 65
LISTE DES FIGURES ........................................................................................................... 74
BIBLIOGRAPHIE ................................................................................................................. 86

Chapitre :

GLOSSAIRE ........................................................................................................................... 89

8

LISTE DES TABLEAUX
Tableau 1 : Les signes diacritiques ......................................................................................... 15
Tableau 2 : L’alphabet et l’écriture dans tous leurs états ........................................................ 66
Tableau 3 : Les consonnes arabes ........................................................................................... 15
Tableau 4 : Les voyelles arabes............................................................................................... 15
Tableau 5: Les « maṣdar » des verbes ..................................................................................... 67
Tableau 6: Faute d’orthographe de la graphie de hamza avec l’article défini ........................ 67
Tableau 7 : La confusion de la graphie du « wāw hamza en chef-‫ » ؤ‬................................... 32
Tableau 8: alif maqṣūra : alif réservé aux fins de mots........................................................... 67
Tableau 9 : La confusion du « alif maqṣūra-‫ » ى‬et « yāʾ-‫ » ي‬................................................ 33
Tableau 10: tā marbūta : marqueur de genre et de nombre (fin de mots................................. 69
Tableau 11 : La restitution de la lettre « tāʾ marbūta-‫ » ة‬finale .............................................. 34
Tableau 12 : La confusion du « ḍād-‫ » ض‬et « ẓāʾ- ‫ » ظ‬.......................................................... 34
Tableau 13 : La confusion entre « sīn-‫» س‬, « ṯāʾ-‫ » ث‬et « tāʾ-‫ » ت‬........................................ 35
Tableau 14 : Les pronoms possessifs ...................................................................................... 68
Tableau 15 : La grammaire morphologie : Les préfixes et les suffixes .................................. 68
Tableau 16 : Le verbe accompli et inaccompli ....................................................................... 69
Tableau 17 : Le pluriel externe masculin et féminin ............................................................... 70
Tableau 18 : Le pluriel interne ................................................................................................ 71
Tableau 19 : Les désinences du duel ....................................................................................... 71
Tableau 20 : Combinaison de caractères : le bi-gramme lām-alif........................................... 71
Tableau 21 : Grammaire morphologique : La confusion des lettres ....................................... 73
Tableau 22 : Résultat de l’évaluation de l’analyse manuelle .................................................. 54
Tableau 23 : Résultat de l’évaluation de l’analyse automatique ............................................. 56

Tableau 25 : La précision et le bruit ........................................................................................ 59
Tableau 26 : Le rappel et le silence ......................................................................................... 60

Chapitre : LISTE DES TABLEAUX

Tableau 24 : L’évaluation de l’analyse automatique et manuelle ........................................... 57

9

LISTE DES FIGURES
Figure 1 : Faux positif du mot ‫ أخرى‬: problème d’absence de signes diacritiques .................. 74
Figure 2 : Faux positif du mot ‫ جرب‬: problème d’absence de signes diacritiques ................. 74
Figure 3 : Faux positif du mot ‫ مأجور‬: problème au niveau sémantique .................................. 75
Figure 4 : Génération de l’adjectif........................................................................................... 75
Figure 5 : Génération du verbe inaccompli ............................................................................. 76
Figure 6 : Les désinences du pluriel externe masculin : cas sujet ........................................... 76
Figure 7 : Les désinences du pluriel externe masculin : cas COD .......................................... 77
Figure 8 : Le pluriel interne du mot ‫ حمار‬................................................................................. 77
Figure 9 : Faux positif : problème de désinence du duel et du féminin singulier ................... 78
Figure 10 : Faute d’orthographe : l’article défini .................................................................... 78
Figure 11 : Génération du pronom démonstratif (forme dialectale agglutinée) ..................... 79
Figure 12: L’agglutination de coordination ............................................................................. 79
Figure 13 : Faute d’orthographe commune : confusion entre le « tā marbūta et le hāʾ » ....... 80
Figure 14: faute d’orthographe dialectale : confusion entre le ‫ ذ‬et le ‫ د‬................................... 80
Figure 15 : faute d’orthographe dialectale de lettre ‫ ذ‬et le ‫ ز‬................................................... 81
Figure 16 : Faux positif du mot ‫ ثور‬: faute de frappe du mot ‫ دكتور‬......................................... 82
Figure 17 : Faux positif du mot ‫ ثور‬: problème de l’arabe dialectal ........................................ 83
Figure 18 : Faux positif du mot ‫ نذل‬: problème de l’arabe dialectal ........................................ 83
Figure 19 : Cas de redoublement de la même lettre ................................................................ 84
Figure 20 : Caractère non alphanumérique : espace................................................................ 84

Chapitre : LISTE DES FIGURES

Figure 21 : Clavier arabe ......................................................................................................... 85

1
0

INTRODUCTION GÉNÉRALE

L

a langue arabe compte aujourd’hui parmi les langues les plus utilisées sur le Web et les
réseaux sociaux, notamment avec l’avènement du printemps arabe. De très nombreux

textes et articles sont rédigés dans cette langue. Sur Facebook, le nombre des pages fans a
explosé créant des espaces d’échanges et de débats souvent très engagés. Les partisans et les
opposants aux révolutions arabes s’y affrontent de manière très virulente.
Ces pages sont le lieu de polémiques et d’affrontements violents entre les différents camps,
illustrés par l’agressivité des commentaires des internautes sur différents sujets : sociaux,
religieux, politiques, etc. Le besoin de modération, qui sert à contrôler les contributions
(textes, images, vidéo ou son, etc.) des internautes, se fait donc fortement sentir. Elle permet
d’assurer que le contenu d’un site est conforme à la loi et sa ligne éditoriale.
Mais cette montée en puissance des pages en arabe peut nécessiter l’utilisation d’outils
informatiques performants dont la tâche est d’analyser, modérer et filtrer automatiquement les
commentaires.
Le traitement automatique des langues (TAL) a donc intérêt fort. Il a pour objectif de
concevoir un programme capable de traiter des textes écrits en langage naturel. Cela nécessite
une analyse morphologique, syntaxique, sémantique et pragmatique.
En ce qui concerne l’utilisation des outils de traitement automatique des langues pour la



des outils du traitement de la langue (outils de recherche de texte, outils statistiques
sur les textes et corpus de référence, etc.) ;



des ressources langagières (dictionnaires, corpus, bases de données lexicales, etc.) ;



d’une grammaire de la langue arabe intégrant une analyse morphologique,
syntaxique voire sémantique.

« En traitement automatique des langues écrites et surtout dans les études quantitatives
des textes, le point de départ est généralement les mots graphiques. Or le mot graphique ne
correspond pas toujours, surtout dans les langues à systèmes d’écritures non segmentées, à

Chapitre : INTRODUCTION GÉNÉRALE

langue arabe, nous avons besoin de plusieurs outils linguistiques et informatiques :

1
1

l’unité lexicale de base, ce qui rend indispensable l’établissement d’une norme lexicologique
[…] », [Z. MOUELHI].
Le but de ce mémoire est de mettre en œuvre et d'évaluer un système de modération
automatique pour la langue arabe, en adaptant différentes techniques linguistiques et
informatiques qui ont été déjà utilisées pour le traitement de textes en langues anglaise et
française.
Les textes traités par la modération automatique sont écrits le plus souvent en langage
naturel. Pour mettre au point un outil pertinent, l’étude de la langue arabe ne doit donc se
limiter à ses aspects classiques (morphologie, syntaxe, etc.) mais doit inclure également un
travail sur les altérations de formes (graphies, absence des signes diacritiques) et dialectales
(vocabulaire spécifique, fautes d’orthographe, confusion des lettres, etc.).
Nous avons commencé ainsi par collecter notre corpus de travail sur la page Facebook
d’un présentateur d’une émission arabe. Les commentaires de cette page ont pour principal
thème la politique, et en particulier la révolution syrienne. Dans le cadre de ce mémoire, nous
avons appliqué notre outil d’analyse sur un corpus de 4 133 messages.
L’outil de modération a été développé par la société Scan & Target., Il analyse en temps
réel les contenus textuels web et mobile proposant de monétiser, modérer ou recueillir la
matière du texte numérique. C’est une solution de filtrage et de modération qui permet de
lutter contre les « spams », les « splogs » et les abus des internautes.

spécifique à la modération contenant tous les termes injurieux, vulgaires, critiques,
diffamatoires, etc. Pour élaborer un système de modération en langue arabe, nous nous
sommes basés sur des éléments linguistiques, notamment sur le registre de langue (commun,
familier, argot, vulgaire, etc.).
Enfin, nous avons construit une grammaire morphologique afin de pouvoir résoudre les
différents problèmes posés par la forme graphique du mot en arabe.
Ce mémoire s’articule autour de quatre chapitres, commençant par un bref état de l’art sur
la langue arabe afin de connaître sa spécificité et la difficulté de son traitement automatique,

Chapitre : INTRODUCTION GÉNÉRALE

Notre travail porte sur l’enrichissement et l’amélioration d’une base de données lexicale

1
2

et finissant par une évaluation de l’analyse manuelle et automatique de notre système de
modération.
Dans le premier chapitre, nous abordons les particularités et les caractéristiques de la
langue arabe.
Dans le deuxième chapitre, nous détaillons les principales difficultés du traitement
automatique de l’arabe. Ces difficultés proviennent de plusieurs éléments : l’absence des
signes diacritiques, l’agglutination de lettres, les fautes d’orthographe communes et
dialectales.
Le troisième chapitre décrit le but de la modération et le besoin croissant d’utiliser de tels
outils.
Dans le dernier chapitre, nous nous consacrons à une évaluation de l’analyse automatique
et manuelle de notre corpus de travail afin de comparer le corpus de test à celui de référence.
Nous présenterons les résultats de l’analyse et le taux de pertinence notamment à l’aide des

Chapitre : INTRODUCTION GÉNÉRALE

mesures traditionnelles en TAL qui sont le rappel et la précision.

1
3

Chapitre 1 : La langue arabe
1.1

Introduction

La langue arabe a beaucoup évolué depuis la révélation du Saint Coran qui est considéré
comme la base grammaticale de cette langue. « Cet arabe littéraire, considérablement enrichi
par la production islamique liée au texte sacré, le Coran, a très vite évolué vers une forme
classique à la faveur de la codification des grammairiens » [Taïeb Baccouche, 2009].
Avec la multiplication des sources écrites en langue arabe, forums et réseaux sociaux par
exemple, et l’évolution des moyens d’édition gérant l’alphabet arabe sur le Web, les
recherches et les études sur le traitement automatique de cette langue ont abordé des
problématiques variées : l’analyse et le classement automatique des textes, la traduction
automatique, la correction orthographique ou l’indexation des documents.
Dans ce chapitre, nous présenterons les caractéristiques et les particularités de la langue
arabe ainsi que certaines de ses propriétés morphosyntaxiques.

1.2

Caractéristiques et particularités de la langue arabe

La langue arabe est une langue sémitique, tels que l’hébreu, le phénicien, l’araméen, le
syriaque, etc.

pour l’écriture manuscrite et pour l’imprimé, la structure particulière combinant schème et
radical ainsi que par la non-vocalisation. Une autre particularité concerne l’utilisation
facultative des voyelles. « Les différents signes diacritiques conduisent à la résolution de la
plupart des ambigüités qui ne laissent aucune place pour le malentendu » [Alaa Al-dine Salah
Al-Ajmawi].

Chapitre : Chapitre 1 : La langue arabe

L’arabe s’écrit de droite à gauche. Cette langue est caractérisée par l’agglutination, à la fois

1
4

Les voyelles courtes, représentées par des symboles appelés signes diacritiques, sont
ajoutées au-dessus ou au-dessous des lettres. Il s’ajoute quelques réalisations vocaliques
comme la « nunnation/tanwïn1 », la « gémination/šaddah2 » et le « silence/sukūn3 ».
Le tableau suivant représente les signes diacritiques en arabe :
šaddah

sukūn

tanwïn

tanwïn

ʾal-ḍamma ʾal-kasra

ّ

ّ

ّ

ّ

tanwïnʾ

ḍamma

kasra

fatḥa

ّ

ّ

ّ

al-fatḥa

ّ

Tableau 1 : Les signes diacritiques

1.3

L’alphabet arabe

L’alphabet arabe comporte 28 consonnes qui correspondent chacune à un phonème (voir
tableau 2, page 66), 14 consonnes lunaires qui n’assimilent pas le ‫ ل‬de l’article et 14
consonnes solaires qui assimilent le ‫ ل‬de l’article. Certains grammairiens considèrent la
« hamza/‫ » ء‬comme le 29ème phonème.
Consonnes Solaires

Consonnes Lunaires

‫تثدذرزسش صضطظلن‬

‫أبجحخعغفقآهموي‬

Tableau 3 : Les consonnes arabes
De même, il existe 6 voyelles en arabe standard, 3 longues et 3 courtes, la durée d’une

Voyelles longues

Voyelles courtes

‫ا و ي‬

ّّّ
Tableau 4 : Les voyelles arabes

Les lettres arabes changent de forme selon leur position dans la phrase. Toutes les lettres
de l’alphabet, qu’elles soient manuscrites ou imprimées, sont agglutinées soit au début soit au
1

Nunnation/tanwīn est l'ajout d'une finale n à un nom ou un adjectif pour indiquer qu'il est entièrement
déclinable et syntactiquement non marqué pour définitivité
2
Šaddah est le redoublement d’une consonne
3
Sukūn est l’absence de la voyelle (voyelle zéro)

Chapitre : L’alphabet arabe

voyelle longue étant environ le double de celle d’une voyelle courte.

1
5

milieu soit à la fin (voir tableau 2, page 66). Cependant, 6 d’entre elles s’attachent
uniquement aux lettres précédentes mais pas aux lettres suivantes. Ces lettres sont les
suivantes :
Les caractères qui ne s’attachent pas au suivant
‫ادذرزو‬

La lettre « alif-‫ » ا‬peu également prendre ces formes : « ‫ال‬،‫إل‬،‫أل‬،‫آ‬،‫إ‬،‫» أ‬, également pour la
lettre « wāw-‫ » و‬qui peut prendre ce forme « ‫» ؤ‬.

1.4

Morphologie de l’arabe

La langue arabe comprend trois catégories de mots : les verbes, les noms et les particules.
Les verbes sont le plus souvent dérivés d’une racine à trois consonnes qu’on appelle le
« maṣdar4 ». Il est composé de quatre schèmes « trilitère, quadrilitère, cinquième et sixième »
(voir tableau 5, page 67)
Une famille de mots peut être générée à partir d’une seule racine à l’aide de différents
schèmes. La racine est la suite des consonnes formant le radical du mot ; à chaque racine
correspond un champ sémantique. La racine est un élément important dans les langues
sémitiques.
« Avec cent quarante-quatre modèles logiques, il est possible de conjuguer presque tous

1.4.1

Catégorie d’un mot arabe

Comme nous l’avons indiqué, la langue arabe comprend trois catégories de mots : le verbe,
le nom et la particule :

4

Le maṣdar est un nom extrait du verbe et des dérivations et qui indique l’action du verbe
La grammaire de la langue arabe, Abed Al-Latif Al saaid
5
http://www.majma.org.jo/majma/index.php/2009-02-10-09-35-28/261-19-2.html

Chapitre : Morphologie de l’arabe

les verbes arabes sans exception » [Alaa Al-dine Salah Al-Ajmawi5].

1
6



le verbe est une entité qui exprime un sens dépendant de l’un des trois temps,
l’accompli, l’inaccompli et l’impératif. Les verbes se divisent en deux catégories, les
verbes « sains » et les verbes « défectueux » ;
o Les verbes sains ne contiennent aucune des lettres défectueuses dans leur
radical, à savoir un des trois voyelles « alif-‫» أ‬, « yāʾ-‫» ي‬, « wāw-‫» و‬.
o Les verbes défectueux contiennent au moins une ou deux lettres défectueuses.



le nom désigne un objet ou un être exprimant une notion indépendante du temps ;



les particules servent à lier les noms, les verbes et les parties de la phrase mais
également à indiquer le temps comme la particule « ‫ » س‬qui marque le temps futur.

1.4.1.1 Le verbe
La conjugaison du verbe en arabe dépend de plusieurs facteurs :


l’aspect : accompli/passé, inaccompli/présent, apocopé/impératif ;



le nombre du sujet : singulier, duel et pluriel ;



le genre du sujet : masculin ou féminin ;



la personne : première, deuxième ou troisième ;



la voix : active ou passive.

Comme nous l’avons vu, les verbes se divisent en deux catégories :
1. Les verbes sains (‫ )األفعال الصحيحة‬sont les verbes dont les lettres radicales ne

Exemple : ‫ سمع‬،‫ أمر‬،‫ قرأ‬،‫ رفع‬،‫ كتب‬،‫ حضر‬،‫جلس‬
Les verbes sains se répartissent en trois catégories : le verbe sain simple, le verbe sain
hamzé « mahmouz-‫ » مهموز‬et le verbe sain redoublé « muḍaaf-‫ » مضاعف‬et « muḍḍaf-‫» مضعَّف‬:


dans les verbes sains simples, les lettres radicales ne contiennent ni de « hamza » ni de
redoublement de consonne. Exemple : ‫ سمع‬،‫ رفع‬،‫ كتب‬،‫ حضر‬،‫جلس‬

Chapitre : Morphologie de l’arabe

contiennent pas de lettres défectueuses « alif-‫» أ‬, « yāʾ-‫» ي‬, « wāw-‫» و‬.

1
7



dans les verbes sains hamzés « mahmouz-‫» مهموز‬, l’une des lettres radicales contient
une « hamza », en début, en milieu ou en fin de mot. Exemple : ‫ أكل‬،‫ أذن‬،‫ أمر‬،‫ أخذ‬،‫سأل‬
،‫قرأ‬



les verbes sains redoublés « muḍaaf-‫ » مضاعف‬et « muḍḍaf-‫» مضعَّف‬, se divisent euxmêmes en deux catégories :
o les verbes dont la deuxième et la troisième lettre sont identiques. Exemple : ،‫م َّد‬
‫ ش َّد‬،‫ س َّد‬،‫ع َّد‬
o les verbes dont la première et la troisième lettre sont identiques ou dont la
deuxième et la quatrième lettre est identique. Exemple : .‫ وسوس‬،‫زلزل‬

2. Les verbes défectueux (‫ )األفعال ال ُمعتلة‬sont les verbes dont l’une de des lettres radicales
contient une lettre défectueuse « alif-‫» أ‬, « yāʾ-‫» ي‬, « wāw-‫» و‬. Exemple : ،‫ قال‬،‫وجد‬
‫سعى‬.
Les verbes défectueux se divisent en quatre catégories :


les verbes assimilés « miṯāʾal-‫ » مثال‬dont la première lettre est défectueuse. Exemple :
‫ وجد‬،‫ ولد‬،‫وعد‬



les verbes creux ou concaves « ağwaf-‫ » أجوف‬dont la deuxième lettre est défectueuse.
Exemple : ‫ نام‬،‫ باع‬،‫قال‬
les verbes défectueux « naqess-‫ » ناقص‬dont la dernière lettre est défectueuse.
Exemple : ‫ سعى‬،‫ دعا‬،‫ رمى‬le verbe « al lafif-‫ » اللفيف‬est un verbe qui contient une lettre
défectueuse ; il se divise également en deux catégories :
-

le

verbe « lafif maqroun-‫ » لفيف مقرون‬contient deux lettres défectueuses

successives. Exemple : ‫ شوى‬،‫أوى‬
-

le verbe « lafif mafrouq-‫ » لفيف مفروق‬contient deux lettres défectueuses non
successives, autrement dit, une lettre saine sépare deux lettres défectueuses.
Exemple : ‫ وعى‬،‫وشى‬

Chapitre : Morphologie de l’arabe



1
8

1.4.1.2 Le nom
En arabe, les substantifs sont de deux catégories, ceux qui sont dérivés de la racine verbale
et ceux qui proviennent d’une langue étrangère. La construction des noms, qui se fait en
ajoutant des morphèmes spécifiques, dépend de plusieurs règles. En arabe nous avons
plusieurs fromes de pluriel : le pluriel externe « sain », le pluriel interne « brisé », le pluriel du
pluriel6 et le duel7. La déclinaison des noms se fait selon les règles suivantes :


le féminin singulier : dans la majorité des cas, on ajoute à la fin du mot la lettre « tāʾ
marbūta-‫ » ة‬à la forme masculine singulière. Exemple : ‫مواطن‬/citoyen devient
‫مواطنة‬/citoyenne ;



le féminin duel : on ajoute à la fin du mot les deux lettres « alif nūn-‫ » ان‬ou les deux
lettres « yāʾ nūn-‫ » ين‬en fonction de la position du nom dans la phrase, avant le verbe,
sujet, ou après le verbe, complément d’objet, à la forme féminin singulier. Exemple :
‫مدرسة‬/ maîtresses devient ‫مدرستين‬-‫مدرستان‬/ maîtresses ;



le féminin pluriel externe « sain » : on ajoute à la fin du mot les deux lettres « alif tāʾ-

‫ » ات‬à la forme masculine singulière.
Exemple : ‫معلم‬/enseignant devient ‫معلمات‬/enseignante ;


le masculin duel : on ajoute à la fin du mot les deux lettres « alif nūn-‫ » ان‬ou les deux
lettres « yāʾ nūn-‫ » ين‬en fonction de la position du nom dans la phrase, avant le verbe,
sujet, ou après le verbe, complément d’objet, à la forme féminin singulier. Exemple :
‫معلم‬/maître devient ‫معلمان‬-‫معلمين‬/maîtres ;



le masculin pluriel externe « sain »: on ajoute à la fin du mot soit les deux lettres « yāʾ
« wāw nūn-‫ » ون‬si le mot est dans la position de sujet. Exemple : ‫ كاتب‬/écrivain devient
‫كاتبين‬-‫كاتبون‬/ écrivains ;



le pluriel interne « brisé », masculin ou féminin : c’est le cas le plus complexe en
arabe. La construction de ces formes s’obtient en insérant des lettres au début, au
milieu, à la fin du mot ou en remplaçant une lettre défectueuse par une autre lettre

6
7

Le pluriel du pluriel est le pluriel du pluriel interne, il désigne 9 choses et plus.
Le duel est un terme propre à la langue arabe, il désigne deux choses pas plus.

Chapitre : Morphologie de l’arabe

nūn-‫ » ين‬si le mot est dans la position d’un complément d’objet soit les deux lettres

1
9

défectueuse. Exemple:‫ ولد‬/enfant se transforme en ‫أوالد‬/enfants et ‫رجل‬/homme se
transforme en ‫رجال‬/hommes.
« Le phénomène du pluriel irrégulier en arabe pose un défi à la morphologie, non
seulement à cause de sa nature concaténative, mais aussi parce que son analyse dépend
fortement de la structure comme les verbes irréguliers » [Kiraz, 1996].

1.4.1.3 Les particules
« Les particules sont des lemmes invariables, qui indiquent l’articulation de la phrase et ils
servent à préciser les modalités des prépositions verbales et nominales » [Dahdeh, 1996],
[Blachère et al, 1975].
« Les particules sont classées selon leur fonction dans la phrase, on en distingue plusieurs
types (introduction, explication, conséquence). Elles jouent un rôle important dans
l’interprétation de la phrase » [Kadri & Benyamina, 1992)].
La particule est tout ce qui n’est ni un verbe ni un nom et qui n’a de sens que dans une
phrase construite. Exemple : ‫ رب‬،‫ حتى‬،‫ ما‬،‫ كي‬،‫ نعم‬،‫ ال‬،‫ لكن‬،‫ إلى‬،‫ على‬،‫ عن‬،‫في‬.



particules apocopées .‫األحرف الجازمة‬. Exemple : ‫ الم األمر‬،‫ ال الناهية‬،‫ لما‬،‫; لم‬



particules d’accusatif ‫األحرف الناصبة‬. Exemple : ‫ إذا‬،‫ كي‬،‫ لن‬،‫; أن‬



particules de coordination ‫حروف العطف‬. Exemple : ‫ حتَّى‬،‫ بل‬،‫ الفاء‬،‫ ثم‬،‫ أو‬،‫; و‬



particules ressemblant au verbe ‫األحرف المشبهة بالفعل‬. Exemple : ‫ لعل‬،‫ ليت‬،‫ لكن‬،‫ كأن‬،‫ أن‬،‫; إن‬



particules interrogatives ‫أدوات اإلستفهام‬. Exemple : ‫هل‬،‫; أ‬



préposition ‫أحرف الجر‬. Exemple : ،‫ واو القسم‬،‫ منذ‬،‫ مذ‬،‫ حتَّى‬،‫ كاف‬،‫ باء‬،‫ الالم‬،‫ في‬،‫ على‬،‫ عن‬،‫ إلى‬،‫من‬
‫ حاش‬،‫ خال‬،‫ عدا‬، َّ‫ رب‬،‫; تاء القسم‬



particules du futur. Exemple : ‫ سوف‬،‫س‬.

Chapitre : Morphologie de l’arabe

Les particules sont classées en plusieurs catégories :

2
0

1.4.2

Structure d’un mot arabe

Un mot est constitué de formes agglutinées (ex. : conjonction + préposition + article +
nom). La structure du mot arabe est donc décomposable en cinq éléments qui sont des
morphèmes : proclitique, préfixe, base, suffixe et enclitique qui donnent des informations et
des traits grammaticaux.
« Les proclitiques et les enclitiques dans la langue arabe présentent une richesse
incommensurable, puisque nous pouvons générer à travers le mot lui-même par des particules
le singulier, le duel, le sujet, les compléments d'objet directe et indirecte, les conjonctions et
les différents temps de conjugaison... etc. » [Alaa Al-dine Salah Al-Ajmawi].
Ce mot « ‫ » أتعاقبوننا‬exprime la phrase suivante en français : « Est-ce que vous nous
punissez ? ». Il se décompose ainsi :


proclitique ‫ أ‬: conjonction d’interrogation ;



préfixe ‫ ت‬: préfixe verbal du temps de l’inaccompli ;



base, corps schématique dérivé de la racine ‫ عقب‬: schème ‫; ّفعل‬



suffixe ‫ ون‬: suffixe verbal exprimant le pluriel ;



enclitique ‫ نا‬: pronom, suffixe complément du nom.

1.4.3 Les différentes formes de la Hamza ‫ء ئ ؤ أ إ‬
La hamza est l’une des lettres arabes qui amène de nombreuses erreurs d’utilisation. Elle
s’écrit seule ou à l’aide d’une lettre support selon sa position dans le mot (début, milieu, fin)

La hamza de décline en six catégories :


la hamza radicale. C’est une lettre radicale d’un mot comme dans l’exemple suivant :
‫ إن‬،‫ أم‬،‫ أب‬،‫; أخذ‬



la hamza de la première personne. C’est la première lettre dans un verbe inaccompli
comme dans l’exemple suivant : ‫ ألعب‬،‫ أقرأ‬،‫; أكتب‬

Chapitre : Morphologie de l’arabe

et selon sa voyelle et la voyelle précédente.

2
1



la hamza d’interrogation. Elle est utilisée au début de la phrase pour marquer
l’interrogation comme dans l’exemple suivant : ‫; أتشرب القهوة عند الصباح‬



la hamza d’interpellation est utilisée pour appeler quelqu’un de proche physiquement.
Sa position est au début d’un nom propre comme dans l’exemple suivant : ‫أعادل هل‬
‫; شربت الشاي‬



la hamza de liaison est un « alif » sans hamza. Elle se place avant un mot dont la
première lettre est une consonne pour pouvoir la prononcer. Par contre, ce « alif »
disparaît à l’oral et non pas à l’écrit comme dans l’exemple suivant : ‫ابنوا عليهم بنيانا‬8 ;



la hamza de coupure est un « alif » avec hamza. Elle s’écrit et se prononce en toutes
circonstances. Elle est située au début, au milieu, ou à la fin des noms, des verbes et
des particules.

La position de la hamza de liaison est :


avant l’article défini (‫ )ال‬comme pour ‫; الحفل‬



dans le radical de quelques noms comme pour ‫ امرأة‬،‫ اثنان‬،‫ ابنة‬،‫ ابن‬،‫; اسم‬



dans le radical de certaines formes verbales :
o impératifs trilitères comme pour ‫اطلب‬
o accompli, impératif et maṣdar au schème de cinq lettres comme pour ،‫ افتتح‬،‫افتتح‬
‫; افتتاح‬
o accompli, impératif et maṣdar au schème de six lettres comme pour ،‫ استقبل‬،‫استقبل‬
‫; استقبال‬



dans les noms comme pour ‫; إسماعيل‬



dans les particules comme pour ‫إن‬،‫ إذا‬،‫ إذ‬،‫; إ َّن‬



dans les verbes :
o accompli trilitères et quadrilitère qui commencent par une hamza comme pour ،‫أخذ‬
‫أكرم‬, ainsi que l’impératif quadrilitère comme pour ‫ أكرم‬،‫; أتقن‬
o tous les verbes inaccomplis trilitères, quadrilitère, cinquième et sixième comme
pour ‫ أرمي‬،‫ أستقبل‬،‫ألعب‬.

8

Extrait du Coran, Sourate 18 La Caverne (Al-Kahf) Verset 21

Chapitre : Morphologie de l’arabe

La position de la hamza de coupure se trouve :

2
2

Comme nous l’avons indiqué ci-dessus, la transformation de la graphie de la hamza dépend
de sa position dans le mot (initiale, médiane et finale) :


en position initiale, la hamza s’écrit toujours à l’aide d’un « alif-‫ » ا‬support. Exemple :
« lion/‫; » أسد‬



en position médiane, il existe quatre formes différentes dépendant de signes
diacritiques :
o la hamza s’écrit sur la lettre « alif maqṣūra-‫ » ى‬si elle est vocalisée par un « kasraِ » Exemple : « ambitieux/‫; » متفائل‬
o la hamza s’écrit sur la lettre « wāw hamza en chef-‫ » و‬si elle est vocalisée par un
« ḍamma- ُِ » Exemple : « affaires/‫; » شؤون‬
o la hamza s’écrit sur la lettre « alif-‫ » ا‬si elle est vocalisée par un « fatha-ِ ».
Exemple : « Banquet/‫; » مأدبة‬
o la hamza s’écrit isolée « hamza-‫ » ء‬si elle est précédée d’une voyelle longue en
« fatha-ِ ». Exemple : « installations/‫; » إنشاءات‬
en position finale, la hamza s’écrit sur la lettre « yā hamza en chef-‫ » ي‬si elle est
précédée d’un « sukūn-ِ ». Exemple : « chose/‫» شيء‬.

Chapitre : Morphologie de l’arabe



2
3

1.5

L’arabe sur le Web

L’internet fait partie intégrante de la vie quotidienne des populations arabes car il permet
d’accéder librement à de nombreuses sources d’information qui ne sont pas toujours
disponibles dans d’autres médias souvent très contrôlés par le pouvoir politique. Ainsi, par
exemple, le Bahreïn connaît un taux de pénétration de 88%, suivi des Émirats Arabes Unis
avec 76%.
La pénétration de l’usage du Web est forte dans le monde arabe et suivre les nouvelles sur
les réseaux sociaux, écrire des articles pour exprimer son point de vue ou même promouvoir
un produit sur internet est tout aussi commun que dans d’autres régions du monde.
Aujourd’hui, la langue arabe est devenue l’une des langues les plus utilisées sur internet.
Ces dix dernières années, cette forte croissance9 de son utilisation s’explique notamment
grâce à la création de différents outils pratiques. En particulier, le clavier « magique »
Yamli10, qui convertit directement l’arabe translitéré en lettres arabe, permet de faciliter la
recherche d’articles arabophones.
Par ailleurs, il existe de nombreux logiciels traitant la langue arabe et facilitant la recherche
et la consultation des documents électroniques comme par exemple le moteur de recherche
spécifique en langue arabe « ‫بحث‬11/Recherche » qui donne accès à des milliers d’articles de
presse.
Un des facteurs importants de la progression des contenus en arabe est également la
disponibilité de cette langue sur des réseaux sociaux aussi puissants que Twitter et Facebook.
Le printemps arabe a permis d’illustrer la forte utilisation du Web pour informer, revendiquer

et politiques.

9

Selon une étude de webHostingBuzz, l’arabe arrive en tête avec une croissance de son usage de 2 100% entre
2000 et 2010
10
Yamli est une application qui permet de transcrire en caractères arabes les mots arabes tapés phonétiquement
en caractères latins. www.yamli.com/fr/
11
Recherche/‫ بحث‬est un moteur de recherche arabe. www.rdi-eg.com/DemoSearch/Default.aspx

Chapitre : L’arabe sur le Web

ou organiser les manifestations. Il a servi de relais et d’amplificateur des mouvements sociaux

2
4

Mais l’arabe n’est pas une langue unique et nous pouvons observer facilement les
disparités dans l’écriture de cette langue selon le dialecte de chaque pays et même chaque
région.
L’arabe standard (Modern Standard Arabic, MSA) ou classique garde sa place dans la
presse, pour les écrits académiques, scientifiques, religieux ou encore politiques par exemple.
Mais sur des espaces personnels, comme un compte Twitter ou Facebook, ou bien encore des
lieux d’échanges informels, comme un forum ou une page fan Facebook, l’influence de
l’arabe dialectal est forte.
Dans ce type d’écrits, outre les fautes d’orthographe, l’absence des signes diacritiques pose
un problème pour déterminer le sens des mots. Il existe des logiciels qui rajoutent les signes
diacritiques d’une façon automatique comme « 12‫سيبوي‬/Sibawaih ». Bien que ne donnant pas
toujours des résultats totalement satisfaisants, la plupart de ceux-ci sont exploitables par le
grand public.
Pour illustrer d’une autre manière ce point, Google ne prend pas en considération les mots
avec les signes diacritiques. Que l’on écrive ‫ علم وطني‬ou bien ‫علم وطني‬, le moteur de recherche
ne fera pas la différence entre les deux expressions. Par contre, il s’appuie sur la statistique et
sur le nombre de fois qu’un terme ou qu’une expression a été indexé par le moteur de
recherche. Dans notre exemple, il est plus probable de trouver (‫علم وطني‬-le drapeau national)
que (la science nationale-‫)علم وطني‬.
Sur le Web, on trouve une autre forme d’écriture de l’arabe, l’écriture translitérée. Il s’agit
de l’écriture phonétique et symbolique de l’arabe à l’aide des caractères latins et des chiffres.
Ce phénomène a deux principales causes : l’absence des caractères arabes sur le clavier ou
l’arabe translitéré tend malgré tout à diminuer.
La transcription se base sur la forme phonétique du discours, permettant ainsi au lecteur de
lire le texte même s’il ne déchiffre pas l’écriture arabe. Par contre, la translitération permet
paradoxalement de transcrire une prononciation plus précise puisqu’elle décrit la plupart du
temps les signes diacritiques disparus dans l’écriture de l’arabe.
12

Sibawaih / ‫ سيبويه‬http://www.rdi-eg.com/technologies/Diac.aspx

Chapitre : L’arabe sur le Web

bien le fait que l’alphabet arabe ne soit pas supporté par le site ou le service. L’usage de

2
5

La diversité de l’écriture translitérée est grande et varie selon la deuxième langue de la
personne qui influence sa façon d’écrire. Nous allons prendre l’exemple très simple de deux
personnes bilingues dont la langue maternelle est l’arabe mais dont la deuxième langue est
pour l’un le français et pour l’autre l’anglais. Pour un même mot, ces deux personnes vont
écrire deux formes différentes, s’appuyant sur la phonétique de la deuxième langue. Le
francophone va écrire « nahnou masrourin » là où l’anglophone va écrire « nahnoo
masrooreen » (nous sommes heureux/‫)نحن مسرورين‬.
Autre exemple, la lettre j (jota en espagnol) serait la plus utilisée pour translitérer la lettre
arabe « ḫā-‫ » خ‬dans un environnement où l’espagnol est la langue de référence. La même
lettre arabe serait représentée plutôt par le doublon « kh » en utilisant la phonétique français
là où la lettre « j » serait utilisée pour représenter la lettre « ǧīm » en arabe.
La translitération dépend donc directement de la langue de référence ou d’influence de
chaque personne. Le traitement automatique de l’arabe translitéré pose donc un problème au
niveau de la diversité des formes d’écriture.
Pour éviter ce genre de problème, il faut donc évaluer toutes les représentations des lettres.
Car même avec l’utilisation des lettres majuscules, l’alphabet latin n’offre pas assez de signes
pour la translitération de tous les éléments utilisés dans le système alphabétique arabe.
Quelques consonnes arabes ne correspondent à aucun élément phonétique dans l’alphabet
latin comme, par exemple, les lettres «ʿayn-‫» ع‬, « ḥāʾ-‫» ح‬, « ẓāʾ-‫» ظ‬, « ḍād-‫» ض‬, « qāf-‫» ق‬,
« ḫā-‫ » خ‬et « ṭāʾ-‫ » ط‬qui sont translitérées de plusieurs façons, soit par couple de lettres, soit

Chapitre : L’arabe sur le Web

par des numéros, (voir tableau 2, page 66).

2
6

1.6

Conclusion

Cette brève illustration de la morphologie arabe nous a montré sa richesse et sa complexité.
Dans ce chapitre, nous avons vu certaines caractéristiques et certaines particularités de la
langue arabe, notamment au niveau morphosyntaxique.
La langue arabe est une langue flexionnelle possédant un système dérivationnel très riche.
Les problèmes d’ambigüité liés au système d’écriture non-voyellé entraîne une ambigüité à
différencier les unités lexicales ayant la même représentation. Les difficultés de segmentation
lexicale liées à l’agglutination, et même le sens d’écriture de droite à gauche, sont des
caractéristiques qui rendent difficile son traitement, en particulier sur le plan de l’écrit.
Nous avons également présenté les trois catégories du mot arabe (verbe, nom et particule)
et nous avons décrit sa structure combinant (proclitique, suffixe, corps schématique, préfixe et
enclitique).
Enfin, nous avons illustré les différentes graphies de la hamza et évoqué la présence
actuelle de l’arabe sur le Web.
Dans le chapitre suivant, nous allons détailler les différents problèmes du traitement

Chapitre : L’arabe sur le Web

automatique de la langue arabe.

2
7

Chapitre 2 : Traitement automatique de l’arabe
2.1

Introduction

L’arabe littéral langue sacrée du Coran, utilisé dans la littérature classique, l’enseignement
ou encore la presse, connaît une grande stabilité dans sa forme et son usage.
Le traitement automatique de la langue arabe a été abordé dans un premier temps par
l’arabe standard (MSA). En effet, ces travaux se basaient sur des corpus littéraires, des
journaux, des textes académiques et scientifiques ou des documents officiels.
Les formes dialectales de la langue arabe utilisées au Maghreb et au Machreq (MoyenOrient) ont été longtemps négligées. Mais l’intérêt est grand pour un système qui prenne en
compte les variations graphiques et morphosyntaxiques de ces formes de la langue.
David Cohen, l’un des premiers théoriciens dans ce domaine, a proposé dès 1961 un essai
d’analyse automatique de la langue arabe s’appuyant sur l’analyse morphologique, basé sur
les deux principales formes linguistiques arabes qui se traduisent en schème et racine.
Ces recherches ont permis la mise au point d’un analyseur automatique, d’un correcteur
graphique et d’un outil de conjugaison. Le traitement automatique de l’arabe est donc non
seulement théoriquement possible, mais il existe d’ores et déjà et il est en cours de
perfectionnement, notamment en ce qui concerne le domaine de la traduction automatique.
Dans la section suivante, nous présenterons la difficulté du traitement automatique de

Chapitre : Introduction

l’arabe ainsi que les fautes d’orthographe communes.

2
8

2.2

Difficulté du traitement automatique de l’arabe

Les deux principaux problèmes dans le traitement automatique de la langue arabe
consistent dans l’agglutination des mots et l’absence des signes diacritiques à l’écrit. Comme
nous l’avons précédemment indiqué, la plupart des mots arabes sont composés par
agglutination d’éléments lexicaux de base (proclitique + schème + enclitique).
Un autre problème spécifique à la langue arabe est l’absence de la notion de majuscule et
de minuscule L’écriture est donc monocamérale.
Par ailleurs, l’arabe dialectal est considéré comme une problématique dans le traitement
automatique de cette langue du fait de la richesse de ses variétés tant à l’oral qu’à l’écrit. A
cela, il faut ajouter l’arabe intermédiaire qui se situe entre le dialecte et l’arabe classique. Au
Moyen-Orient, l’arabe se divise en différents dialectes, notamment ceux des pays du Golf et
ceux de pays comme la Syrie, le Liban, la Jordanie ou la Palestine qui ont plus ou moins des
dialectes semblables. Dans les pays du Maghreb, on peut voir également une grande diversité
de dialectes.

2.2.1

Problèmes de formes

2.2.1.1 L’absence de voyelle ou de signes diacritiques
En règle générale, seuls le Coran et les textes à vocation didactique sont vocalisés. Les
voyelles courtes, le redoublement et l’allongement, portés par les signes diacritiques,
n’apparaissent pas dans les textes courants. Cette caractéristique entraîne un fort degré
d’ambiguïté car ces formes non vocalisées se trouvent aujourd’hui très fréquemment.
Généralement, cette ambiguïté peut être levée par l’association de la forme avec le sens et

Par exemple, l’effet du mot non voyellé comme ‫ شعر‬génère une ambiguïté entre
‫شعر‬/poésie, ‫شعر‬/cheveux et ‫شعر‬/sentir. Cette ambiguïté pourrait, dans certains cas, être levée
soit par une analyse syntaxique et sémantique profonde de la phrase, soit par une analyse
statistique comme dans le cas dans les moteurs de recherche.

Chapitre : Introduction

le contexte, etc. L’absence des voyelles génère donc une ambiguïté au niveau sémantique.

2
9

Prenons également l’exemple du verbe trilitère KTB/‫كتب‬. Les quatre formes fléchies cidessous, ayant chacune un sens différent, sont assimilées en une seule forme sans signes
diacritiques.
Des livres

Il a été écrit

Il a fait écrire

Il a écrit

‫كتب‬

‫كتب‬

‫كتَّب‬

‫كتب‬

En conclusion, seul le contexte ou l’existence des signes diacritiques peuvent nous donner
le sens exact de ce mot.

2.2.1.2 L’absence de majuscule dans les entités nommées
L’absence des lettres majuscules en arabe génère également une forte ambigüité, en
particulier pour les prénoms qui portent aussi un sens d’adjectif. Il en est ainsi pour le
prénom ‫ سعيد‬qui peut signifier heureux ou pour le prénom ‫ جبر‬qui signifie également algèbre.

2.2.1.3 Le caractère spécial « Kachidé » ou « Tatouïl »
Le mot persan « Kachidé », « Tatouïl/‫ » ـ‬étant le terme arabe, est un trait ‘‫ ’ـ‬qui désigne
l’interlettrage utilisé pour prolonger les liaisons entre certains caractères. Il est souvent rajouté
pour des raisons purement esthétiques comme dans les poésies ou pour l’ajustement des
paragraphes par le biais d’une augmentation des espaces entre les caractères en vue d’une
meilleure lisibilité.
Il n’a aucune fonction grammaticale ou phonétique Par contre, il aboutit à une
problématique au niveau du traitement automatique de la langue. La présence de ce caractère
dans le mot introduit des formes différentes de celui-ci comme dans l’exemple suivant :
de la « Kachidé » ou le nombre d’insertion de ce caractère qui donne ces différentes formes.
Prenons un autre exemple, le mot ‫( تتذكرون‬tatathakaroun/vous vous rappelez). La séquence
est plus lisible quand elle est notée ainsi ‫( تــتــذكـــــرون‬ta_ta_tha ka_roun).

Chapitre : Introduction

« ‫» جمـــيل جــــميل جميـــــل‬. C’est le même mot (« beau ») mais c’est seulement l’emplacement

3
0

En conséquence, la position de la « Kachidé » dans le mot est très aléatoire, du moins selon
les textes actuels. Ce caractère ne figure pas dans l’alphabet arabe et il n’est pas pris en
compte dans la construction des mots dans le dictionnaire.

2.2.2 Problème de la diversité de l’arabe
2.2.2.1 L’arabe MSA face à l'arabe dialectal
En arabe dialectal, les interdentales « ḍād-‫» ض‬, « ẓāʾ-‫ » ذ‬et « ḏāl-‫ » ظ‬ne sont pas
prononcées partout de la même manière. Dans certaines régions, elles sont prononcées comme
dentales en particulier au Maroc ; dans d’autres régions, elles sont prononcées comme
sifflantes en particulier en Egypte.
« L’arabe, même littéral, a perdu le son « ḍād » qui avait le privilège de lui donner son
nom (langue du ḍād), prononcé tantôt d (comme en Egypte), tantôt ð (comme en Tunisie) et
quelquefois l (dans certaines régions d’Arabie) » [Baccouche Taïeb, 2009].
Les sons « ṯāʾ-‫ » ث‬et « sīn-‫ » س‬se prononcent comme un « s » indifféremment. De même,
la lettre « q-‫ » ق‬est souvent remplacée par la « hamza-‫ » ء‬à l’oral et parfois à l’écrit.
« L’arabe étant une langue flexionnelle, les désinences suffixées, qui indiquent la fonction
du mot dans la phrase, sont maintenues en arabes littéral mais ont totalement disparu du
dialectal » [Baccouche Taïeb, 2009].
Nous pouvons remarquer ainsi la disparition de quelques traits grammaticaux comme le
duel qui a pratiquement disparu de l’arabe dialectal à l’oral ainsi qu’à l’écrit. En revanche, le
duel est une source d’erreurs fréquentes notamment sur le plan flexionnel.
D’une manière générale, l’arabe dialectal domine largement dans les écrits du quotidien et

leur publication reste rare.
La plupart des régions du Moyen-Orient utilise souvent un niveau d’arabe intermédiaire
entre le standard et le dialectal dans des situations officielles y compris à l’université.

Chapitre : Introduction

parfois dans certains écrits tels que des poèmes populaires ou des pièces de théâtre, etc., mais

3
1

Cependant, dans les pays du Maghreb, la situation est beaucoup plus complexe. On
observe une utilisation de l’arabe littéral et un mélange de l’arabe dialectal avec du français.
L’arabe dialectal ne se présente donc pas de la même manière d’un pays arabe à l’autre.

2.2.3 Orthographe
2.2.3.1 Fautes d’orthographe communes
2.2.3.1.1

La confusion de graphie de la « hamza »

Lors de nos tests d’évaluation sur plusieurs sources en arabe standard, nous avons constaté
que, dans la majorité des textes, il y a une forte confusion entre le « hamza wasliyya » ‘‫ ’ا‬et la
« hamza qatiyya » ‘‫’أ‬, notamment quand elles occupent la première consonne de la forme de
base.
En effet, la hamza qatiyya initiale est souvent remplacée par la hamza wasliyya. Cette
situation ne relève d’aucune règle en arabe et ne repose sur aucune tradition. Cela provient
peut-être du fait que la hamza wasliyya identique au « alif » est plus facile à saisir sur le
clavier que la hamza qatiyya. Ceci est une erreur ou une faute d’orthographe. Pour tout
système de traitement automatique, ce sont deux formes différentes et elles ne sont pas
reconnues comme un mot arabe existant dans le lexique, (voir tableau 6, page 67).
Ce problème se pose pour d’autres formes de la « hamza » Nous trouverons des confusions
notamment entre le « wāw hamza en chef-‫ » ؤ‬en position médiane et le « alif maqṣūra avec
une hamza (‫ )نبرة‬-‫ » ئ‬comme l’illustre le tableau suivant:
Faute d’orthographe

Correction

Forme correcte

‫تفاءل‬

‫تفاؤل‬

‫ؤ‬

‫متفاءل‬

‫متفائل‬

‫ـئـ‬
alif maqṣūra avec un
hamza

Tableau 7 : La confusion de la graphie du « wāw hamza en chef-‫» ؤ‬

Chapitre : Introduction

wāw hamza en chef

‫تفائل‬

3
2

2.2.3.1.2

La confusion du « alif maqṣūra-‫ » ى‬et « yāʾ-‫» ي‬

Une autre confusion similaire à la précédente concerne la confusion du « alif maqṣūra-‫» ى‬
et du « yāʾ-‫ » ي‬lorsqu’ils figurent à la fin d’un mot. En effet, la présence de la lettre ‫ ي‬comme
lettre terminale garantit la bonne orthographe sauf dans les éditions égyptiennes où nous
pouvons voir cette confusion. Les Egyptiens remplacent souvent le « alif maqṣūra-‫ » ى‬final
par « yāʾ-‫» ي‬, (voir tableau 8, page 67), comme dans les exemples suivants :
Faute orthographique entre ‫ ي‬et ‫ى‬

Correction

‫علي الطاولة‬

‫على الطاولة‬

‫المنتدي‬

‫المنتدى‬

Tableau 9 : La confusion du « alif maqṣūra-‫ » ى‬et « yāʾ-‫» ي‬
Cette faute d’orthographe génère beaucoup d’ambigüités au niveau du temps des verbes,
des noms, des adjectifs et des prépositions. Par exemple, pour le verbe ‫ قضى‬au temps passé, le
« alif maqṣūra » est substitué par le « yāʾ ». Nous aurons donc le verbe ‫ قضي‬à la voix passive
et l’absence habituelle des signes diacritiques amène une confusion commune.

2.2.3.1.3

Restitution de la lettre « tāʾ marbūta-‫ » ة‬finale

Le « tāʾ marbūta » est écrite comme une « ḥāʾ » surmontée cependant par deux points
diacritiques. Cette « tāʾ » n’est pas prononcée en arabe moderne sauf lorsqu’elle est suivie
d’un mot commençant par une voyelle.
En arabe classique, elle n’était pas prononcée en pause, c'est-à-dire à la fin d’une phrase, et
devient simplement la voyelle courte « a ». Elle sert à la forme féminine : ‫ طالب‬/étudiant,

Cette confusion concerne la substitution de la lettre « tāʾ marbūta-‫ » ة‬avec la lettre « ḥāʾ-

‫ » ه‬lorsque celle-ci figure à la fin du mot. Au niveau phonétique, ces deux lettres ont plus ou
moins la même prononciation, c’est la raison pour laquelle les gens les confondent. La faute
d’orthographe la plus fréquente est le remplacement du « tāʾ marbūta-‫ » ة‬par le « ḥāʾ-‫» ه‬,
(voir tableau 10, page 69).

Chapitre : Introduction

‫طالبة‬/étudiante.

3
3

En effet, la présence de la lettre « tāʾ marbūta-‫ » ة‬comme lettre terminale garantit la bonne
orthographe tandis que la présence de la lettre « ḥāʾ-‫ » ه‬introduit une erreur d’orthographe
potentielle sur le mot. En voici quelques exemples :
Faute d’orthographe

Correction

Forme correcte

‫الزم نسوي صفحه في الفيسبوك‬

‫الزم نسوي صفحة في الفيسبوك‬

‫ ة‬tāʾ marbūta

‫السالم عليكم ورحمة هللا وبركاته‬

‫ ه‬ḥāʾ

‫السالم عليكم ورحمة هللا وبركاتة‬

Tableau 11 : La restitution de la lettre « tāʾ marbūta-‫ » ة‬finale

2.2.3.2 Fautes d’orthographe générées par l’influence de l’arabe dialectal
La confusion du « ḍād-‫ » ض‬et « ẓāʾ- ‫» ظ‬

2.2.3.2.1

Dans un bon nombre de pays arabes, surtout dans les pays de la péninsule arabique, en
Irak, pour de nombreux habitants de Jordanie, de Palestine et au Maghreb, la lettre « ḍād » se
prononcent indifféremment de la lettre « ẓāʾ ». La distinction n’est alors pas faite par exemple
entre « ombre ‫ » ظل‬et « perdu ‫» ضل‬.Voici deux exemples montrant la confusion entre ces
deux lettres :
Faute d’orthographe

Correction

Forme correcte

‫أخي الفاظل‬

‫أخي الفاضل‬

‫ ض‬ḍād

‫يحصل على وضيفة‬

‫يحصل على وظيفة‬

‫ ظ‬ẓāʾ

Tableau 12 : La confusion du « ḍād-‫ » ض‬et « ẓāʾ- ‫» ظ‬

2.2.3.2.2

La confusion des lettres parodontales

2.2.3.2.2.1 La confusion entre « sīn-‫» س‬, « ṯāʾ-‫ » ث‬et « tāʾ-‫» ت‬

locuteurs de la région du Levant, d’Egypte et du Soudan. La confusion entre le ṯāʾet le sīn et
même le tāʾ est illustrée dans le tableau suivant :
Faute d’orthographe

Correction

Forme correcte

‫مشكور معالي الوزير وكتر هللا من امتالك‬

‫مشكور معالي الوزير وكثر هللا من‬

‫ ث‬ṯāʾ

Chapitre : Introduction

La confusion entre le « sīn-‫» س‬, « ṯāʾ-‫ » ث‬et « tāʾ-‫ » ت‬se trouve chez un grand nombre de

3
4

‫مشكور معالي الوزير وكتر هللا من امسالك‬

‫امثالك‬

Tableau 13 : La confusion entre « sīn-‫» س‬, « ṯāʾ-‫ » ث‬et « tāʾ-‫» ت‬

2.2.3.2.2.2 La confusion entre « zāy-‫ » ز‬et « ḏāl-‫» ذ‬
La confusion entre le « zāy-‫ » ز‬et « ḏāl-‫ » ذ‬concerne certains pays comme l’Egypte, la
Syrie ou le Liban. La substitution de ces lettres se fait toujours d’une lettre emphatique vers
une lettre proche et « fine » à l’oral et qui influence ainsi l’écrit.
Le cas le plus fréquent est le remplacement de la lettre emphatique « ẓāʾ » ou « ḏāl » par la
lettre fine « zāy » comme dans l’exemple suivant : ‫زئب‬/‫ذئب‬.
Les lettres emphatiques « ṣād, ḍād, ṭāʾ et ẓāʾ » forment un groupe de sons emphatiques et
se prononcent comme « sīn, dāl, tāʾ, ḏāl et zāy » mais avec emphase.

2.2.3.2.2.3 La confusion du « qāf-‫ » ق‬et « hamza-‫» ء‬
La prononciation de la lettre « qāf » varie beaucoup d’un pays à l’autre et même d’une
ville à l’autre dans un même pays. Au final, cette lettre possède quatre prononciations
différentes y compris sa propre prononciation qui est comme la lettre « kāf » mais
emphatique.
Sa prononciation la plus connue se fait comme la lettre hamza. C’est une sorte de « coup
de glotte » produit par sa fermeture brutale en fin d’émission d’un phonème. Elle se prononce
ainsi en Egypte, en Syrie et au Liban.
Une seconde prononciation, que l’on trouve en Palestine, se fait comme la lettre « kāf »,

Une autre prononciation se fait comme le « j Egyptien » ou bien comme la lettre « g » en
anglais « good ».Cela concerne pas mal de pays, comme la Tunisie ou l’Algérie, et certaines
régions, parfois limitées, comme celles où vivent les Bédouins.
La dernière prononciation est la prononciation « normale » et classique de cette lettre qui
est le « qāf » emphatique comme dans le mot « Coran ».

Chapitre : Introduction

fine.

3
5

2.3

Conclusion

Le traitement automatique de l’arabe doit pouvoir traiter des textes vocalisés comme des
textes non vocalisés, l’arabe standard MSA et l’arabe dialectal. Il doit également prendre en
considération toutes les fautes d’orthographe communes et dialectales y compris la confusion
des différentes graphies de la hamza.
L’existence des signes diacritiques sur les lettres facilite la compréhension du sens du mot.
Leur absence est l’un des grands problèmes car elle génère une forte ambigüité au niveau
lexical, morphologique, syntaxique et sémantique.
Les différentes études réalisées sur l’analyse morphosyntaxique en arabe montrent que
c’est une langue difficile à traiter à cause de l’écriture monocamérale, de l’agglutination et des
ambiguïtés graphiques.
Dans ce chapitre, nous avons présenté les différents problèmes de formes et la question de
la diversité de la langue arabe. Dans les deux chapitres suivants, nous allons voir comment
résoudre ces différents problèmes lors du calibrage d’un outil de modération automatique sur

Chapitre : Conclusion

un corpus arabe.

3
6

Chapitre 3 : La modération
3.1

Objet de la modération

Au démarrage d’internet, les sites étaient statiques et permettaient de délivrer une
information quelle que soit sa nature. Les utilisateurs ne pouvaient interagir avec celle-ci.
Avec le web 2.0, l’internet, mais aussi les services mobiles, permettent à chacun de
s’exprimer très facilement dans des espaces très divers : chats, forums, blogs, commentaires,
annonces, profils, etc. Ces contenus peuvent être des textes, des images, des vidéos, des sons.
Bref, les UGC, User Generated Content, sont partout et sont devenus incontournables pour
toutes les activités, des sites d’information aux sites d’e-commerce en passant par les réseaux
sociaux.
Mais lorsqu’un site ouvre des espaces pour laisser ses utilisateurs s’exprimer, il est tout de
suite confronté à un défi : s’assurer que les contenus ne posent pas de problèmes en termes
légaux ou d’image pour l’éditeur. La modération a pour but de contrôler que les contenus
publiés respectent la charte éditoriale du site, apparaissent dans la bonne rubrique ou sont
correctement formulés.

3.2

Les thèmes de la modération

L’éditeur d’un espace où les utilisateurs peuvent discuter, échanger, déposer des contenus
doit indiquer à ses utilisateurs quelles sont les règles qui s’appliquent. Mais l’équipe de
modération doit aussi connaître la ligne éditoriale pour pouvoir juger d’un contenu, l’accepter,
donc disposer d’une charte éditoriale claire.
On peut distinguer trois grands thèmes : le respect de la loi, la convivialité et le
détournement de trafic.

Chapitre : Chapitre 3 : La modération

le refuser ou éventuellement le corriger (fautes d’orthographe ou de syntaxe). Le site doit

3
7

3.2.1

Le respect de la loi

La loi doit être respectée sur ces espaces publics tout comme elle doit l’être dans la presse
ou dans la vie quotidienne. Ainsi, la première obligation d’un éditeur est de veiller qu’aucun
contenu contraire à la loi ne soit publié. On peut citer les propos racistes, négationnistes, la
provocation aux crimes et aux délits. Ce peut être également la protection des mineurs ou
l’interdiction d’accès à des sites qu’ils ne peuvent fréquenter, les sites de paris et de jeux
d’argent par exemple. Mais bien d’autres sujets peuvent devoir être contrôlés : la promotion
des drogues, de l’anorexie, de l’euthanasie.

3.2.2

La convivialité

Mais au-delà de cette contrainte légale, l’éditeur va essayer de rendre ses espaces
d’échange conviviaux et adapté au public qu’il souhaite toucher. Les propos vulgaires ou
agressifs envers les autres peuvent nuire par exemple à la sérénité d’un chat. Certains sujets
comme la sexualité peuvent n’avoir aucun intérêt dans un forum traitant d’automobile. On
peut aussi citer la lutte contre les arnaques diverses (« scam13 » en anglais).

3.2.3

Le détournement de trafic

Enfin, de même que les boîtes e-mail peuvent recevoir de nombreux courriers non
sollicités ou « spam », tout site accueillant du trafic ou des utilisateurs dépensant de l’argent,
va connaître des attaques visant à détourner son trafic. Le but est d’amener ce trafic vers un
autre service. Or l’éditeur dépense de l’argent pour attirer, accueillir et fidéliser ses
des commentaires déposés sur une page Facebook d’une marque peuvent être du
détournement de trafic.

3.3

La modération, état de l’art

La modération consiste donc à contrôler pour approuver, refuser voire de modifier le
contenu d'un message pour s'assurer qu’il ne contient aucun élément indésirable. Le but est à

13

Scam est un terme argotique anglais désignant une « arnaque », c’est-à-dire une escroquerie matérielle ou
morale. Source : http://fr.wikipedia.org/wiki/Scam

Chapitre : Chapitre 3 : La modération

utilisateurs. Il y a donc un enjeu fort pour contrer ces pratiques. Par exemple, entre 15 et 25 %

3
8

la fois de garantir la qualité des espaces pour les utilisateurs et de protéger la réputation et
l’image d'une entreprise.
Il ne faut pas confondre la modération et la censure, même si les pratiques peuvent se
ressembler parfois, leurs finalités ne sont pas les mêmes. Il ne s’agit pas ici des pratiques d’un
état ou d’une administration mais bien de la responsabilité d’une entreprise vis-à-vis d’une
publication dont elle est légalement responsable.
Il existe deux moyens de modération : la plus commune est la modération humaine ; la
seconde est l’utilisation de mots clés pour alerter ou refuser automatiquement un message.

3.3.1

Modération humaine

La modération entraîne des contraintes de disponibilité et de réactivité mais aussi parfois
de capacité de traitement de très forts volumes de messages lorsque le site est très fréquenté.
Lors d’une émission de télévision à grande écoute, sa page Facebook peut recevoir plusieurs
milliers de commentaires en une heure.
La modération humaine peut se faire soit a priori soit a posteriori ;


la modération a priori consiste à valider tous les contenus créés par les internautes
avant leur publication, en maintenant un contrôle éditorial total et strict sur les
commentaires. Autrement dit, les contributions sont systématiquement revues
avant leur publication. Ce système permet de s’assurer que rien n’est publié sans
avoir été au préalable lu et validé par un modérateur qui doit parcourir
site, la modération a priori nécessite donc une présence quasi permanente d’un
modérateur.



la modération a posteriori consiste à accepter toutes les contributions et les publier
librement et immédiatement et à les revoir par la suite afin de favoriser la
réactivité des débats. Ce système pose le problème de la publication, sur une
période parfois longe, de messages hors ligne éditoriale.

Chapitre : Chapitre 3 : La modération

régulièrement la totalité des contenus. Pour garder la réactivité et l’interactivité du

3
9

La modération humaine peut également se faire en direct ou en différé. Dans certains cas,
le chat par exemple, seule une modération en temps réel a du sens.
La modération se fait également souvent sur signalement des internautes qui s’adressent au
site pour se plaindre d’un contenu hors ligne éditoriale ou d’un comportement non convivial.
Lorsque le modérateur approuve un message, cela ne signifie pas que le modérateur est
d’accord avec son contenu, avec l’opinion de la personne qui s’exprime, ou toute autre
considération subjective. Il n’impose pas son opinion personnelle, cela signifie simplement
que le message est conforme à la ligne éditoriale établie.
Le modérateur doit posséder une bonne capacité d’analyse ainsi qu’une bonne
connaissance de langue des contenus modérés pour pouvoir connaitre les différents sens du
mot d’un pays à l’autre. Parfois, le même mot possède deux sens extrêmement différents, l’un
d’injure et l’autre commun. Donc, la mission du modérateur est de bien connaître les
différences de cultures d’un pays à l’autre.

3.3.2

Modération automatique : mots clés

Avec la modération automatisée, il suffit d’entrer une liste de mots qui seront
automatiquement rejetés par l’application. Les principales limitations sont :


d’établir une liste la plus exhaustive possible des mots à exclure et ce éventuellement



la simplicité de la méthode qui ne tient pas compte des différents sens d’un mot.



le très grand nombre de variations et d’altérations qu’un mot peut connaître. Car, face
à un système automatique, les utilisateurs vont tenter très rapidement de le contourner
avec de telles méthodes. Exemple : le mot viagra peut s’écrire vi@gra, v1agra,
v1@gra ou bien encore v.l @ ;9ra.

Chapitre : Chapitre 3 : La modération

dans plusieurs langues ;

4
0

3.3.3

Modération automatique : un moteur d’analyse lexicale

J’ai utilisé le moteur d’analyse lexicale de Scan & Target qui s’est donné dès sa création
plusieurs contraintes :


être capable de traiter en temps réel et en permanence (24/7) l’ensemble des messages
à analyser pour pouvoir les accepter ou les refuser sans délai perceptible pour
l’utilisateur ;



être capable de traiter de très fortes volumétries pour tenir compte d’applications
comme le « chat » qui peuvent générer des millions de messages par jour sur certains
services ;



traiter, en fonction de la langue, le plus grand nombre de variantes et d’altérations
possibles, y compris le verlan, sans avoir à toutes les lister ;



proposer des lexiques thématiques riches et précis y compris dans des niveaux de
langue (argotique, vulgaire) en général ignorés par les outils TAL classiques.

Voici les principales altérations gérées :


minuscules/majuscules, indifférence à la casse contrairement à la plupart des systèmes
de mots clés ;



répétition des lettres (vvviiiagrrra…) ;



altérations de la forme (vi@gra, vlagra, v1@gra, v149r4) ;



insertion de caractères non alphanumériques entre les lettres (v.i.a.g.r.a, v_i°ag#r:a, v-



écriture phonétique (kado, arnak…) ;



style SMS ou messenger (slt, 2m1…) ;



dans certains cas, l’ajout, le retrait ou l’inversion de lettres ;



et la combinaison de toutes ces variations.

Ce moteur doit donc allier la plus grande automatisation possible avec la meilleure précision
possible. Elle permet de s’affranchir des contraintes du traitement humain (disponibilité,
réactivité, subjectivité). Cependant, il permet de faire intervenir un modérateur dans les cas
vraiment utiles, par exemple sur un sujet problématique (exemple : diffamation) ou dans les

Chapitre : Chapitre 3 : La modération

iagra, viagr"a...) ;

4
1

cas d’ambiguïté lexicale forte. C’est pourquoi il existe trois statuts : approbation, alerte vers
un modérateur ou refus.
Ce moteur s’appuie sur une technologie propriétaire séparant totalement la technique des
ressources linguistiques. Pour cette dernière partie, il est donc seulement nécessaire pour y
travailler d’avoir des compétences linguistiques et non pas de développement informatique. Il
s’agit de travailler en premier lieu sur l’établissement de bases lexicales pertinentes,
spécifiques et aux caractéristiques très détaillées.

3.4

Conclusion

Il s’agit donc d’évaluer dans la langue arabe, avec ses spécificités, si ce moteur d’analyse
permet de répliquer, voire d’améliorer, les approches classiques de modération, humaine et
par mots clés. Le but est d’évaluer, par rapport un corpus de référence annoté humainement,
selon une charte de modération précise, les résultats de l’analyse automatique produite par le
moteur.
Nous attacherons donc une attention particulière aux taux d’automatisation et à la précision
de l’analyse.
Dans le chapitre suivant, nous présenterons notre corpus de travail, l’évaluation de

Chapitre : Chapitre 3 : La modération

l’analyse manuelle et automatique ainsi que les difficultés affrontés lors de ce dernier.

4
2

Chapitre 4 : L’évaluation
4.1

Contexte de l’évaluation

Le développement d’un système dans le domaine du traitement automatique des langues
nécessite beaucoup d’efforts et de recherches pour le rendre capable de simuler le traitement
humain de textes.
Tout système possède une capacité plus ou moins limitée de fonctionnement sans
interruption ou problèmes. Il est toujours développé au fil du temps pour le perfectionner et le
rendre plus fiable. Un système capable d’interpréter, à un pourcentage élevé, le sens général et
le libellé d’un discours selon le contexte est un système développé pour s’approcher le plus de
la logique humaine.
Les progrès de la science et de la technologie, ainsi que l’intérêt accru pour le traitement
automatique des langues, ont mené au développement du traitement automatique de la langue
arabe. Aujourd’hui, nous arrivons à atteindre des résultats satisfaisants en comparaison du
traitement humain.
Notre évaluation du système de modération automatique consiste à comparer la sortie du
corpus de test avec le corpus de référence qui contient les même données modérées
humainement. Le but est de dégager des pistes pour son amélioration.
Dans les sections suivantes, nous présenterons notre corpus de travail, les difficultés que

résultats obtenus lors de notre évaluation.

4.2

Corpus de test et de référence

Le choix de notre corpus de travail s’est porté sur une page Facebook administrée par un
présentateur arabe très connu de la chaîne « Al Jazzera ».
Notre corpus de travail contient des dizaines de messages écrits par l’administrateur de la
page de Facebook et qui peuvent aussi contenir des vidéos et des images. Ces messages sont

Chapitre : Chapitre 3 : La modération

nous avons rencontrées dans le traitement automatique de l’arabe ainsi que les différents

4
3

commentés par les fans de la page qui sont plus de 85 000. Ce sont donc des milliers de
commentaires qui sont ainsi postés sur cette page chaque mois. Il est possible d’avoir des
messages en d’autres langues que l’arabe sur cette page parce qu’elle soit ouverte à tout le
monde. Mais c’est cette langue qui prédomine
Notre corpus de test, ainsi que le corpus de référence, comporte 4 133 messages et
commentaires qui ont été analysés d’une façon manuelle et automatique. Le but est de
comparer les deux résultats et d’améliorer notre système de modération automatique. Par
ailleurs, le corpus est constitué de sujets concernant la politique, en particulier la révolution
syrienne.

4.3

Traitement de l’arabe dans notre système
4.3.1

Traitement des signes diacritiques

Nous avons constaté que la majorité des commentaires, de même que les messages de
l’administrateur, ne contiennent pas de signes diacritiques. Cela crée une forte ambiguïté sur
certains termes. C’est le cas par exemple entre le mot vulgaire « ‫» أخرى‬, « plus merdique » et
le pronom « ‫ « » أخرى‬autre » du fait de l’absence du signe diacritique « al ḍamma-ّ » sur la
première lettre donnant la sonorité d’un « u » en français (voir figure 1, page 74).
Pour éviter ce genre de faux positif, nous avons deux possibilités :


soit la suppression du signe diacritique et celle de la première lettre, le « alif »,
dans l’expression régulière traitant ce mot pour réduire les faux positifs ;
soit la suppression du mot lui-même « ‫أخرى‬/autre » de la base lexicale puisqu’il
est fréquent en la langue arabe. L’analyse ne détectera donc pas le mot.

Au cours de notre travail, il s’est avéré que les signes diacritiques peuvent poser un autre
problème de faux positif. Un seul mot peut avoir deux sens différents comme le nom « ‫جرب‬/la
gale » et le verbe accompli « ‫جرَّب‬/ il a essayé ». De même, c’est le cas des homonymes
« ‫مأجور‬/mercenaire » qui change de sens selon le contexte, posant un problème sémantique,
(voir figure 2 et figure 3, page 74 et 75). Ce genre de faux positif nécessitent une analyse
sémantique et syntaxique très profonde.

Chapitre : Chapitre 3 : La modération



4
4

4.3.2

Traitement du préfixe et du suffixe

4.3.2.1 Les pronoms et les particules
Comme nous l’avons vu dans le premier chapitre, la graphie du mot arabe se décompose en
cinq éléments : proclitique, préfixe, base, suffixe, enclitique.
En arabe, les pronoms et certaines particules sont agglutinés (voir tableau 14, page 68).
Cela crée une problématique au niveau du traitement de cette langue. Par exemple, la forme
du futur se compose en rajoutant la lettre « ‫س‬/s » au début du verbe inaccompli.
Pour la traiter, nous avons prédéfini une grammaire morphologique qui permet dd détecter
tous les pronoms et toutes les particules afin de capturer les différentes formes du mot (voir
tableau 15, page 68).
Pour plus d’exemples concrets illustrant la bonne détection de ce type mot, (voir figure 4,
page 75).

4.3.2.2 Les préfixes et les suffixes du verbe inaccompli
Après une étude globale sur la conjugaison du verbe inaccompli en arabe, nous avons
constaté que les enclitiques sont toujours les mêmes dans les verbes sains et les verbes
défectueux sauf si le verbe contient deux lettres défectueuses dont la première lettre est un
« alif hamza en chef-‫» أ‬. Dans ce cas, nous devons remplacer le « alif hamza en chef-‫ » أ‬par

Nous avons regroupé tous les suffixes dans le mot « ‫أنتي‬/anti » en rajoutant ainsi le « alif
maḍaa-‫» آ‬. Et pour éviter la confusion de la graphie de la hamza, nous avons rajouté les
différentes formes du « alif hamza » comme le suivant : [‫]أآإانتي‬. A propos des proclitiques, il
existe quatre terminaisons standard pour les verbes inaccompli sains : [‫ ن‬،‫ يان‬،‫ ون‬،‫ ان‬،‫]ين‬.Pour
les verbes défectueux, il faut rajouter à ces terminaisons les deux lettres suivantes : [‫ى‬،‫]ي‬
(voir tableau 16, page 69).

Chapitre : Chapitre 3 : La modération

un « alif maḍaa-‫» آ‬, comme dans l’exemple suivant : ‫آوي أوى‬.

4
5

En conclusion, nous avons ajouté à notre grammaire les préfixes [‫ ]أآإانتي‬et les suffixes [ ،‫ين‬
‫ ن‬،‫ ى‬،‫ ي‬،‫ يان‬،‫ ون‬،‫( ]ان‬voir tableau 15, page 68) afin de générer le verbe inaccompli en arabe,
(voir figure 5, page 76).

4.3.2.3 Les suffixes du verbe accompli
Le verbe accompli en arabe ne contient pas de préfixe, le temps passé se composant en
rajoutant des suffixes à la fin du verbe et en gardant sa forme de base. Voici un exemple : ‫لعب‬
devient au passé ‫لعبت‬, (voir tableau 16, page 69). Donc, pour générer la conjugaison du verbe
accompli sain en arabe, il suffit de rajouter à notre grammaire morphologique les terminaisons
suivantes : [‫ ن‬،‫ وا‬،‫ تا‬،‫ ا‬،‫ تن‬،‫ تم‬،‫ تما‬،‫ نا‬،‫]ت‬, (voir tableau 15, page 68).
Il existe des cas irréguliers avec les verbes défectueux qui se terminent par « alif maqṣūra-

‫» ى‬. Dans ce cas, il faut remplacer ce dernier par « yāʾ-‫ » ي‬sauf avec le pronom « il/‫ » هو‬qui
garde la forme de base et sauf avec le pronom « ils/‫ » هم‬qui fait chuter la lettre « alif maqṣūra-

‫» ى‬.

4.3.2.4 Le pluriel externe
Comme nous l’avons évoqué précédemment dans le premier chapitre, nous avons deux
types de pluriels, le pluriel externe, « sain » et le pluriel interne, « brisé ».
Le pluriel externe masculin est obtenu par la suffixation au cas sujet d’un élément « wāw et
nūn/‫ » ون‬et d’un élément « yāʾ et nūn- ‫ » ين‬au cas complément (direct et indirect) (voir figure

Le pluriel externe féminin est obtenu par la suffixation d’un élément « alif et tāʾ-‫ » ات‬au
cas sujet et au cas complément (direct et indirect). La différence se fera au niveau des signes
diacritiques (voir tableau 17, page 70).

4.3.2.5 Le pluriel interne
Le pluriel interne se construit par un changement interne du mot. On l’obtient en
transformant une lettre défectueuse ou en la remplaçant, voire en modifiant radicalement la
forme du mot au masculin ou féminin singulier. Nous avons trouvé 16 formes de schèmes

Chapitre : Chapitre 3 : La modération

6 et figure 7, page 76 et 77).

4
6

différents pour construire un pluriel interne, « brisé », en s’appuyant sur le schème du mot,
(voir tableau 18, page 71).
Nous n’avons pas encore généré automatiquement le pluriel interne dans notre grammaire.
Par conséquent, nous devons insérer toutes les formes du pluriel interne dans la base lexicale
(voir figure 8, page 77).

4.3.2.6 Le duel
Le Duel est désigné par deux suffixes : soit le suffixe « alif nūn-‫ » ان‬au cas sujet, soit le
suffixe « yā nūn-‫ » ين‬au cas complément (direct et indirect). Le masculin et le féminin
prennent les mêmes désinences (voir tableau 19, page 71).
La génération automatique du pluriel et du duel masculin et féminin s’est faite en rajoutant
toutes ces désinences dans la grammaire morphologique.
Du fait des désinences du duel, nous avons généré un faux positif (voir figure 9, page 78).
Pour résoudre ce problème, nous avons éliminé dans notre base lexicale, le mot erroné détecté
à la place de notre motif.

4.3.3

Traitement des fautes d’orthographe

Pour détecter les fautes d’orthographe ou la confusion dans l’écriture entre un alif hamza
en chef, un alif hamza souscrite, un alif maḍaa14 et un alif, nous avons substitué toutes les
formes du alif par lui-même et par les quatre formes du alif « ‫» أ إ ا آ‬. Nous avons fait de même
dont l’alif est écrite.
Nous avons rencontré le même problème mais cette fois-ci avec l’article défini « al/‫» ال‬.
L’article défini « al/‫ » ال‬se compose du « alif lām » et prend trois formes différentes selon le
début du mot. Si le mot commence par un « alif hamza » alors le « alif lām-‫ » ال‬sera agglutiné
avec le « alif », (voir tableau 20, page 71).

14

Le maḍaa est une prolongation qui se place sur l’alif pour indiquer que cette lettre tient lieu de deux alifs
consécutifs. http://www.cairn.info/revue-document-numerique-2002-3-page-155.htm

Chapitre : Chapitre 3 : La modération

pour chacune des autres formes, permettant ainsi de détecter le mot quelle que soit la façon

4
7

Voici plusieurs exemples illustrant l’agglutination du « alif hamza » avec l’article défini :


pour un mot qui commence par un « alif hamza en chef-‫» أ‬. Exemple : ‫أرنب األرنب‬



pour un mot qui commence par un « alif hamza souscrit-‫» إ‬. Exemple : ‫إيمان اإليمان‬



pour un mot qui commence par un « alif maḍaa-‫» آ‬.Exemple : ‫آفاق اآلفاق‬



pour un mot qui ne commence pas par un « alif-‫» ا‬. Exemple : ‫كاتب الكاتب‬.

Une faute d’orthographe très fréquente est l’utilisation de l’alif sans la hamza car cette
simple lettre est plus facile à saisir sur le clavier que la variante avec la hamza. En reprenant
les mêmes exemples ci-dessus, mais en utilisant cette fois-ci ’écriture commune, nous
obtenons : ‫ االفاق‬،‫ االيمان‬،‫االرنب‬. Pour plus d’exemples sur les fautes d’orthographe autour de la
confusion du « alif hamza », (voir tableau 6, page 67).
Nous avons ainsi traité la confusion de la graphie de la hamza initiale, médiane et finale
ainsi que la confusion du « alif » avec ces quatre formes (voir tableau 20, page 71).
Par ailleurs, dans notre corpus de test, nous avons trouvé dans certains cas le « alif », du
début de l’article défini « alif lām », écrit avec une « hamza » (voir figure 10, page 78). Cela
nous oblige à rajouter cette forme erronée dans notre grammaire.
En arabe, pour marquer l’interpellation, il existe également une particule située toujours au
début du mot : elle se fait, le plus souvent à l’aide de particules, dites particules du vocatif,
« yā-u an-nida-‫ « » النداء‬yāʾ-‫» يا‬. Après cette interpellation, l’article défini n’est jamais
présent. Mais cette faute d’orthographe qui consiste à rajouter l’article défini avec le « yā-u
an-nida-‫ » النداء‬se trouve. Nous avons donc dû générer cette faute d’orthographe pour pouvoir

Un cas très similaire au précédent concerne la proposition « bāʾ-‫ » ب‬qui s’agglutine au
début du mot. Nous avons traité ce cas dans notre grammaire.
Nous avons également la coordination « wāw-‫ » و‬qui est l’une des lettres qui ne s’attache
pas à la suivante. Cela pose parfois un problème car il est fréquent de ne pas insérer l’espace
entre cette coordination et le mot qui suit. Ce point est détaillé dans la section traitement des
caractères non alphanumériques.

Chapitre : Chapitre 3 : La modération

la détecter. Exemple : ‫يالحرامي اذلف أنت و حرمك بنت الحرامي‬, la forme correcte est ‫يا حرامي‬.

4
8

La coordination « wāw-‫» و‬, la proposition « bāʾ-‫ » ب‬et la particule « hāʾ-‫» ه‬, ont été
également introduites dans notre grammaire.
Un autre cas est le pronom « hāʾ-‫ » ه‬qui est une forme dialectale abrégée des pronoms
démonstratifs « ‫ هؤالء‬،‫ هذه‬،‫ » هذا‬en arabe standard. Par exemple, pour dire « ce chien », il suffit
d’agglutiner la lettre « hāʾ-‫ » ه‬avec l’article défini « alif lām-‫ » ال‬comme suivant : « ‫» هالكلب‬
au lieu d’écrire « ‫» هذا الكلب‬, (voir figure 11 et 12, page 79). Ceci impose de traiter cette lettre
dans notre grammaire morphologique avec la possibilité qu’elle soit agglutinée à l’article afin
de mieux la détecter dans le corpus.
Comme nous l’avons vu, nous avons également des fautes d’orthographe communes telle
que la confusion entre le « tāʾ marbouta-‫ » ة‬et le « hāʾ-‫ » ه‬final. Ces lettres ont la même
sonorité (voir figure 13, page 80). Cette faute se commet en général dans un seul sens, celui
du remplacement du « tāʾ marbouta-‫ » ة‬par un « hāʾ-‫» ه‬. Toujours de la même façon, nous
avons substitué la lettre « tāʾ marbouta-‫ » ة‬par la lettre « hāʾ-‫ » ه‬et vice versa.
De plus, il existe des fautes d’orthographe générées par l’usage de l’arabe dialectal
transcrit de l’oral à l’écrit. Les fautes les plus communes sont la confusion entre la lettre
« ḍād-‫ » ض‬et la lettre « ẓāʾ-‫» ظ‬. Cette faute est commise tant dans les pays du Golf qu’au
Maghreb, car elles se prononcent dans ces régions indifféremment. Un autre cas de confusion
existe entre les lettres « tāʾ-‫» ت‬, « ṯāʾ-‫ » ث‬et « sīn-‫ » س‬pour les pays du Moyen-Orient, en
particulier la Syrie, le Liban et l’Egypte. C’est aussi le cas pour les deux lettres « qāf-‫ » ق‬et
« hamza-‫ » ء‬et finalement pour les lettre « ḏāl-‫ » ذ‬et « zāy-‫( » ز‬voir figure 14, et figure 15,

Nous avons traité ce genre de problème en fournissant à notre grammaire morphologique
toutes les substitutions des lettres de l’alphabet arabe, afin d’obtenir toutes les formes
d’écriture possibles pour chaque lettre.
Or, ces fautes d’orthographe dialectales, du fait de la gestion de ces substitutions dans
notre grammaire peuvent également générer des faux positifs (voir figure 16, 17,18, page 83).
La solution est d’éliminer dans notre base lexicale les faux positifs trouvés lors de
l’évaluation de l’analyse automatique.

Chapitre : Chapitre 3 : La modération

page 80, 81).

4
9

Par ailleurs, nous avons vu qu’il est possible en arabe, comme dans d’autres langues, de
redoubler la même lettre une ou plusieurs fois. En voici un exemple : ‫ مررررررحبا| مرحبا‬, (voir
figure 19, page 84).
Ainsi, nous avons traité la plupart des fautes d’orthographe communes et dialectales en
arabe, ainsi que le cas de redoublement d’une lettre, (voir tableau 21, page 73).

4.3.4

Traitement des caractères non alphanumériques

Le traitement des caractères non alphanumériques est également pris en charge dans notre
grammaire. En effet, dans certains cas, des caractères non alphanumériques peuvent être
insérés entre les lettres d’un même mot pour, le plus souvent, le mettre en relief ou contourner
un éventuel système de filtrage. A contrario, lors de notre évaluation, nous avons également
constaté la suppression des espaces entre les lettres de deux mots distincts. Nous avons résolu
ce problème en ne bornant pas le mot s’il se termine par l’une des lettres non agglutinantes,
(voir figure 20, page 84).
Nous avons aussi ajouté le caractère spécial « Kachidé ou Tatouïl » dans notre grammaire,
et ce quel que soit sa place et quel que soit le nombre d’insertion rencontrées.

4.3.5

La codification informatique des lettres arabes

Les lettres arabes se codifient en Unicode en un seul code par caractère et non pas par
quatre correspondant à leurs quatre formes (initial, médiane, final). Par contre, les quatre
formes agglutinées sont engendrées par le logiciel de rendu qui nous les fait apparaître selon

Les multiples représentations graphiques d’une lettre arabe sont déjà définies lors de la
codification, ce qui fait que les variations graphiques de cette lettre n’affectent pas la
construction des expressions régulières dans le traitement automatique. Elles ne dépendent
que des glyphes. Pour la construction des expressions régulières, c’est le logiciel qui gère
l’affichage de droite à gauche à l’aide d’un algorithme bidirectionnel.
Le clavier comprend toutes les lettres arabes et :

Chapitre : Chapitre 3 : La modération

leur position dans le mot (initiale, médiane, finale, isolée).

5
0


Aperçu du document Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf - page 1/95

 
Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf - page 2/95
Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf - page 3/95
Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf - page 4/95
Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf - page 5/95
Mémoire-La-modération-en-arabe-CHAAR-tirage.pdf - page 6/95
 





Télécharger le fichier (PDF)




Sur le même sujet..





Ce fichier a été mis en ligne par un utilisateur du site. Identifiant unique du document: 00585739.
⚠️  Signaler un contenu illicite
Pour plus d'informations sur notre politique de lutte contre la diffusion illicite de contenus protégés par droit d'auteur, consultez notre page dédiée.