Article de revue

Catégorisation de textes en domaines et genres

Complémentarité des indexations lexicale et morphosyntaxique

Pages 61 à 76

Citer cet article


  • Poudat, C.,
  • Cleuziou, G.
  • et Clavier, V.
(2006). Catégorisation de textes en domaines et genres Complémentarité des indexations lexicale et morphosyntaxique. Document numérique, . 9(1), 61-76. https://stm.cairn.info/revue-document-numerique-2006-1-page-61?lang=fr.

  • Poudat, Céline.,
  • et al.
« Catégorisation de textes en domaines et genres : Complémentarité des indexations lexicale et morphosyntaxique ». Document numérique, 2006/1 Vol. 9, 2006. p.61-76. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2006-1-page-61?lang=fr.

  • POUDAT, Céline,
  • CLEUZIOU, Guillaume
  • et CLAVIER, Viviane,
2006. Catégorisation de textes en domaines et genres Complémentarité des indexations lexicale et morphosyntaxique. Document numérique, 2006/1 Vol. 9, p.61-76. URL : https://stm.cairn.info/revue-document-numerique-2006-1-page-61?lang=fr.

Notes

  • [1]
    Pour davantage de détails sur cette étape de réduction, se reporter à (Sebastiani, 2002).
  • [2]
    Discours littéraire, juridique, scientifique, journalistique, etc. Les types de discours sont reliés à des pratiques sociales distinctes et organisent en leur sein les typologies génériques et domaniales. Le discours juridique inclut ainsi les genres de l’arrêt, du décret, de la loi, etc.
  • [3]
    Ou « style », « registre », voire « type de textes ».
  • [4]
    Il semblerait en effet que les types de discours sont les premiers à émerger au niveau morphosyntaxique, bien avant les genres, les domaines ou les styles personnels (Malrieu et al., 2001). Étant donné que nous nous intéressons aux notions de genres et de domaines dans la présente étude, il semble pertinent d’évacuer momentanément le problème des discours.
  • [5]
    Pour plus de précisions sur la technique d’apprentissage par SVM, se reporter à (Vapnik, 1995).
  • [6]
    Corpus homogènes en genre (ART-corpus) ou en domaine (LING-corpus).
  • [7]
    La micro-précision mesure la proportion de textes classés correctement, quelle que soit la classe. A contrario, la macro-précision mesure pour chaque classe séparément la proportion de textes bien classés avant d’effectuer la moyenne.
  • [8]
    Cette observation confirme l’importance d’utiliser plusieurs méthodes de classification, utilisant des approches différentes d’apprentissage.
  • [9]
    L’ordre d’apparition des variables dans les colonnes du tableau est totalement arbitraire.
  • [10]
    Ce phénomène n’est pas visbible dans le tableau qui ne présente que les substantifs fréquents.

1 – Introduction

1Toute entreprise de classification nécessite un ensemble approprié de descripteurs. Il en va ainsi en matière de classification textuelle : au même titre qu’il serait peu pertinent de proposer des descripteurs tels que « taille » ou « couleur des yeux » pour caractériser les profils financiers d’utilisateurs de comptes bancaires, il serait inapproprié de décrire les textes scientifiques à partir de variables certes discriminantes en matière de typologie textuelle littéraire mais fondamentalement absentes du discours scientifique, e.g. « nombre de marques de dialogue », ou « nombre de verbes conjugués au passé simple ».

2Les classifications textuelles en domaines et en genres, qui représentent un enjeu pour la Recherche d’Information (RI), nécessitent de même un ensemble de descripteurs linguistiques adéquats. Dans les faits, domaines et genres sont associés à des niveaux linguistiques différents. Quand il s’agit de classification thématique ou domaniale, les textes sont souvent réduits à l’état de « sacs de mots ». Chaque document est alors décrit par le vocabulaire présent dans le corpus. Étant donné la taille de ce vocabulaire, une étape de réduction de l’espace de description est généralement effectuée [1] : sélection d’attributs par des mesures d’intérêt, reparamétrage de l’espace ou regroupement d’attributs. Ces formalismes d’indexation permettent d’obtenir des classifieurs performants, atteignant jusqu’à 90 % de précision sur grands corpus (Hofmann, 1999 ; Dhillon et al., 2003). De la même manière, les classifications en genres à partir d’un jeu de variables morphosyntaxiques robuste sont à même d’obtenir de très bons résultats en matière de validation de typologies textuelles (Karlgren et al., 1994 ; Kessler et al., 1997 ; Malrieu et al., 2001).

3On notera toutefois que la plupart des travaux recensés effectuent de la classification domaniale sur corpus génériquement homogènes (e.g. Reuters ou Newsgroup), et de la classification générique sur corpus discursivement [2] hétérogènes (e.g. (Karlgren et al., 1994 ; Kessler et al., 1997 ; Malrieu et al., 2001)), ce qui augmente le pouvoir classificatoire des variables employées mais limite l’utilisation conjointe et l’évaluation de la portée des deux niveaux descriptifs. Bien que de nombreuses applications de RI partent de données génériquement hétérogènes mais de même domaine, ce type de classification demeure problématique et est rarement mené étant donné la robustesse des jeux de variables utilisés.

4Nous nous proposons d’évaluer l’impact des variables thématiques et morphosyntaxiques sur les classifications génériques et domaniales à partir d’un corpus pilote de taille restreinte développé à cet effet. Nous déterminerons ainsi les variables les plus discriminantes selon les typologies et apprécierons l’intérêt d’une utilisation conjointe des deux niveaux descriptifs.

5Après un bref rappel des notions de domaines et de genres en RI, nous reviendrons sur les relations entre les deux concepts en section 2. La partie 3 présente la méthoologie que nous avons développée pour réaliser l’expérience, de même que le corpus test utilisé. Enfin, les sections 4 et 5 sont dédiées aux aspects expérimentaux de cette évaluation et à l’analyse des résultats obtenus.

2 – Genres et domaines

6Bien que les notions de genres et de domaines soient de plus en plus exploitées en RI, elles sont rarement utilisées conjointement, dans la mesure où elles sont généralement associées à des variables ou traits appartenant à des niveaux linguistiques différents. Les domaines se situeraient sur le plan lexical, tandis que les genres, ou les styles, seraient déterminés au niveau morphosyntaxique.

7Ainsi, les domaines sont souvent décrits en termes de relations lexicales, dans la mesure où ils sont supposés être le reflet de champs de connaissance particuliers. Ils se positionnent donc sur le plan du contenu, que différentes techniques de classification de documents ont tenté d’appréhender. Les mesures les plus fréquentes sont calculées sur les mots, les clusters de mots - inégalement appelés « thèmes », « sujets », « topics », etc. - ou encore les racines (ou word stems) (Porter, 1980), et se sont avérées plutôt efficaces dans diverses entreprises. De manière générale, on demeure au niveau du mot en raison de son faible coût de traitement.

8La notion de genre [3], philologique et littéraire au départ, est de plus en plus employée en RI et catégorisation textuelle (Prime-Claverie et al., 2002 ; Crowston et al., 2004). En effet, le genre possède des propriétés linguistiques formelles qui permettent de l’identifier et de le différencier : certains marqueurs sont ainsi absents de certains genres, comme les points d’exclamation dans les textes juridiques. De manière générale, on recourt aux parties du discours, de même qu’à des catégories fonctionnelles pour discriminer et décrire les genres. A la suite de Biber (Biber, 1988), c’est l’utilisation de variables morphosyntaxiques qui a été privilégiée pour valider des typologies textuelles et identifier les genres.

9On considère généralement que les genres et les domaines sont des notions orthogonales. Il est souvent souligné qu’on peut retrouver des domaines distincts à l’intérieur de genres différents, et inversement, ce qui laisserait penser que les deux dimensions sont indépendantes. Les deux niveaux de caractérisation des notions sont par conséquent rarement utilisés de manière conjointe ; certaines études (e.g. (Poudat et al., 2003 ; Lee et al., 2002)) ont pourtant corrélé des variables lexicales aux genres et ont obtenu des résultats tout à fait encourageants. La classification des domaines à partir du niveau morphosyntaxique reste encore, à notre connaissance, en suspens. Pourtant, il semble qu’à l’instar des genres, les domaines sont susceptibles d’entraîner des régularités stylistiques.

10Prenons par exemple le cas du discours scientifique : la pratique sociale de la « communication scientifique » a donné lieu à la création d’un ensemble de genres tant écrits qu’oraux (articles, actes, présentations de conférence, etc.), dans laquelle on retrouve des « domaines » correspondant aux différentes aires de l’activité scientifique (médecine, économie, recherche d’information, informatique, etc.). L’ensemble des productions de cette pratique communicative, qui partagent des propriétés linguistiques communes, forme ce que l’on appelle le « discours scientifique ». Si les genres ont développé au sein de cette pratique une structure et un style propre qui permettent de les identifier par-delà les domaines - on reconnaîtra un article scientifique, qu’il porte sur le domaine médical, biologique ou informatique -, il paraît raisonnable d’émettre l’hypothèse que les domaines peuvent être discriminés au moyen de variables morphosyntaxiques.

11Notre objectif étant d’évaluer l’intérêt des niveaux morphosyntaxiques et thématiques en matière de classifications en genre et en domaine, il nous semble toutefois primordial d’initier cette entreprise sur un corpus textuel discursivement homogène [4], quitte à étendre l’étude à un corpus plus large et plus hétérogène dans une étape ultérieure.

3 – Méthodologie

12Les notions de domaines et de genres intéressant spécifiquement le discours scientifique et les applications qui s’y attachent (veille scientifique et technique, recherches documentaires, etc.), c’est sur un corpus de textes scientifiques français que nous avons travaillé. Comme les textes scientifiques sont soumis à de fortes contraintes rédactionnelles qui limitent leur(s) variation(s), ils possèdent des propriétés de genre plus stables qui conviennent particulièrement à notre entreprise.

3.1 – Sélection de descripteurs adéquats

13Parmi les variables lexicales envisageables, ce sont les substantifs que nous avons sélectionnés. En effet, les noms sont des parties du discours non vides davantage susceptibles de pointer sur des concepts scientifiques, que les adverbes, verbes ou adjectifs. Ils sont donc potentiellement plus discriminants et peuvent aisément être extraits. Le poids des substantifs au singulier et au pluriel (dans la mesure où ils peuvent renvoyer à des concepts différents, e.g. « la langue » en linguistique ne renvoie pas à la même notion que « les langues ») a également été pris en compte.

14Dans un deuxième temps, nous avons sélectionné 136 variables morphosyntaxiques dédiées au discours scientifique : il serait en effet peu pertinent de décrire les textes scientifiques à partir de descripteurs trop généraux ou non caractéristiques qui n’incluent pas ses traits spécifiques. Outre les parties du discours traditionnelles (noms, adjectifs, verbes, adverbes prépositions, etc.), nous avons donc retenu un ensemble de traits « caractéristiques » du discours scientifique dans la littérature existante (tableau 1).

Tableau 1

Principaux traits caractéristiques du discours scientifique

Tableau avec descriptions des variables du discours scientifique : ABR, CON, FGW, NUM, LS, PON, VER, SIG, SYM.
Variable Description ABR Abréviations CON (+ attributs) Connecteurs : addition, cause, conséquence, conclusion, exemplification, disjunction, opposition, reformulation, espace, temps, etc. FGW Eléments étrangers (non français) NUM (+ attributs) Numéraux : dates, cardinaux, ordinaux + références dans le text (e.g. « Voir en 1.2 ») LS Indices de structuration (titres et listes) PON (+ attributs) Ponctuation : deux points, crochets, guillemets, parenthèses, slashs, etc. VER :mod :[temps] Modaux SIG Acronymes SYM Symboles

Principaux traits caractéristiques du discours scientifique

3.2 – Développement et prétraitement du corpus pilote

15Nous avons été contraints d’exclure les corpus de référence traditionnels comme Reuters ou Newsgroup en raison de leur homogénéité générique et avons été développé un corpus pilote adapté à notre problématique.

16Le corpus est de taille restreinte : il contient au total 371 textes scientifiques français publiés autour de 2000. Trois genres (articles, présentations de revue et comptes rendus) et deux domaines différents (linguistique et mécanique) y sont représentés. La répartition des documents de ce corpus est présentée dans le tableau 2.

17Les spécificités des expérimentations présentées infra nous ont amené à effectuer différentes partitions du corpus correspondant à des tâches de classification distinctes :

  • ART-corpus correspond au sous-corpus constitué uniquement des textes de genre « article » (1ère ligne du tableau 2),
  • LING-corpus correspond au sous-corpus constitué uniquement des textes de domaine « linguistique » (1ère colonne du tableau 2).

Tableau 2

Présentation du corpus utilisé

Description de l'image par IA : Tableau avec trois catégories: Articles, Présentations de revues, Comptes rendus, et leurs nombres en Linguistique et Mécanique.
Linguistique Mécanique Articles 224 49 Présentations de revues 45 Comptes rendus 53

Présentation du corpus utilisé

18L’étiquetage a été réalisé à partir des textes bruts via un processus incrémental d’apprentissage avec le tagger TnT (Trigrams’n’Tags) (Brants, 2000) sur le jeu d’étiquettes sélectionné.

3.3 – Classifieurs utilisés

19La classification (ou catégorisation) automatique de documents a donné lieu à de nombreux travaux recourant aux méthodes d’apprentissage automatique. Les techniques les plus utilisées dans ce domaine d’application sont : le classifieur naïf de Bayes (Lewis et al., 1994), les machines à support vectoriel (SVM) (Joachims, 1998) ou encore les arbres de décisions (Cohen et al., 1998).

20Les expérimentations que nous proposons par la suite visent à (1) évaluer l’influence de chaque type de description sur la classification (précision du classifieur) et (2) observer l’articulation des deux ensembles d’attributs combinés dans un même classifieur. Dans cette perspective, nous utilisons deux méthodes très différentes mais complémentaires de ce point de vue, à savoir la classification par SVM et par arbres de décision.

21Les SVMs sont reconnus pour leurs performances inégalées dans l’application à la catégorisation de textes (Dumais et al., 1998). De manière simplifiée, cette méthode consiste à apprendre un classifieur dans un nouvel espace d’attributs de dimension plus importante que l’espace initial. Ce nouvel espace peut être obtenu par différents types de fonctions noyaux (e.g. linéaire, polynomial, RBF, etc.) [5]. Plusieurs études empiriques (e.g. (Dumais, 1998)) ayant montré que les meilleures performances en classification de textes sont obtenues avec des SVMs linéaires, c’est ce type de noyau que nous avons retenu dans nos expérimentations. La classification par SVMs permettra alors d’appréhender quantitativement l’importance de chaque ensemble d’attributs : lexical, morphosyntaxique et combiné, notés respectivement Description de l'image par IA : L majuscule de ronde virgule M majuscule de ronde e en normal t en normal L majuscule de ronde plus cerclé M majuscule de ronde

.

22Les Arbres de Décision (ADs), contrairement aux SVMs, procèdent par apprentissage symbolique. Bien que moins performants sur cette application, les arbres générés par cette méthode permettent l’analyse et l’interprétation du rôle joué par chaque attribut. La présence et la position d’un attribut dans l’arbre indique son importance dans le processus de classification ainsi que la classe favorisée par ce dernier De l’arbe peut être extrait un ensemble de règles explicatives « caractérisant » les classes ciblées. Dans nos expérimentations, nous utiliserons l’algorithme C4.5 (Quinlan, 1993).

3.4 – L’évaluation

23Afin de mesurer l’impact des différents jeux de variables sur les classifications en genre et en domaine, il est nécessaire d’observer l’influence de chacun des trois ensembles d’attributs Description de l'image par IA : parenthèse gauche L majuscule de ronde virgule M majuscule de ronde e sans empattement t sans empattement L majuscule de ronde plus cerclé M majuscule de ronde parenthèse droite

sur le corpus global et les corpus locaux [6]

24Soient D un ensemble de textes scientifiques et C un ensemble de classes (genre domaine selon l’étude) tels que chaque texte di ? D est associé à une unique classe c(di) ? C. D est divisé en deux sous-ensembles, d’entraînement et de test, notés respectivement Dtrain et Dtest.

25On note Description de l'image par IA : L majuscule de ronde indice D majuscule de ronde position de base égale début ensemble l indice 1 position de base virgule points de suspension virgule l indice début valeur absolue L majuscule de ronde fin valeur absolue position de base fin ensemble

l’ensemble ordonné des substantifs (singuliers et pluriels) apparaissant dans les textes de Dtrain (description lexicale). Les substantifs sont ordonnés par Information Mutuelle (IM) décroissante. Soit C la variable de classe et li une variable lexicale de L :

26

Description de l'image par IA : I majuscule M majuscule parenthèse gauche l indice i position de base virgule C majuscule de ronde parenthèse droite égale sommation début souscript c indice j position de base appartient à C majuscule de ronde fin scripts P majuscule parenthèse gauche c indice j position de base parenthèse droite point log début fraction P majuscule parenthèse gauche l indice i position de base barre verticale c indice j position de base parenthèse droite sur P majuscule parenthèse gauche l indice i position de base parenthèse droite fin fraction crochet gauche I majuscule en normal crochet droit

27On note Description de l'image par IA : M majuscule de ronde égale début ensemble m indice 1 position de base virgule points de suspension virgule m indice 1 3 6 position de base fin ensemble

l’ensemble ordonné des 136 attributs morphosyntaxiques décrit en section 3.1. On utilise le Gain d’Information (GI) pour mesurer l’intérêt de chaque attribut pour la classification cible et ainsi ordonner M :

28

Description de l'image par IA :

29Les attributs dans M sont continus (e.g. % prépositions) ; ils sont alors discrétisés de façon analogue à l’algorithme C4.5 (Quinlan, 1993). Ainsi dans [2], les valeurs de s correspondent aux différents seuils de discrétisation possibles pour les valeurs de mi, Description de l'image par IA : D majuscule de ronde indice t r a i n exposant m sup-indice i sup inférieur à s position de base e t D majuscule de ronde indice t r a i n exposant m sup-indice i sup supérieur à s

aux sous-ensembles de documents induits par cette discrétisation. Enfin, E désigne la fonction « entropie », EC(X) mesurant la pureté d’un ensemble X étant donné une schéma de classification attendu C :

30

Description de l'image par IA :

31Rappelons que dans [3], c(xi) indique la classe associée à l’élément xi.

32Enfin, Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde

correspond à une fusion ordonnée des deux ensembles d’attributs L et M, suivant l’ordre d’alternance suivant : Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde égale début ensemble l indice 1 position de base virgule m indice 1 position de base virgule l indice 2 position de base virgule m indice 2 position de base virgule points de suspension virgule l indice 1 3 6 position de base virgule m indice 1 3 6 position de base virgule l indice 1 3 7 position de base virgule l indice 1 3 8 position de base virgule points de suspension virgule l indice début valeur absolue L majuscule de ronde fin valeur absolue position de base fin ensemble.

33Les expérimentations présentées en section 4 correspondent à des résultats moyens obtenus sur 5 validations croisées à 2 blocs (2-fold cross-validations) : D est divisé en deux sous-ensembles de tailles équivalentes, chaque sous-ensemble étant utilisé à son tour comme corpus d’entraînement et de test. Les valeurs reportées correspondent à des micro-précisions [7].

34Concernant l’apprentissage par SVM, dans le cas de problèmes multiclasses plusieurs SVMs sont appris (un par classe) puis combinés.

4 – Expérimentations

35Nous considérerons, dans ce qui suit, plusieurs sous-corpus correspondant chacun à une tâche différente de classification. En premier lieu, les expérimentations présentées porteront sur une classification en domaines.

36Sur le corpus local (ART-corpus), la classification consistera à distinguer les deux domaines « linguistique » et « mécanique » pour un ensemble de documents homogène en genre (uniquement des articles). Le corpus « global» permettra en revanche d’appréhender l’introduction d’un paramètre de variation générique (articles, présentations et compte rendus).

37De façon analogue, dans un second temps, la classification en genre sera expérimentée sur un corpus « local » homogène en domaine (LING-corpus) puis sur le corpus « global » faisant intervenir une variation générique au sein des domaines.

4.1 – Classification en domaines

38Les résultats obtenus avec la méthode SVM (figures 1 et 2) montrent clairement et contre toute attente que les variables morphosyntaxiques sont plus discriminantes que les variables lexicales. De plus, on note qu’une utilisation conjointe des deux types de variables est globalement plus efficace que chacun des deux ensembles choisi séparément.

Figure 1

Classification en domaines avec SVM sur corpus local (ART-Corpus)

Description de l'image par IA : Courbe montrant % de documents bien classés vs nombre de variables.

Classification en domaines avec SVM sur corpus local (ART-Corpus)

Figure 2

Classification en domaines avec SVM sur corpus global

Description de l'image par IA : Courbe montrant % documents bien classés vs nombre de variables.

Classification en domaines avec SVM sur corpus global

39On obtient donc l’ordre de précédence suivant, avec ou sans variations génériques :

Description de l'image par IA : accolade gauche I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins L majuscule de ronde plus cerclé M majuscule de ronde accolade droite supérieur à début ensemble I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins M majuscule de ronde fin ensemble supérieur à début ensemble I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins L majuscule de ronde fin ensemble
D’autres tests, effectués avec C4.5 indiquent les mêmes tendances, bien que les taux de précision obtenus par les ADs soient moins bons qu’avec la méthode SVM. L’indexation par le lexique semble également moins pertinente qu’une indexation morphosyntaxique ou mixte. Il semble donc que les domaines scientifiques se distinguent davantage par des traits stylométriques que par des informations lexicales, constat surprenant si l’on considère que les deux domaines à discriminer (linguistique et mécanique) sont conceptuellement très éloignés.

4.2 – Classification en genres

40Les résultats obtenus avec le classifieur SVM (figures 3 et 4) confirmeraient l’hypothèse selon laquelle les genres sont effectivement corrélés au niveau morphosyntaxique : le taux de précision obtenu est plus élevé avec les jeux de variables comprenant des attributs morphosyntaxiques qu’avec les variables lexicales uniquement. Notons que les différences de domaines ne perturbent pas cet ordre.

41

Description de l'image par IA : accolade gauche I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins L majuscule de ronde plus cerclé M majuscule de ronde accolade droite presque égal à début ensemble I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins M majuscule de ronde fin ensemble beaucoup plus grand que début ensemble I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins L majuscule de ronde fin ensemble

Figure 3

Classification en genres avec SVM sur corpus local (LING-Corpus)

Description de l'image par IA : Courbe montrant % documents bien classés vs nombre de variables.

Classification en genres avec SVM sur corpus local (LING-Corpus)

Figure 4

Classification en genres avec SVM sur corpus global

Description de l'image par IA : Courbe montrant % de classification correcte en fonction du nombre de variables.

Classification en genres avec SVM sur corpus global

42Nous présentons en figures 5 et 6 les résultats obtenus avec C4.5. On observe en premier lieu que les taux de précision obtenus avec cette méthode sont encore une fois sensiblement inférieurs aux résultats obtenus avec la méthode SVM : 84 % au mieux avec C4.5 contre 88 % avec SVM. De plus, l’ordre de établi précédemment Description de l'image par IA : parenthèse gauche L majuscule de ronde plus cerclé M majuscule de ronde presque égal à M majuscule de ronde beaucoup plus grand que L majuscule de ronde parenthèse droite

diffère avec cette nouvelle approche : les variables lexicales, combinées aux attributs morphosyntaxiques forment un jeu de descripteurs plus efficace au niveau global, ce qui confirmerait l’existence d’une possible corrélation des genres avec le niveau lexical, hypothèse soutenue par Lee et Myaeng (Lee et al., 2002) qui associent des traits lexicaux au genre de la « homepage » :

43

Description de l'image par IA : accolade gauche I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins L majuscule de ronde plus cerclé M majuscule de ronde accolade droite supérieur à début ensemble I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins M majuscule de ronde fin ensemble beaucoup plus grand que début ensemble I majuscule en normal n en normal d en normal e en normal x en normal a en normal t en normal i en normal o en normal n en normal moins L majuscule de ronde fin ensemble

Figure 5

Classification en genre avec AD sur corpus local (LING-Corpus)

Description de l'image par IA : Graphique montrant % documents bien classés vs nombre de variables.

Classification en genre avec AD sur corpus local (LING-Corpus)

Figure 6

Classification en genre avec AD sur corpus global

Description de l'image par IA : Graphique montrant la classification en genre avec AD sur corpus global.

Classification en genre avec AD sur corpus global

44D’un point de vue plus technique, ces différences obtenues entre les deux classifieurs [8] peuvent en partie s’expliquer par les méthodes très différentes auxquelles ces deux classifieurs font appel. Notamment, l’approche SVM considère un nouvel espace de représentation des documents, à forte dimensionalité, et dont les dimensions sont définies par combinaisons - ici linéaires - des descripteurs initiaux. Cette méthode fait donc intervenir de façon plus ou moins marquée l’ensemble des descripteurs considérés tandis que la construction d’un arbre de décision nécessite généralement très peu de descripteurs mais bien choisis.

4.3 – Analyse complémentaire : micro vs macro-précision

45Avant de fournir une explication plus précise des résultats précédents nous proposons un résultat intermédiaire synthétisant l’ensemble des expérimentations présentées ci-dessus. Pour un nombre fixé de descripteurs, nous étudions dans le tableau 3, les macro et micro-précisions induites par les arbres de décisions appris sur le corpus global. Cette étude a son importance compte tenu des grandes variations de tailles entre les classes, aussi bien pour la classification en domaines que pour la classification en genres.

Tableau 3

Micro et macro-précisions sur le corpus global avec C4.5

Tableau comparatif des précisions micro et macro pour la classification en domaine et genre avec pourcentages.
Type de classification Type de précision Nature et taille de l’ensemble de descripteurs M136 L500 {M ? L}500 Domaine micro 92.2 % 93.3 % 94.1 % macro 80.3 % 80.4 % 84.8 % Genre micro 79.9 % 80.1 % 81.1 % macro 59.3 % 61.9 % 61.4 %

Micro et macro-précisions sur le corpus global avec C4.5

46L’analyse en terme de macro-précision révèle certains phénomènes masqués par l’influence d’une classe fortement majoritaire (60 % des documents du corpus global sont des articles de linguistiques). Notamment pour la tâche de classification en domaine, la macro-précision permet de mettre en évidence un écart plus important entre les ensembles d’attributs pris séparément (80.3 % et 80.4 %) et la combinaison des deux ensembles (84.8 %). En effet, on note beaucoup plus de documents du domaine de la mécanique classés en linguistique avec les niveaux de descriptions M ou L qu’avec une description combinée Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde

. Cette remarque confirme à nouveau la complémentarité entre les deux niveaux de description pour la classification en domaines.

5 – Analyse des descripteurs discriminants

5.1 – Les descripteurs de domaine

47On reporte dans le tableau 4 les variables apparaissant dans au moins 2 des 10 arbres de décision obtenus (5 validations croisées à 2 blocs) [9].

Tableau 4

Descripteurs morphosyntaxiques et lexicaux discriminants en matière de classification en domaines

Tableau des descripteurs morphosyntaxiques et lexicaux avec exemples de mots.
Variables Morphosyntaxiques Lexicales Mixtes Indices de renvois (e :g : « voir en 1.1 ») équation équation Pronoms personnels écoulement vitesse Prépositions vitesse écoulement Symboles, sigles, abréviations coefficient vitesses Participes passés modaux déformation laboratoire Adverbes et connecteurs amélioration Adjectifs réflexifs Pronoms clitiques augmentation Locutions adverbiales courbes Adverbes et connecteurs essais Connecteurs de concession laboratoire Nombre de « JE » mécanique Prépositions vitesses Ponctuation (points)

Descripteurs morphosyntaxiques et lexicaux discriminants en matière de classification en domaines

48Les variables lexicales discriminantes sont toutes caractéristiques du domaine scientifique mécanique. Par exemple, on observe sur un échantillon d’entraînement que si le terme « écoulement » apparaît au moins deux fois, il permet de discriminer la moitié des textes de mécanique Les textes de linguistique sont donc différenciés de manière négative : dans le même échantillon 90 % des textes linguistiques sont bien classés s’ils contiennent au plus une fois le terme « écoulement » et ne contiennent ni « mécanique », ni « vitesse » et ni « essais ». Cette discrimination par des termes de mécanique s’explique par : la taille plus importante des textes de linguistique qui augmente le nombre et la diversité des descripteurs, et les textes de mécanique qui semblent plus homogènes au niveau lexical.

49Les descripteurs morphosyntaxiques les plus discriminants semblent par contre plus caractéristiques du domaine linguistique : par exemple, on observe sur un échantillon que la variable « préposition », lorsqu’elle dépasse un certain seuil, permet de différencier jusqu’à 90 % des textes de linguistique. De même, un nombre élevé de pronoms personnels et de marques de renvois discrimine les textes de linguistique des textes de mécanique.

50En ce qui concerne les classifications mixtes, notons qu’elles recourent davantage aux variables morphosyntaxiques qu’aux variables lexicales malgré la prépondérance des traits lexicaux dans l’espace de description Description de l'image par IA : parenthèse gauche début valeur absolue L majuscule de ronde fin valeur absolue égale 3 6 4 supérieur à 1 3 6 égale début valeur absolue M majuscule de ronde fin valeur absolue parenthèse droite

. Pourtant, les variables lexicales interviennent toujours en premier dans l’arbre de classification (cf. figure 7), les traits morphosyntaxiques permettant de raffiner la classification. Elles sont donc les plus discriminantes, mais ne suffisent pas à classer les documents de manière satisfaisante. Le rôle du niveau morphosyntaxique est donc loin d’être négligeable en matière de classification en domaines.

Figure 7

Arbre représentatif pour la classification en domaines avec l’ensemble de descripteurs Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde

Description de l'image par IA : Arbre décisionnel avec descripteurs pour classification en domaines.

Arbre représentatif pour la classification en domaines avec l’ensemble de descripteurs Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde

51On notera que ces résultats contiennent des indices descriptifs susceptibles d’intéresser la caractérisation des domaines.

5.2 – Les descripteurs de genre

52On reporte dans le tableau 5 les variables apparaissant dans au moins trois arbres de décision sur l’ensemble des arbres appris.

Tableau 5

Descripteurs morphosyntaxiques et lexicaux discriminants en matière de classification en genres

Tableau des descripteurs morphosyntaxiques et lexicaux avec exemples pour classification en genres.
Variables Morphosyntaxiques Lexicales Mixtes Indices de structuration textuelle (LS) chapitres LS Noms propres contributions articles Passifs/passés composés articles chapitres Symboles presses contributions Ponctuation (deux points) chapitre Passifs/passés composés Ponctuation (points) bibliographie Connecteurs de concession Connecteurs de conséquence journées Connecteurs spatiaux Éléments de langue étrangère linguistique Éléments de langue étrangère Indices de renvois numéro Indices de renvois Pronom personne « NOUS » politique Pronom personne « NOUS » clitique clitique

Descripteurs morphosyntaxiques et lexicaux discriminants en matière de classification en genres

53On notera que les arbres de décision font intervenir plus de variables lexicales pour classifier les genres que pour la classification des domaines [10], ce qui ne semble pas surprenant. Les substantifs présentés dans le tableau 5 sont caractéristiques des comptes rendus et des présentations de revues. Les articles sont donc classés relativement à l’absence de marqueurs caractéristiques des deux autres genres : ainsi, la quasi totalité des articles est correctement classée si les textes ne contiennent ni « contributions », ni « chapitres » et au plus une occurrence de « chapitre », les contributions étant aussi bien caractéristiques des comptes rendus que des présentations de revues. « chapitres » permettrait par contre de discriminer les comptes rendus. Certains indices lexicaux semblent donc caractéristiques du genre, conformément à ce que soutiennent (Lee et al., 2002). Toutefois, les éléments lexicaux ne sont pas aussi efficaces pour distinguer les genres que pour la classification des domaines les genres n’étant pas discriminés de manière aussi claire que les domaines.

54Les variables morphosyntaxiques semblent caractéristiques des articles scientifiques : ainsi, les indices de structuration textuelle (LS) sont particulièrement discriminants et interviennent d’ailleurs en premier dans la plupart des arbres de classification. En effet, les comptes rendus ne sont jamais structurés, à l’inverse des articles et des présentations de revues. Notons que si les articles sont caractérisés par un niveau élevé de structuration, il n’en va pas de même des présentations, qui peuvent être structurées sans que cela soit pour autant caractéristique du genre.

55Enfin, en ce qui concerne la classification mixte, on note que seuls trois items lexicaux participent à la classification de manière significative : les substantifs « articles », « chapitres » et « contributions », qui ne sont pas caractéristiques des articles. De la même manière que pour la classification à partir du plan morphosyntaxique seul, les indices de structuration interviennent en premier dans l’arbre de classification (cf. figure 8).

Figure 8

Arbre représentatif pour la classification en genres avec l’ensemble de descripteurs Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde

Description de l'image par IA : Arbre de classification avec descripteurs pour genres, incluant articles, chapitres, et présentations de revues.

Arbre représentatif pour la classification en genres avec l’ensemble de descripteurs Description de l'image par IA : L majuscule de ronde plus cerclé M majuscule de ronde

6 – Conclusion

56Nous avons cherché à évaluer de manière expérimentale l’incidence des niveaux morphosyntaxique et lexical sur la classification en domaines et en genres dans le cas particulier des textes scientifiques.

57Dans cette perspective, un ensemble de descripteurs morphosyntaxiques adapté aux caractéristiques du discours scientifique a été développé. Nous avons parallèlement opté pour le choix des substantifs au singulier et au pluriel au niveau lexical, dans la mesure où ils pointent potentiellement sur des concepts.

58Bien qu’ils aient été obtenus sur un corpus de taille restreinte, les résultats de l’expérience sont particulièrement encourageants parce qu’ils soulignent l’intérêt d’une complémentarité des deux niveaux pour la classification en domaines et confirment celui des variables morphosyntaxiques en matière de classification en genres. En effet, la discrimination des deux domaines observés est nettement plus précise si l’on utilise les deux jeux de variables conjointement avec les deux types de classifieurs employés, dans la mesure où les variables morphosyntaxiques permettent d’affiner considérablement les partitions obtenues avec le lexique. Enfin, nous avons pu apprécier la performance de la méthode SVM par rapport à la méthode C4.5 en matière de classification générique morphosyntaxique. Nous n’écartons pas toutefois l’intérêt de l’utilisation de variables lexicales pour discriminer les genres, l’étude des descripteurs s’étant révélée encourageante.

59Nous envisageons d’approfondir et de préciser les résultats obtenus sur d’autres types de domaines et de genres. La pertinence des descripteurs utilisés sera également évaluée plus exactement : le jeu de variables morphosyntaxiques employé sera ainsi comparé aux jeu d’étiquettes du Penn Treebank Corpus utilisé par des taggers comme Brill ou TreeTagger par exemple, et d’autres types de descripteurs lexicaux seront extraits afin d’évaluer la pertinence de l’approche substantivale que nous avons adoptée.

7. Bibliographie

  • Biber D., Variation across Speech and Writing, University Press, Cambridge, 1988.
  • Brants T., « TnT - A Statistical Part-of-Speech Tagger », Proceedings of the Sixth Applied Natural Language Processing Conference (ANLP’00), Seattle, WA, 2000.
  • Cohen W., Hirsh H., « Joins that generalize : text classification using Whirl », in, R. Agrawal, P. E. Stolorz, G. Piatetsky-Shapiro (eds), Proceedings of KDD-98, 4th International Conference on Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, US, New York, US, 1998, p. 169-173.
  • Crowston K., Kwasnik B., « A Framework for Creating a Facetted Classification for Genres : Addresssing Issues of Multidimensionality », 37th Hawaii International Conference on System Sciences, (IEEE Computer Society), Hawaii, 2004.
  • Dhillon I. S., Mallela S., Kumar R., « A divisive information theoretic feature clustering algorithm for text classification », Journal of Machine Learning Researches, 2003, vol. 3, p. 1265-1287.
  • Dumais S.IEEE Intell. Systems, « Using SVMs for text categorization », 1998.
  • Dumais S., Platt J., Heckerman D., Sahami M., « Inductive learning algorithms and representations for text categorization », CIKM ’98 : Proceedings of the seventh international conference on Information and knowledge management, ACM Press, 1998, p. 148-155.
  • Hofmann T., « Probabilistic Latent Semantic Indexing », Proceedings of the 22nd Annual ACM Conference on Research and Development in Information Retrieval, Berkeley, California, August, 1999, p. 50-57.
  • Joachims T., « Text categorization with support vector machines : learning with many relevant features », in, Claire Nédellec and Céline Rouveirol (ed.), Proceedings of ECML-98, 10th European Conference on Machine Learning, number 1398, Springer Verlag, Heidelberg, DE, Chemnitz, DE, 1998, p. 137-142.
  • Karlgren J., Cutting D., « Recognizing text genres with simple metrics using discriminant analysis », Proceedings of COLING 94, Kyoto, 1994.
  • Kessler B., Nunberg G., Schültze H., « Automatic detection of text genre », Proceedings of the European Chapter of the Association for Computational Linguistics (EACL’97), 1997, p. 32-38.
  • Lee Y.-B., Myaeng S. H., « Text genre classification with genre-revealing and subject-revealing features », SIGIR ’02 : Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, ACM Press, 2002, p. 145-150.
  • Lewis D. D., Ringuette M., « A comparison of two learning algorithms for text categorization », Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994, p. 81-93.
  • Malrieu D., Rastier F., « Genres et variations morphosyntaxiques », Traitement Automatique des langues, 2001, vol. 42, n° 2, p. 548-577.
  • Porter M. F., « An algorithm for suffix stripping », Program 14 :, 1980, p. 130-137.
  • Poudat C., Cleuziou G., « Genre and Domain Processing in an Information Retrieval Perspective », in, LNCS (ed.), Third International Conference on Web Engineering, Springer, Oviedo, Spain, 2003, p. 399-402.
  • Prime-Claverie C., Beigbeder M., Lafouge T., « Clusterisation du Web en vue d’extraction de corpus homogènes », INFORSID, 2002, p. 229-242.
  • Quinlan J. R., C4.5 : Programs for Machine Learning, Morgan Kaufmann, 1993.
  • Sebastiani F., « Machine learning in automated text categorization », ACM Comput. Surv., 2002, vol. 34, n° 1, p. 1-47.
  • Vapnik V., The nature of statistical theory, Springer Verlag, 1995.

Mots-clés éditeurs : classification, domaine, genre, lexique, morphosyntaxe, recherche d'information