Article de revue

Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles

Pages 63 à 82

Citer cet article


  • Kim, Y.-M.,
  • Pessiot, J.-F.,
  • Amini, M.-R.
  • et Gallinari, P.
(2010). Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles. Document numérique, . 13(1), 63-82. https://stm.cairn.info/revue-document-numerique-2010-1-page-63?lang=fr.

  • Kim, Young-Min.,
  • et al.
« Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles ». Document numérique, 2010/1 Vol. 13, 2010. p.63-82. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2010-1-page-63?lang=fr.

  • KIM, Young-Min,
  • PESSIOT, Jean-François,
  • AMINI, Massih-Reza
  • et GALLINARI, Patrick,
2010. Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles. Document numérique, 2010/1 Vol. 13, p.63-82. URL : https://stm.cairn.info/revue-document-numerique-2010-1-page-63?lang=fr.

1 – Introduction

1La tâche du clustering de documents est un problème important en recherche d’information. Les premiers travaux dans ce sens ont montré que les performances des moteurs de recherche pouvaient être améliorées en regroupant d’abord les documents suivant les différentes partitions et en appariant ensuite les requêtes sur les documents des partitions les plus similaires avec ces dernières (Van Rijsbergen, 1979). Depuis la fin des années 1990, cette tâche a été massivement utilisée pour la navigation sur le web (Cutting et al., 1992), la recherche distribuée (Xu et al., 1999) et le résumé automatique de textes (Kummamuru et al., 2004).

2La plupart des méthodes de clustering de documents reposent sur la représentation vectorielle sac de mots (Van Rijsbergen, 1979). En utilisant chaque mot comme une caractéristique, chaque document est représenté comme un vecteur de fréquences de mots (éventuellement normalisées). Avec cette approche, les documents sont représentés par des vecteurs de dimension égale à la taille du vocabulaire, qui est en général assez grand. En effet, même des collections de documents de taille moyenne peuvent contenir de nombreux mots différents, et des vocabulaires de plusieurs dizaines de milliers de mots sont désormais communs. Or la grande dimension de ces données rend la plupart des algorithmes de clustering difficiles à utiliser. À cette difficulté algorithmique vient s’ajouter le fait que les représentations des données textuelles sont typiquement creuses (Dhillon et al., 2001). En effet, la plupart des documents contiennent très peu de mots par rapport à la taille du vocabulaire de la collection (typiquement moins de 5 %). Il y a également le problème du bruit : les textes issus de pages web, de forums de discussion ou d’emails contiennent souvent des fautes d’orthographe et des abbréviations qui peuvent être considérées comme du bruit par rapport au texte initial. Or la plupart des algorithmes de clustering ne sont pas adaptés pour traiter de telles données. Enfin, les approches de type sac de mots ne peuvent extraire que des caractéristiques de bas niveau, sémantiquement pauvres. Il y a un fossé sémantique important avec des caractéristiques de haut niveau comme les thématiques que nous souhaitons identifier dans la collection.

3Ces inconvénients sont inhérents au choix de la représentation des documents dans l’espace des mots, et ils ont motivé l’utilisation de la réduction dimensionnelle pour déterminer une nouvelle représentation plus compacte et pertinente des documents. Dans le cadre supervisé, il existe plusieurs approches pour réduire la dimension des données textuelles. Par exemple, la sélection de caractéristiques permet de réduire considérablement la dimension sans dégrader l’erreur de classification, voire même l’améliorer dans certains cas (Yang et al., 1997). Dans le cadre non supervisé en revanche, l’information de classe n’est pas disponible et la réduction dimensionnelle doit s’appuyer sur une connaissance a priori du problème. Par exemple, la nouvelle représentation extraite par l’algorithme indexation sémantique latente (LSI) correspond aux axes principaux déterminés par l’analyse en composantes principales (Deerwester et al., 1990). Il existe également des heuristiques simples qui permettent d’éliminer des mots jugés non informatifs, reposant notamment sur leurs fréquences dans les documents (Salton et al., 1986). Ces méthodes restent moins efficaces que des approches supervisées comme la sélection de variables, mais peuvent néanmoins réduire le bruit associé à la représentation dans l’espace des mots.

4Dans cet article nous considérons une approche générale de réduction dimensionnelle non supervisée pour le clustering de documents, qui transforme l’espace des mots initial en un espace de concepts (Caillet et al., 2004). L’information a priori permettant cette transformation repose sur l’hypothèse Description de l'image par IA : H majuscule de ronde

que des mots qui co-occurrent avec les mêmes fréquences dans les mêmes documents sont sémantiquement proches. Sur la base de cette hypothèse, les mots sont d’abord regroupés en clusters, appelés concepts. Puis les documents sont représentés dans le nouvel espace induit par ces concepts, où chaque nouvelle caractéristique correspond à un cluster de mots et représente le nombre total d’occurrences des mots du cluster présents dans le document. La contribution principale de ce travail est la validation empirique de notre hypothèse pour trouver des concepts de mots pertinents via la tâche du clustering. Nous utilisons le cadre du clustering de documents pour évaluer l’espace de concepts induit par notre hypothèse, et nous comparons ses performances avec l’espace de concepts induit par PLSA (Hofmann, 1999) ainsi que l’espace des sacs de mots initial. Les résultats obtenus sur trois collections standard Reuters, 20Newsgroups et WebKB montrent la capacité de notre approche à déterminer des concepts de mots pertinents pour la tâche, et à améliorer les performances en clustering de documents. Nous proposons ensuite une extension du modèle de PLSA pour tenir compte parallèlement des clusters de documents et de mots. L’avantage majeur de ce modèle est qu’il permet une modélisation plus fine du discours comme les thématiques générales sont dissociées des sous-thématiques dans le processus de génération des observations. Nous montrons de plus que le modèle PLSA étendu proposé est équivalent à une combinaison linéaire de modèles de factorisation matricielle non négative (FMN) au sens de la fonction objective KL-divergence.

5La suite de cet article est organisée de la façon suivante. Dans la section 2 nous présentons les diffèrents modèles probabilistes pour la réduction dimensionnelle et le clustering de documents que nous avons utilisés dans cet article. Nous donnons les résultats expérimentaux dans la section 3 et dans la section 4 nous présentons une conclusion à ce travail.

2 – Modèles

6Nous commençons notre présentation par le modèle PLSA (section 2.2), introduit par (Hofmann, 1999), pour la recherche de concepts latents dans une collection de documents. Nous présentons ensuite nos deux contributions pour le clustering de documents. Dans la section 2.3, nous présentons l’hypothèse qui nous sert à déterminer des concepts de mots dans le cadre de la réduction dimensionnelle des données textuelles. Dans la section 2.4, nous proposons une extension du modèle PLSA, capable de dissocier les clusters de documents aux thématiques de mots trouvées dans la collection.

2.1 – Notations

7Nous notons par l’ensemble des mots du vocabulaire d’une collection de n documents. Nous représentons les mots par

est la représentation vectorielle du mot w, et n(di, w) est le nombre d’occurrences du mot w dans le document . Nous représentons les concepts latents par l’ensemble A = {?1, …, ?K} comprenant K composantes.

2.2 – Probabilistic latent semantic analysis (PLSA)

8Le modèle PLSA est un modèle probabiliste qui caractérise chaque mot dans un document comme une variable aléatoire générée par un modèle de mélange dont les composantes du mélange sont des distributions multinomiales. Ce modèle associe une variable latente non observée (appelée topic ou composante) ? ? A = {?1, …, ?K} à chaque observation correspondant à l’occurrence d’un mot dans un document . Dans ce cas le processus de génération des mots d’une collection donnée suit le schéma graphique suivant (figure 1a) :

  • choisir un document d avec une probabilité p(d),
  • choisir une variable latente ? d’après sa probabilité conditionnelle p(? | d),
  • génerer un mot w suivant la probabilité p(w | ?).
La génération d’un mot w dans un document d peut alors être traduite par le modèle de probabilité jointe suivant :

9

2.2.1 – Apprentissage du modèle

10Les paramètres du modèle [2] sont estimés suivant le principe du maximum de vraisemblance en optimisant la fonction :

La variable thématique ? n’étant pas observée, les paramètres du modèle sont estimés suivant la procédure espérance maximisation (EM) (Dempster et al., 1977). L’étape E, consiste à estimer les probabilités a posteriori de la variable latente ?. Et, à l’étape M, on ré-estime de nouveaux paramètres du modèle en maximisant la fonction de log-vraisemblance [3].

Figure 1

Deux modèles graphiques pour le clustering de documents (a) le modèle PLSA (b) notre extension de PLSA

Figure 1

Deux modèles graphiques pour le clustering de documents (a) le modèle PLSA (b) notre extension de PLSA

2.2.2 – Classification non supervisée avec PLSA

11Avec le modèle PLSA, il est également possible de partitionner les documents d’une collection donnée. En effet, la quantité p(? | d) est la probabilité d’observer la thématique ? sachant le document d, et s’interprète naturellement comme la probabilité d’appartenance du document d à la thématique ?. Ainsi, l’algorithme PLSA peut être utilisé comme un algorithme de clustering de documents, où chaque cluster correspond à une thématique. Pour partitionner les documents en clusters, il suffit alors d’attribuer à chaque document la thématique la plus probable :

12

13où les p(?|d) sont connues puisqu’elles sont apprises par le modèle. De la même manière, il est possible d’utiliser PLSA pour le clustering de mots. Pour cela, il suffit d’interpréter p(?|w) comme la probabilité d’appartenance du mot w à la thématique ?. Les probabilités p(? | w) ne sont pas disponibles directement, mais peuvent être exprimées en fonction des paramètres du modèle. Après calculs, nous obtenons :

14

15Nous remarquons que les variables latentes, A, servent dans le modèle PLSA aussi bien à partitionner les documents qu’à trouver les concepts de mots.

2.3 – Apprentissage de concepts de mots avec l’hypothèse Description de l'image par IA : H majuscule de ronde

16Nous proposons de trouver les concepts de mots grâce à l’hypothèse Description de l'image par IA : H majuscule de ronde

qui suppose que deux mots sont sémantiquement proches s’ils co-occurrent avec les mêmes fréquences dans les mêmes documents. Nous regroupons ainsi les mots d’une collection en différents groupes ou concepts et représentons les documents dans l’espace de ces concepts. Dans cette section nous présentons l’algorithme qui nous sert à trouver les concepts de mots et ensuite proposons une manière simple de représenter les documents dans l’espace des concepts ainsi trouvés.

2.3.1 – Algorithme CEM

17Pour trouver les concepts de mots nous utilisons l’algorithme classification-espérance-maximisation (CEM) (Celeux et al., 1992), qui est une version classifiante de l’algorithme EM (Dempster et al., 1977). Chaque mot devient donc un exemple des données et les clusters de mots retrouvés par CEM sont traités comme les concepts de mots.

18Le nombre de clusters de mots K étant choisi et fixé, le partitionnement des mots w du vocabulaire se base sur un modèle probabiliste génératif des mots et l’hypothèse simplificatrice que deux mots différents et sont générés indépendamment par ce modèle génératif.

19Plus formellement, nous supposons que chaque terme w est généré par le modèle de mélanges

20

21?k est l’ensemble de paramètres (appris par l’algorithme) associé au cluster k, ? est l’ensemble de tous les paramètres du modèle et ?k = p(c = k|?), la probabilité qu’un mot généré aléatoirement appartienne au cluster k.

22La deuxième hypothèse est que chaque terme appartient à un seul et unique cluster. Formellement, nous associons à chaque terme wj ? V un vecteur indicateur de cluster qj = {qhj}h qui est un vecteur binaire défini par :

23

2.3.2 – Apprentissage de concepts de mots

24L’algorithme CEM détermine les clusters de mots P en cherchant les paramètres ? qui maximisent la log-vraisemblance des données complètes :

25

Figure 1

26Ici, les vecteurs indicateurs de clusters, q, font partie des paramètres du modèle et sont donc appris simultanément avec les paramètres ?. Dans nos expériences, nous avons supposé que les termes étaient générés indépendamment par le mélange de densité [6] où chaque composante du mélange obéit à un modèle Naïve Bayes. Les paramètres ? du modèle sont l’ensemble des probabilités a priori des clusters ?k = p(c = k) et les probabilités des documents di sachant les clusters . Avec ces hypothèses, la probabilité d’un mot w est

27Pour estimer les paramètres ?k et pik qui maximisent la log-vraisemblance, nous dérivons et utilisons les multiplicateurs de Lagrange pour préserver les contraintes et nous obtenons :

28

29Une fois les concepts de mots trouvés, les documents sont alors représentés dans l’espace induit par ces concepts, où chaque nouvelle caractéristique correspond à un cluster de mots et représente le nombre total d’occurrences des mots du cluster présents dans le document.

2.4 – Extension de PLSA (ou PLSA-étendu)

30Dans cette section nous présentons notre extension du modèle PLSA décrit précédemment. Alors qu’avec PLSA les mots ne sont générés que par les thématiques, nous supposons ici que les mots du vocabulaire sont générés conjointement par les clusters de documents et les concepts de mots. Cette supposition peut s’interpréter de la manière suivante : dans une collection il existe des thématiques de documents correspondant aux différents discours présents dans la collection. À l’intérieur de ces thématiques, les documents contiennent des sujets différents. Par exemple une thématique peut être Sport et les différents sujets de cette thématique sont des sujets sportifs parlant de domaines différents. Avec le modèle PLSA, on suppose que tous les documents appartenant à une thématique génèrent de la même façon les mots de cette thématique. Dans cette étude, nous supposons que ces mots sont à la fois générés par le discours latent représenté par la thématique et les différents sujets traités dans cette thématique. Ainsi la différence principale entre notre modèle et le modèle est l’utilisation d’une variable latente supplémentaire y, qui représente les concepts de mots. Le processus génératif correspondant à notre modèle est le suivant :

  • choisir un document d suivant p(d),
  • générer une thématique ? d’après p(?|d),
  • choisir un concept de mots y suivant la probabilité p(y),
  • générer un mot w d’après p(w|?, y).
La figure 1b montre la représentation graphique de notre modèle. L’utilisation de la variable y pour modéliser les concepts de mots présente deux avantages majeurs par rapport à PLSA. Tout d’abord, grâce aux deux variables latentes ? et y, le nouveau modèle est capable de capturer les thématiques sur deux niveaux sémantiques différents : ? capture les thématiques générales de la collection, tandis que y capture des concepts de mots correspondant à des sous-thématiques. Ensuite, lorsque notre modèle est utilisé pour le clustering de documents, le nombre de clusters de documents (cardinalité de ?) peut être choisi indépendamment du nombre de concepts de mots (cardinalité de y) présents dans la collection.

Figure 1

31Avec notre modèle, la probabilité jointe d’observer le document d, le mot w, la thématique ? et le concept de mots y est donnée par

32

33Les hypothèses d’indépendance conditionnelle nous permettent ensuite d’écrire p(y | d,w) = p(y) et p(w|d, ?, y) = p(w|?, y). Finalement la probabilité jointe se simplifie en :

34

35Ainsi la probabilité jointe d’observer le document d et le mot w est

36

37où, est l’ensemble des concepts de mots.

2.4.1 – Apprentissage du modèle

38Nous estimons les paramètres P(d), P(?|d), P(y) and P(w|?, y) de notre modèle en suivant le principe du maximum de vraisemblance en optimisant la fonction de log-vraisemblance [3]. Les variables ? et y n’étant pas observées, nous utilisons l’algorithme EM pour estimer les paramètres de notre modèle (Dempster et al., 1977) Dans l’étape E, nous estimons les probabilités a posteriori des variables cachées ? et y :

39

40Dans l’étape M, nous ré-estimons les paramètres du modèle qui maximisent la log vraisemblance complète des données (equation [3]). Ces estimés sont :

41

42Nous notons que la probabilité p(d) n’intervient pas dans l’étape E et qu’elle peut être éstimée une fois de la façon suivante :

43

44Nous pouvons utiliser notre modèle pour le clustering de documents. Comme avec PLSA, nous interprétons la quantité p(?|d) comme la probabilité que le document d appartienne à la thématique ?. À chaque document est donc attribué le cluster vérifiant :

45

2.4.2 – Relation entre PLSA étendu et FMN

46La factorisation en matrices non négatives (FMN) permet d’approximer une matrice non négative F par un produit de matrices C et H : F ? HCt. La qualité de l’approximation HCt est mesurée par des fonctions de divergences de Bregman D(F||HCt) qui en général sont des fonctions asymétriques. Pour calculer la divergence entre deux matrices nous écrirons simplement . Où Xij (resp. Yij) correspond à l’élément de la ligne i et de la colonne j de la matrice X (resp. Y).

47Comme fonction de divergence, nous avons choisi dans notre travail la divergence de Kullback-Leibler (KL) définie comme :

48

49Dans la suite nous notons par DKL, cette divergence de Kullback-Leibler. Récemment, (Gaussier et al., 2005) ont montré que l’algorithme du modèle est équivalent aux lois de mise à jour de matrices C et H du modèle au sens de la divergence de Kullback-Leibler (KL) décrite dans (Lee et al., 1999). (Ding et al., 2008) ont aussi montré l’équivalence entre les deux au niveau de la construction du modèle en utilisant les deux propositions suivantes :

50

Proposition 1 La vraisemblance [3] pour le modèle PLSA est identique à la divergence KL ([14]) : .

51

Proposition 2 Le modèle FMN avec les matrices normaliées est equivalent à la factorisation de la probabilité, l’équation [2], i.e. (HCt)ij = P(di, wj), ?(i, j).

52Nous étendons ce résultat en montrant que notre extension de PLSA est équivalente à une combinaison linéaire de FMN, ou à une factorisation avec une mixture des éléments non négatifs :

53

Proposition 3 Le modèle PLSA étendu d’après l’équation [8] est équivalent à une combinaison linéaire de modèles FMN.

54

Preuve 1 Nous réécrivons le modèle PLSA étendu à partir de l’équation [8] :

55

56D’après la proposition 2, pour une matrice L1-normalisée F, chacun des termes est equivalent à une FMN (HCtl )ij . De plus, à partir de la proposition 1, la maximisation de la vraisemblence est équivalente à la minimisation de la divergence

57

58À partir de ces deux résultats il s’ensuit que PLSA étendu peut être considéré comme une combinaison linéaire de modèles FMN.

3 – Résultats expérimentaux

59Nos objectifs ici sont (a) de vérifier l’efficacité de l’espace de concepts induit par l’algorithme CEM et, (b) de montrer que la prise en compte de la variable latente associée aux concepts de mots dans la version étendue de PLSA est valide. À noter que si nos algorithmes fonctionnent de manière non supervisée, notre évaluation expérimentale est réalisée à partir de corpus de documents étiquetés. En effet, nous évaluons la pertinence de l’hypothèse Description de l'image par IA : H majuscule de ronde

et celle de nos algorithmes par leur capacité à retrouver les thématiques latentes dans un corpus de documents. Nous avons donc besoin de corpus dans lesquels les documents sont déjà regroupés par thématique. Dans la suite de cette section, nous examinons d’abord les performances du clustering de documents obtenu dans l’espace de concepts induit par l’hypothèse Description de l'image par IA : H majuscule de ronde, par le modèle PLSA avec le résultat du clustering de documents dans l’espace sac de mots. C’est-à-dire que les concepts de mots sont trouvés par deux moyens, clustering de mots par CEM ou celui par PLSA. Nous avons utilisé l’algorithme CEM comme technique de clustering de documents. Nous avons aussi comparé les performances de l’algorithme PLSA dans l’espace sac de mots et dans l’espace de concepts par CEM, avec son extension introduite dans la section 2.4.

3.1 – Le corpus

60Pour l’évaluation, nous avons construit nos bases à partir de trois collections de documents standard. La première est la collection Reuters[1]. Nous nous sommes intéressés aux 7 classes les plus représentées (acq, crude, earn garin, interest, money, trade) dans cette collection avec un nombre total de 4 335 documents. La deuxième est la collection 20Newsgroups[2] qui est construite à partir de 20 forums différents de discussion Usenet. Nous utilisons 5 groupes parmi eux contenant 16 010 documents au total. La troisième collection est le corpus WebKB[3] (4 universités). Nous avons choisi de travailler dans ce cas sur les 4 classes les plus larges avec un nombre comprenant 4 196 articles. Notre prétraitement consiste à filtrer le texte en enlevant les balises HTML, à convertir les majuscules en minuscules et à enlever les caractères non alphanumériques. Nous filtrons également les mots suivant un anti-dictionnaire anglais [4] ainsi que les mots qui apparaissent dans moins de 3 documents. Le vocabulaire obtenu après ce filtrage est constitué de 6 990 mots pour Reuters, de 38 630 mots pour 20Newsgroups et de 11 170 mots pour le corpus WebKB. Le tableau 1 récapitule les caractéristiques des trois collections.

61Dans nos expériences, nous avons divisé chaque collection en 10 sous-ensembles en préservant dans chacun d’eux les proportions entre les différentes classes. Cette division est nécessaire pour éviter des biais causés par la structure de chaque collection, et pour atténuer les effets des initialisations aléatoires utilisées dans les algorithmes. Pour les résultats expérimentaux, les performances présentées sont ainsi une moyenne de 10 performances obtenues sur chacun des sous-ensembles. Le maintien de la proportion dans chaque sous-ensemble est important, car cela permet de juger si la nouvelle représentation des documents permet de mieux retrouver les petites classes que la représentation initiale dans l’espace des mots.

Tableau 1

Les caractéristiques des collections Reuters, 20Newsgroups et WebKB

Tableau comparatif des tailles des classes pour Reuters, 20Newsgroups et WebKB.
Reuters Classe taille pour. % earn 2002 46.2 acq 1080 24.9 money 362 8.4 crude 295 7.0 grain 283 6.5 trade 207 4.8 interest 106 2.4 20Newsgroups Classe taille pour. comp. 4891 30.5 sci. 3951 24.7 rec. 3253 20.3 talk. 3116 19.5 alt. 799 5.0 WebKB Classe taille pour. % student 1641 39.1 faculty 1123 26.8 course 930 22.1 project 504 12.0

Les caractéristiques des collections Reuters, 20Newsgroups et WebKB

3.2 – Mesure d’évaluation

62Afin d’évaluer la pertinence des partitions obtenues, nous devons savoir à quelle classe initiale correspond chaque cluster appris. Pour cela, nous suivons l’approche de (Slonim et al., 2002) et nous attribuons à chaque cluster sa classe majoritaire, c’est-à-dire la classe originale la plus représentée dans chaque cluster de documents. Nous comparons ensuite les performances des différentes méthodes, en calculant des mesures d’évaluation sur les clusters obtenus. Afin d’évaluer les résultats, nous utilisons les trois mesures d’évaluation les plus répandues en clustering de documents à savoir, la micro-moyenne de précision, le rappel, et l’information mutuelle normalisée (IMN).

Précision et Rappel

63Pour chaque classe Cl, nous avons estimé les quantités suivantes :

  • ?(Cl) : Le nombre de documents correctement affectés à Cl
  • ?(Cl) : Le nombre de documents incorrectement affectés à Cl
  • ?(Cl) : Le nombre de documents incorrectement non affectés à Cl
La précision pour une classe est définie comme . Le rappel pour une classe est défini comme . La micro-moyenne des précisions est définie comme suit :

64

65Par définition, il est à noter que les micro-moyennes des précisions et des rappels sont égaux (Slonim et al., 2002) :

66

Information mutuelle normalisée

67Pour l’IMN, nous la calculons en normalisant l’information mutuelle entre deux partitions, l’une correspondant à l’ensemble des vraies classes, et l’autre au partitionnement à évaluer (Strehl et al., 2002). Comme la précision, la valeur de IMN est comprise entre 0 et 1 et elle est égale à 1 quand les deux partitions sont identiques.

68Pour toutes les classes, IMN est estimée en utilisant l’équation suivante :

69

70n est le nombre total de documents, nh est le nombre de documents dans le cluster Ch, nl est le nombre de documents appartenant à la classe l, nh,l est l’intersection des documents dans le cluster Ch et dans la classe l, et c est le nombre de classes dans la collection, qui est aussi le nombre de clusters dans nos expériences.

3.3 – Résultats

71Les expériences avec des nombres variés de concepts de mots sont nécessaires pour trouver le nombre de concepts donnant le meilleur résultat, et pour vérifier l’influence sur les résultats du nombre de concepts. Pour trouver l’espace de concepts par CEM nous avons varié le nombre de clusters de mots à partir de 10 jusqu’à 80 pour la collection Reuters, et de 10 à 100 pour 20Newsgroups et WebKB. Pour des valeurs plus grandes du nombre de concepts de mots, les partitions obtenues avec l’algorithme CEM comportaient des clusters vides. Nous avons donc considéré avoir atteint les nombres de concepts maximaux pour les trois collections. Pour le clustering de mots par PLSA, nous avons utilisé le même nombre de concepts que CEM. Pour le nouveau modèle, nous avons fait varier le nombre de concepts associé à y empiriquement, en considérant la taille des documents et le nombre des classes.

72Le tableau 2 montre les performances en clustering de l’algorithme CEM lorsque les documents sont représentés dans l’espace sac de mots (algorithme CEM) et dans l’espace de concepts (algorithme C-CEM) sur les trois bases Reuters, 20Newsgroups et WebKB. Sur les trois collections et dans la majorité des cas, les précisions, rappels et micro-moyennes de Précision de l’algorithme C-CEM sont supérieurs à l’algorithme CEM. De plus, le clustering dans l’espace des concepts permet de mieux identifier les classes de taille moyenne dans la collection qui sont totalement phagocytées en partitionnant les documents dans l’espace sac de mots. Ainsi avec la collection Reuters, les rappels de chacune des classes se sont tous améliorés sauf pour la plus grande classe earn. Alors que cette dernière a tendance à absorber les documents des autres classes lorsque nous faisons le clustering dans l’espace des mots, nous constatons que ce phénomène est atténué lorsque le clustering est effectué dans l’espace des concepts. Par exemple, la classe trade, qui n’a jamais été trouvée avant la réduction dimensionnelle, devient visible dans l’espace des concepts. Nous constatons des résultats similaires sur les collections 20Newsgroups et WebKB. Après la réduction dimensionnelle en utilisant les concepts, les trois classes sci., rec. et talk. de 20Newsgroups et les course, faculty et project de WebKB sont mieux extraites, et dans ce cas les améliorations sont plus grandes que dans le cas de Reuters.

Tableau 2

Mesures de précisions et de rappels (moyennées sur 10 sous-bases),micromoyenne de précision et micro-moyenne de rappel obtenues dans l’espace de sac de mots et dans l’espace de concepts par l’algorithme CEM pour un nombre de concept de mots égal à 10

Tableau 2
Reuters Précision Rappel CEM C-CEM CEM C-CEM earn 0.77? 0.89 0.93 0.84? acq 0.43? 0.65 0.60? 0.77 money 0.35? 0.41 0.26? 0.48 crude 0.34? 0.46 0.57? 0.48 grain 0.43? 0.52 0.13? 0.54 trade 0 0.37 0 0.22 interest 0 0 0 0 Moyen 0.61? 0.70 0.61? 0.70 WebKB Précision Rappel CEM C-CEM CEM C-CEM student 0.47? 0.72 0.83 0.77? faculty 0.41? 0.55 0.21? 0.64 course 0.58? 0.86 0.36? 0.77 project 0.37? 0.45 0.10? 0.29 Moyen 0.48? 0.68 0.48? 0.68 20Newsgroups Précision Rappel CEM C-CEM CEM C-CEM comp. sci. 0.62? 0.57? 0.76 0.78 0.92 0.37? 0.87? 0.62 rec. 0.60? 0.67 0.72? 0.89 talk. 0.67? 0.84 0.50? 0.78 alt. 0 0 0 0 Moyen 0.62? 0.75 0.62? 0.75

Mesures de précisions et de rappels (moyennées sur 10 sous-bases),micromoyenne de précision et micro-moyenne de rappel obtenues dans l’espace de sac de mots et dans l’espace de concepts par l’algorithme CEM pour un nombre de concept de mots égal à 10

73La figure 2 présente les résultats du clustering de documents sur les bases Reuters, 20Newsgroups et WebKB avec l’algorithme CEM dans l’espace sac de mots et les espaces de concepts induits avec l’hypothèse Description de l'image par IA : H majuscule de ronde

 (C-CEM) et l’algorithme PLSA (P-CEM) pour différents nombres de concepts de mots, et aussi avec l’algorithme PLSA dans l’espace original. Nous rappelons que l’algorithme PLSA n’utilise pas de concepts de mots, et ses résultats sont donc représentés par une ligne horizontale sur les figures. Nous remarquons que les performances de l’algorithme dans l’espace induit avec l’hypothèse Description de l'image par IA : H majuscule de ronde sont généralement bien supérieures à celles obtenues dans l’espace de concepts induit par PLSA. Bien que l’espace de concepts induit par PLSA obtienne de meilleurs résultats que l’espace original (CEM), il est toujours moins bon que l’espace de concepts induit par notre hypothèse (C-CEM). Ces résultats montrent que la prise en compte des dépendances locales de termes, ici via l’hypothèse Description de l'image par IA : H majuscule de ronde, permet de trouver d’une manière pertinente les thématiques présentes dans une collection. Nous remarquons aussi que le clustering de documents dans l’espace de concepts induit par PLSA est moins bon que le clustering de documents avec l’algorithme PLSA dans l’espace des mots (PLSA). Ceci nous amène à penser que si PLSA était capable de modéliser les concepts de mots d’une manière indépendante de sa modélisation des clusters de documents, ses performances en clustering de documents dans l’espace des mots pourraient être améliorées. Ces résultats rejoignent les remarques formulées à la section 2.4.

Figure 2

Précision moyenne (a) et la moyenne des IMN (b) de l’algorithme du clustering dans l’espace sac de mots (CEM) et l’espace de concepts induit par l’hypothèse Description de l'image par IA : H majuscule de ronde (C-CEM) et PLSA (P-CEM)

Description de l'image par IA : Graphiques comparant précision moyenne et IMN pour différents algorithmes de clustering.

Précision moyenne (a) et la moyenne des IMN (b) de l’algorithme du clustering dans l’espace sac de mots (CEM) et l’espace de concepts induit par l’hypothèse Description de l'image par IA : H majuscule de ronde (C-CEM) et PLSA (P-CEM)

74Dans la figure 3 nous montrons les performances des modèles PLSA et sa variante PLSA-étendu (section 2.4) ainsi que la performance du modèle FMN avec la norme de Fabenius. Nous remarquons que sur les bases Reuters et 20Newsgroups, le modèle PLSA-étendu a de meilleures performances que PLSA, et ceci quel que soit le nombre de concepts choisis. Si on prend le meilleur résultat du modèle PLSA-étendu, l’écart des performances entre ce modèle et le modèle PLSA est approximativement de 7 % sur Reuters et 6 % sur 20Newsgroups. On constate les mêmes conséquences sur les moyennes des IMN. Pour la base WebKB, les performances du modèle PLSA-étendu sont presque toujours meilleures que celles de PLSA (sauf pour un nombre de concepts égal à 10). Ces résultats suggèrent que la réduction de dimension est dépendante de la dimension de départ : au moins 20 concepts de mots sont nécessaires pour obtenir de bonnes performances sur la base WebKB (pour un vocabulaire initial de 11 170 mots), alors que 10 concepts suffisent sur (pour un vocabulaire de 6 990 mots). Cette constatation empirique coïncide avec l’intuition que dans un texte, le nombre de mots a tendance à augmenter avec le nombre de thématiques qui sont abordées. Nous remarquons également qu’il y a un grand écart entre les performances PLSA et FMN avec la norme de Fabenius sur 20Newsgroups et WebKB où les tailles de la dimension de départ sont plus grandes que la taille de la base Reuters. Cette différence peut être due à l’utilisation de la norme quadratique qui n’est pas pertinente dans les grands espaces dimensionnels.

75Nous présentons finalement dans le tableau 3, une comparaison entre les différentes méthodes de clustering. Les résultats présentés dans le premier tableau sont les précisions moyennes sur les 10 sous-ensembles des collections Reuters, 20Newsgroups et WebKB. Nous avons calculé les précisions moyennes pour différentes valeurs de nombre de concepts de mots. La meilleure précision moyenne est la meilleure de ces moyennes. Le deuxième tableau représente les valeurs IMN moyennes ; celles-ci sont calculées pour le nombre de concepts de mots qui correspond à la meilleure précision moyenne. Comme le modèle PLSA n’utilise pas de concepts de mots, nous prenons seulement la précision moyenne et l’IMN moyen sur 10 sous-ensembles pour ce modèle. Pour les meilleures précisions moyennes, les approches C-CEM et PLSA ont obtenu des performances similaires, elles-mêmes supérieures aux autres méthodes dans les trois collections. Les améliorations des deux meilleures méthodes par rapport aux autres dans la collection WebKB sont plus grandes que celles dans la collection Reuters. Pour les IMNs, les deux méthodes C-CEM et PLSA-étendu obtiennent toujours de meilleures performances. Plus précisément la méthode C-CEM est légèrement meilleure que le PLSA-étendu sous la mesure de pour la collection Reuters, et inversement pour les collections 20Newsgroups et WebKB. En résumé, sur les trois collections de documents et pour les deux mesures de performances, nous trouvons que les approches C-CEM et PLSA-étendu ont des performances équivalentes, et sont toutes les deux meilleures que les quatre algorithmes CEM, P-CEM, PLSA et C-PLSA.

Figure 3

Précision moyenne (a) et la moyenne des IMN (b), performances du clustering de documents avec PLSA (?) et PLSA-étendu (?) par rapport aux performances avec C-PLSA (?) et FMN (?)

Description de l'image par IA : Graphiques comparant la précision moyenne et les IMN moyennes pour différents concepts de mots dans Reuters, 20Newsgroups et WebKB.

Précision moyenne (a) et la moyenne des IMN (b), performances du clustering de documents avec PLSA (?) et PLSA-étendu (?) par rapport aux performances avec C-PLSA (?) et FMN (?)

Tableau 3

Meilleure précision moyenne et l’IMN correspondant aux différents algorithmes. Les symboles ? indiquent les cas où les algorithmes ont des performances inférieures à la performance du meilleur algorithme, qui est indiquée est en gras

Tableau comparatif de mesures pour différents algorithmes et collections.
Measure Collection CEM P-CEM C-CEM PLSA C-PLSA PLSA-étendu Prec. moy. Reuters 20Newsgroups WebKB .61 .62 .48 .68 .69 .60 .70 .75 .68 .64 .71 .61 .69 .71 .65 .71 .77 .68 Reuters .27 .40 .44 .39 .42 .42 IMN 20Newsgroups .36 .40 .53 .49 .49 .54 WebKB .11 .28 .32 .28 .28 .36

Meilleure précision moyenne et l’IMN correspondant aux différents algorithmes. Les symboles ? indiquent les cas où les algorithmes ont des performances inférieures à la performance du meilleur algorithme, qui est indiquée est en gras

4 – Conclusion

76Dans cet article, nous avons proposé deux contributions au problème du clustering de documents. Notre première contribution s’incrit dans le cadre de la réduction dimensionnelle des documents, via l’utilisation des concepts de mots. Nous avons validé expérimentalement l’hypothèse selon laquelle deux mots qui co-occurrent avec les mêmes fréquences dans les mêmes documents sont sémantiquement liés, et devraient appartenir au même concept. Les expériences menées montrent que les concepts de mots obtenus permettent de déterminer une nouvelle représentation plus pertinente des documents, et d’améliorer les performances en clustering de documents. Notre seconde contribution est une extension de l’algorithme PLSA. Contrairement à l’algorithme PLSA initial, notre approche est capable de dissocier les thématiques des clusters de documents grâce à l’incorporation d’une variable latente modélisant les concepts de mots. Là aussi, nous avons observé une amélioration des performances en clustering de documents. Nos deux contributions confirment l’intérêt d’utiliser des concepts de mots pertinents pour traiter des données textuelles. Dans nos travaux futurs, nous voulons compléter la validation expérimentale de nos deux approches sur d’autres collections de textes plus difficiles, et également pour d’autres tâches (comme la classification supervisée par exemple). Nous voulons également étudier plus précisément les limites de notre hypothèse Description de l'image par IA : H majuscule de ronde

. Le fait par exemple, que deux mots synonymes ayant des occurrences différentes ne seront pas forcément regroupés dans le même concept. Une piste à explorer concerne l’utilisation de ressources linguistiques externes (comme par exemple des dictionnaires de synonymes), et plus précisément l’incorporation de ces ressources à nos algorithmes pour aider à déterminer des concepts de mots plus pertinents.

Remerciements

Ce travail a été partiellement financé par le programme IST de la Communauté Européenne, dans le cadre du réseau d’excellence PASCAL2, IST-2002-506778 ainsi que par le projet ANR S?ptia.

5. Bibliographie

  • Caillet M., Pessiot J.-F., Amini M., Gallinari P., « Unsupervised Learning with Term Clustering for Thematic Segmentation of Texts », Proceedings of RIAO’04, p. 648-656, 2004.
  • Celeux G., Govaert G., « A Classification EM algorithm for clustering and two stochastic versions », Computational Statistics and Data Analysis, vol. 14, n° 3, p. 315-332, 1992.
  • Cutting D., Karger D., Pederson J., Tukey J., « Scatter/Gatter : A Cluster Approach to Browsing Large Document Collections », ACM SIGIR 92, p. 318-329, 1992.
  • Deerwester S. C., Dumais S. T., Landauer T. K., Furnas G. W., Harshman R. A., « Indexing by Latent Semantic Analysis », Journal of the American Society of Information Science, vol. 41, n° 6, p. 391-407, 1990.
  • Dempster A. P., Laird N. M., Rubin D. B., « Maximum Likelihood from Incomplete Data via the EM Algorithm », Journal of the Royal Statistical Society. Series B (Methodological), vol. 39, n° 1, p. 1-38, 1977.
  • Dhillon I. S., Modha D. S., « Concept Decompositions for Large Sparse Text Data Using Clustering », Machine Learning, vol. 42, n° 1/2, p. 143-175, 2001.
  • Ding C., Li T., Peng W., « On the equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing », Computational Statistics and Data Analysis, vol. 52, p. 3913-3927, 2008.
  • Gaussier E., Goutte C., « Relation between PLSA and NMF and implications », Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, p. 601-602, 2005.
  • Hofmann T., « Probabilistic latent semantic indexing », ACM SIGIR 99, p. 254-261, 1999.
  • Kummamuru K., Lotlikar R., Roy A., Signal K., Krishnapuram R., « Monothetic Document Clustering Algorithm for Summarization and Browsing Search Results », In ACM WWW’s04, 2004.
  • Lee D. D., Seung H. S., « Learning the parts of objects by non-negative matrix factorization. », Nature, vol. 401, n° 6755, p. 788-791, October, 1999.
  • Salton G., McGill M. J., Introduction to Modern Information Retrieval, McGraw-Hill, Inc., New York, NY, USA, 1986.
  • Slonim N., Tishby N., « Unsupervised Document Classification using Sequential Information Maximization », ACM SIGIR, p. 129-136, 2002.
  • Strehl A., Ghosh J., « Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions », Journal on Machine Learning Research (JMLR), vol. 3, p. 583-617, 2002.
  • Van Rijsbergen K., Information Retrieval, Butterworths, London, 1979.
  • Xu J., Croft W., « Cluster-based Language Models for Distributed Retrieval », ACM SIGIR 99, p. 254-261, 1999.
  • Yang Y., Pedersen J. O., « A comparative study on feature selection in text categorization », in, D. H. Fisher (ed.), Proceedings of ICML-97, 14th International Conference on Machine Learning, Morgan Kaufmann Publishers, San Francisco, US, Nashville, US, p. 412-420, 1997.

Mots-clés éditeurs : apprentissage non supervisé, partition de mots, partitionnement de documents

Date de mise en ligne : 20/08/2010