Un modèle de mixture de modèles génératifs pour les documents structurés multimédias
Application à la classification de documents XML et HTML
- Par Ludovic Denoyer
- et Patrick Gallinari
Pages 35 à 54
Citer cet article
- DENOYER, Ludovic
- et GALLINARI, Patrick,
- Denoyer, Ludovic.
- et al.
- Denoyer, L.
- et Gallinari, P.
Citer cet article
- Denoyer, L.
- et Gallinari, P.
- Denoyer, Ludovic.
- et al.
- DENOYER, Ludovic
- et GALLINARI, Patrick,
1 – Introduction
1Le développement du web et le nombre croissant de documents électroniques disponibles ont permis l’émergence de formats semi-structurés permettant la représentation et le stockage de documents textuels ou multimédias. Différents formats comme le HTML, le XHTML ou le XML sont aujourd’hui très populaires. Ces formats prennent en compte la structure logique des documents et permettent d’enrichir le contenu à l’aide de différents descripteurs ou métadonnées. Ils sont utilisés pour faciliter le stockage et l’accès à l’information.
2Nous étudions ici le problème de la classification de documents structurés multimédias. Nous considérons des documents structurés où les médias sont multiples (texte, image, son…). La classification supervisée de documents est une problématique générique de la recherche d’informations. Elle est utile pour différentes tâches telles que le filtrage d’email ou de Spam, l’indexation de documents, l’organisation de corpus, notamment sous forme hiérarchique, etc. Les modèles actuels ont été développés avant l’émergence des documents structurés et ils ne sont pas adaptés à ce nouveau type de documents. Quelques tentatives ont été réalisées pour la classification de documents plus complexes (XML ou multimédias par exemple). Ces approches sont basées sur la combinaison de classifieurs « plats » et sont spécifiques à certains types de documents ; une méthode ne fonctionnera par exemple que pour les pages HTML et pas pour les documents XML en général.
3Nous proposons pour la classification de documents structurés un modèle général qui permet la prise en compte simultanée de l’information de structure et de l’information de contenu des documents électroniques. Cette approche permet également l’intégration de manière naturelle de différentes sources d’information (texte et image par exemple). Il s’agit d’un modèle statistique basé sur le formalisme des réseaux bayésiens.
4L’article est organisé de la manière suivante : tout d’abord, nous présentons un état de l’art dans le domaine du traitement des documents structurés axé sur la classification ; nous décrivons ensuite le modèle général proposé et détaillons deux instances de ce modèle, l’une pour les documents structurés textuels et l’autre pour les documents structurés constitués de texte et d’images ; nous voyons ensuite comment transformer le modèle en un modèle discriminant plus performant à l’aide du formalisme du noyau de Fisher ; nous présentons finalement les résultats obtenus sur trois bases de données différentes de grande taille.
2 – Etat de l’art
5De nombreux travaux ont été consacrés à la tâche de classification de documents qu’ils soient textuels ou sous forme d’image. Cependant, peu concernent la classification de documents structurés et/ou multimédias dont l’émergence et l’exploitation massive est récente. La plupart des modèles proposés concernent uniquement les documents « plats ». La représentation dite en « sac de mots » est la plus utilisée par les modèles de classification.
6Les classifieurs utilisés en texte comme ailleurs, sont soit des modèle génératifs qui estiment les densités conditionnelles des différentes classes P(document/class)soit des modèles discriminants qui estiment directement les probabilités P(document/class)P(class/document). Par exemple, le modèle Naïve Bayes ([LEW 98]) est un modèle génératif fréquemment utilisé en texte tandis que le modèle des machines à vecteurs supports est actuellement souvent cité pour la classification de documents textuels. Sebastiani ([SEB 02]) propose une revue complète des différents modèles de classification de documents textuels plats.
7Nous allons tout d’abord présenter les travaux concernant la classification de documents structurés puis nous ferons un état de l’art des travaux concernant les documents multimédias. Il n’y a pas à notre connaissance de travaux permettant de traiter de façon générique les documents structurés multimédias.
8La plupart des classifieurs sont conçus pour le traitement de vecteurs ou de séquences et très peu de modèles permettent la prise en compte simultanée de l’information de structure et de contenu. L’importance croissante des documents structurés a cependant récemment suscité l’intérêt de la communauté de l’apprentissage pour ce type de modèles. Il y a quelques années, le développement du web a fait naître le besoin de développer des classifieurs pour les pages HTML (voir les deux dernières compétitions TREC). Dans les pages HTML, les différentes parties d’une page n’ont pas la même importance. Les titres, les tableaux et les liens peuvent être considérés comme différentes sources d’information. La plupart des techniques développées prennent en considération une information a prioriconcernant spécifiquement la sémantique introduite par le format HTML. Ces techniques utilisent habituellement une combinaison de classifieurs sur les différentes parties des pages rencontrées ([DUM 00], [YAN 02]). Ces premières tentatives de classification de documents structurés montrent que la combinaison de différents types d’informations peut parfois accroître les scores de bonne classification. Plus récemment, des méthodes ont été développées pour la classification de documents structurés génériques (par opposition aux documents HTML). Par exemple, Yi ([YI 00]) présente une extension du modèle Naïve Bayes pour les documents semi-structurés où les estimateurs globaux usuels de densité de mots d’un document sont remplacés par des estimateurs locaux qui dépendent du chemin permettant d’arriver à un nœud du document structuré. L’inconvénient de cette technique est le nombre important de paramètres qui ne peuvent pas être estimés de manière robuste. Le modèle proposé par Diligenti ([DIL 01] à base d’arbre de Markov cachés (Hidden Tree Markov Model - HTMM) étend les modèles de Markov cachés à la génération de documents structurés en arbres. Le modèle permet l’apprentissage d’un HTMM pour la génération de ces arbres. Ce modèle a été utilisé pour la classification de pages HTML. Piwowarski et al. ([PIW ]) propose un modèle discriminant à base de réseaux bayésiens qui calcule directement la probabilité a posteriori correspondante à la pertinence d’un document pour chacune des classes du problèmes.
9La classification de documents multimédias est un sujet de travail relativement récent. Par exemple, Cascia et al. ([CAS 98]) proposent un système qui combine des statistiques textuelles et visuelles en un seul et unique vecteur permettant la représentation d’un document. Barnard et al. ([BAR 01]) présentent un modèle génératif hiérarchique où les données sont décrites par une hiérarchie fixe de nœuds. Dans l’article de Ortega et al. ([ORT 99]), les différents objets sont décrits par des vecteurs de caractéristiques qui sont ensuite combinées. Plus récemment, une méthode permettant de lever les ambiguïtés sur les mots a été proposée par Barnard ([BAR 03]). Pour la tâche de filtrage de sites web, ([CHA 99], [JON 02]) s’intéressent à la classification d’images pornographiques en s’aidant également du contenant textuel. Mais ces approches ne considèrent pas le contexte global contenu dans les documents et ignorent les relations entre les différentes parties des documents.
3 – Modèle proposé
10Dans cette section, nous décrivons un modèle de documents structurés multimédias à structure explicite (de type XML). Nous présentons un modèle général puis eux instances du modèle, l’une pour les documents uniquement textuels et l’autre appliquée aux pages web texte + image.
Document structuré
11Nous représentons un document structuré comme un graphe orienté sans cycle (DAG pour Directed Acyclic Graph), ce qui correspond à la représentation usuelle utilisée dans les langages à base de balises (HTML et XML). Chaque nœud du graphe représente une entité structurelle(paragraphe, titre, section…) du document et chaque arc représente une relation hiérarchique entre 2 entités (par exemple, un paragraphe est inclus dans une section, deux paragraphes se suivent, etc.). Pour garder un niveau de complexité raisonnable, nous ne considérons pas les relations circulaires entre les nœuds qui pourraient apparaître pour certains types de documents (par exemple des sites web).
12Chaque nœud du DAG est composé d’une étiquetteet d’un contenu. Une étiquette peut par exemple être section, paragraphe, titre et représente la « sémantique » de l’unité structurelle. Le contenu d’un nœud peut être un morceau de texte (on parlera de contenu textuel), une image, un son, une vidéo, etc.
13Un document structuré contient alors trois types d’information :
- une information d’organisation contenue dans les arcs du DAG,
- une information d’étiquette contenue dans les étiquettes des nœuds,
- une information de contenu (texte, image, son…).
Un exemple de document structuré
Un exemple de document structuré
3.2 – Le modèle génératif de document
14Nous faisons l’hypothèse que, pour chaque type d’information, nous possédons un modèle génératif permettant de calculer une estimation de la probabilité d’un document plat constitué uniquement de ce type d’information. Cette hypothèse est peu restrictive car, pour chaque type d’information rencontrée, plusieurs modèles génératifs ont déjà été développés (image, son, texte…).
3.3 – Notations
15Nous définissons les notations suivantes :
- d un document (nous ne ferons pas de différence entre un document et le graphe qui le représente).
- sd la structure du document, donnée par l’ensemble des couples
pour i de 1 à |sd| · |sd| représente le nombre de nœuds du document,
correspond à l’étiquette du nœud i où ? représente l’ensemble des étiquettes possibles (décrites, pour un document XML, dans la DTD; par exemple : TITLE, H1… pour le XHTML),
représente l’ensemble des nœuds parents du nœud i. Cette relation définit l’information organisationnelle du document.
- td l’information de contenu. td est l’ensemble
pour i de 1 à |sd| où tidest l’information de contenu du nœud i. Nous faisons l’hypothèse que, pour une étiquette donnée, l’information est toujours de même nature (une certaine étiquette ne contient soit que du texte soit que de l’image mais ne peut contenir, dans un document du texte et dans un autre de l’image). Cette hypothèse peut, dans le cas où elle ne correspond pas à la réalité des documents, être respectée par l’ajout de tags supplémentaires.
- ? est l’ensemble des paramètres de notre modèle génératif. ? est l’ensemble
pour l ? ?. Nous considérons que nous possédons un ensemble de paramètres pour chaque valeur d’étiquette possible tel que, pour tout nous pouvons calculer la probabilité.
.Le vecteur ?s correspond lui aux paramètres permettant le calcul de la probabilité structurelle tel que
(par simplification, nous noterons
).
3.3.1 – Composantes du modèle génératif
16Nous nous plaçons dans un cadre probabiliste. Un document sera décrit par un réseau bayésien, ce formalisme permet de modéliser à la fois l’information de contenu et les relations entre les contenus. Chaque nœud du réseau bayésien correspond soit à une étiquette (un nœud du DAG), soit à un des éléments de contenu (le contenu attaché à un nœud du DAG).
17Un corpus sera alors représenté par un ensemble de réseaux bayésiens (un par document). Le modèle des réseaux bayésiens représentera le modèle de génération des documents structurés. Ce processus de génération peut être vu de la façon suivante : une personne voulant créer un document d’une certaine classe va successivement et récursivement créer l’organisation du document et le contenu correspondant. Par exemple, il décide que son document aura un titre, puis choisit ce titre ; il y ajoute une section contenant l’introduction du document puis un paragraphe avec une image, etc.
18Nous avons :
20Où P(sd|?) est appelée probabilité structurelle et P(td|sd|?) est appelée probabilité de contenu. Nous allons maintenant détailler les composantes de la probabilité structurelle puis celle de la probabilité de contenu.
3.3.2 – Probabilité structurelle
21La probabilité structurelle P(sd) est encodée par les étiquettes et les arcs du DAG. La structure du document d sera représentée par un réseau bayésien calqué sur le graphe représentant le document. Cependant, nous nous permettrons d’envisager différents types de dépendances (séquence, inclusion) afin d’essayer d’avoir une modélisation plus fine de l’organisation d’un document. La probabilité d’un tel document s’écrit :
Deux modélisations possibles de la structure
Deux modélisations possibles de la structure
22Pour avoir une estimation robuste de nos paramètres, nous considérons que les réseaux bayésiens de tous les documents partagent les mêmes paramètres ?. Ainsi, pour les paramètres de structure, nous faisons l’hypothèse que les probabilités ne dépendent que des étiquettes des nœuds sid et
. Cette probabilité sera notée
.
23Plusieurs réseaux bayésiens peuvent être associés à un document. La figure 2 nous montre deux exemples de réseaux bayésiens correspondant à deux modélisations différentes de la structure du document de la figure 1. Dans la seconde, on modélise uniquement l’inclusion tandis que dans la première, on modélise l’inclusion (flèches verticales) ainsi que la séquence (flèches horizontales). Les modèles présentés sont une simplification de la réalité : ils ne prennent en compte qu’une partie des relations entre les différents éléments d’un document. Ce choix résulte d’un compromis entre capacité et complexité. Il s’agit en l’occurrence de réaliser lors de l’apprentissage une estimation robuste des paramètres en limitant leur nombre (égal à card(? × ?)), et également de réaliser des inférences exactes à faible coût.
3.3.3 – Probabilité de contenu
24La modélisation de la probabilité du contenu suit les hypothèses suivantes :
- les différents éléments de contenu sont indépendants les uns des autres,
- la probabilité du contenu ne dépend que de l’étiquette qui contient cette information,
- cette probabilité suit le modèle génératif choisi pour le type d’information modélisé.
26Rappelons que la probabilitéest la probabilité calculée par le modèle génératif choisi pour modéliser le type d’information contenu par les nœuds d’étiquette Nous détaillerons plus loin le modèle dans le cas où cette probabilité est estimée en utilisant le modèle classique Naïve Bayes.
3.3.4 – Réseau bayésien final
27Par la suite, nous retenons la modélisation correspondant au modèle numéro 2 (les deux modèles donnent des résultats très similaires). Les hypothèses précédentes conduisent alors à la modélisation de notre document par le réseau bayésien représenté en figure 3. Les probabilités conditionnelles entre les nœuds terminaux (nœuds de contenu) et leurs parents sont estimées directement par comptage. Le modèle global peut ainsi être vu comme un modèle de mélange de modèles génératifs.
Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure
Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure
3.3.5 – Apprentissage
29Afin de pouvoir utiliser notre modèle, nous devons passer par une phase d’apprentissage permettant l’estimation des paramètres du réseau. Rappelons que les paramètres ? sont de deux natures :
- le vecteur
avec (i, j) ? ? × ? correspondant aux probabilités structurelles,
- les vecteurs ?i pour i ? ? correspondant aux paramètres du modèle génératif choisi pour la modélisation de l’information des nœuds d’étiquette i
30Soit DTRAINla base d’apprentissage.La log-vraisemblance de ces documents est :
32Les deux termes (probabilité structurelle et probabilité de contenu) de notre somme ne partageant pas de paramètre, la maximisation de L revient à la maximisation indépendante des deux termes.
3.3.5.1 – Apprentissage des paramètres de structure ? s
33Nous voulons maximiser :
35sous la contrainte .
36En utilisant la méthode des multiplicateurs de Lagrange, on résout :
38Pour tous les couples (n,m) ? ?.
39Soit Nn,m, le nombre de fois qu’un nœud d’étiquette n a son parent d’étiquette m pour tous les documents de DTRAIN, nous avons alors :
41Afin d’accroître la fiabilité de nos estimations, nous utiliserons un lissage :
43La complexité de cet apprentissage est (linéaire en fonction de la taille des arbres des documents).
3.3.5.2 – Apprentissage des paramètres de contenu ? i
44Nous voulons maximiser la log-vraisemblance :
3.4 – Une instance particulière : contenu textuel et estimation des densités conditionnelles par Naïve Bayes
45Nous présentons maintenant de façon détaillée une instance du modèle, elle concerne la classification de documents structurés textuels uniquement et utilise comme modèle génératif de texte le modèle classique Naïve Bayes.
46Nous posons les notations suivantes :
pour k ?[1..|tid|] avec|tid|le nombre de mots de l’élément i dans le document d et
représente le k ? ieme mot de tid. Les mots sont à valeur dans un vocabulaire noté V.
48L’équation globale de notre modèle devient alors :
50Un tel modèle correspond au réseau bayésien présenté en figure 4.
Le réseau bayésien final pour le modèle textuel
Le réseau bayésien final pour le modèle textuel
3.4.1 – Apprentissage et complexité
51Notons l’estimateur de la probabilité
52Dans le cas Naïve Bayes, la log-vraisemblance s’écrit :
54En utilisant les multiplicateurs de Lagrange, on veut résoudre, pour tous les couples (n,m) ? V x ?:
56En notant NWn,mle nombre de fois où dans tous les documents de DTRAIN le mot n apparaît dans une partie d’étiquette m, on obtient :
58De la même manière que précédemment, nous utiliserons un lissage :
60La complexité d’apprentissage du modèle complet est en .
61Le nombre de nœuds d’un document étant très inférieur à son nombre de mots, cette complexité est sensiblement équivalente à qui est la complexité du modèle Naïve Bayes sur documents plats. En pratique, notre modèle apprend aussi rapidement que Naïve Bayes. En inférence, la complexité est également
i.e. linéaire en fonction de la taille du document.
3.4.2 – Adéquation avec le modèle Naïve Bayes plat
62Considérons un document plat présenté en figure 5. La probabilité calculée par notre modèle est :
Le réseau bayésien construit pour un document plat
Le réseau bayésien construit pour un document plat
3.5 – Modèle multimédia Texte + Image
63Nous allons considérer ici que, pour un document d de contenu td,l’information tid est soit du texte, soit une image. Dans le cas d’un nœud de texte, nous utiliserons le modèle Naïve Bayes comme présenté précédemment. Dans le cas d’un nœud image nous utiliserons un modèle génératif simple présenté ci-dessous. D’autres modèles peuvent bien sûr être utilisés. Nous introduisons cet exemple pour montrer que notre modèle permet une intégration naturelle de différentes sources d’information.
Un document structuré comprenant une image et un texte
Un document structuré comprenant une image et un texte
64La figure 6 donne un exemple de document de ce type.
3.5.1 – Modèle d’image
65Si le contenu tid est une image, nous le représentons par un histogramme tid= ( pid,1,……….pid,nc,où nc est le nombre de couleurs de l’image et pid,k, et est le nombre de pixels de l’image de couleur k. Nous normalisons les images de façon à ce qu’elles possèdent toutes le même nombre de couleurs dans l’espace de couleur RGB et qu’elles soient toutes composées de Np pixels (normalisation de la taille).
66Le modèle génératif permettant de calculer la vraisemblance de l’image tid est alors, sous l’hypothèse de l’indépendance des composantes de l’histogramme :
68Ce modèle est un modèle simple de génération d’image. Nous avons effectué différents tests dans d’autres espaces de couleur (LSI notamment) ainsi qu’avec d’autres caractéristiques des images comme des moments ou des textures. Les meilleurs résultats ont été obtenus avec une caractérisation uniquement dans l’espace des couleurs avec une légère préférence pour l’espace RGB. Le modèle présenté peut sûrement être amélioré, mais offre déjà des performances de bon niveau.
3.5.2 – Apprentissage du modèle d’image
69Comme pour le cas du texte, apprendre le modèle génératif revient à compter le nombre de fois où une certaine couleur apparaît pour les images possédant une étiquette donnée. Nous ne détaillons pas les équations qui sont similaires à ce que l’on a déjà vu pour le texte.
4 – Des modèles génératifs aux modèles discriminants : les noyaux de Fisher
70Les modèles génératifs permettent de représenter des données complexes comme des séquences ou encore des arbres comme nous venons de le voir. Par contre, ils abordent le problème de discrimination de façon indirecte via l’estimation de densité. Les modèles discriminants résolvent directement le problème de discrimination et se révèlent en général plus efficaces pour cela. En revanche, la plupart de ces modèles ne permettent de traiter que des données vectorielles. Récemment, pour la classification de séquences biologiques, Jaakkola a proposé d’utiliser ([JAA 99]) l’information capturée dans les paramètres d’un modèle génératif pour entraîner un modèle discriminant. Cette idée a été reprise par différents auteurs [HOF 00]. Elle est attractive car elle permet d’utiliser sur des données complexes toute la palette des classifieurs vectoriels classiques. Nous proposons une extension de cette méthode développée pour les séquences aux arbres. Nous introduisons tout d’abord le principe des noyaux de Fisher qui est au cœur de cette méthode.
71Soit un modèle génératif de paramètre ?. [JAA 99] propose de calculer, pour chaque exemple d le score de Fisher :
73Ce score est le gradient de la log-vraisemblance de l’exemple d pour le modèle ?. C’est un vecteur de dimension fixée (la dimension de ?) qui exprime combien un paramètre du modèle génératif contribue à générer un exemple donné.
74Grâce à ce score, nous pouvons alors définir une similarité entre deux exemples x et y comme une fonction noyau :
76Ce noyau peut ensuite être utilisé avec n’importe quel classifieur à base de noyau (SVM par exemple). On peut ainsi dès que l’on possède un modèle génératif, obtenir une représentation vectorielle des exemples et une similarité entre exemples qui peuvent être utilisées dans des systèmes discriminants vectoriels classiques. Cette idée peut être naturellement adaptée à notre modèle.
4.1 – Application au modèle textuel
77Pour les expériences, nous avons appliqué la méthode du noyau de Fisher uniquement au modèle textuel présenté précédemment. L’utilisation sur des images ne pose pas de difficulté supplémentaire. En notant ?n,m, la probabilité qu’un nœud du réseau bayésien final ait une valeur n sachant que son parent à pour valeur n, nous avons :
79Où Ndn,mdésigne le nombre de fois où, dans le réseau bayésien représentant d, un nœud d’étiquette n à son parent d’étiquette m.
80En pratique, la méthode du noyau de Fisher ne s’applique pas telle quelle et il est nécessaire, notamment quand le nombre des paramètres est très important, de faire un ensemble de simplifications si l’on veut qu’elle conduise à de bonnes performances ([JAA 99], [HOF 00]).
81Nous avons choisi d’utiliser les approximations suivantes :
- la matrice M est approximée par la matrice identité I ([JAA 99]),
- nous calculons le gradient par rapport à
([HOF 00]).
83Cette dernière formule est celle que nous avons utilisée pour le test de notre modèle sur les corpus.
5 – Expériences et résultats
84Nous présentons les résultats de nos expériences pour les 2 modèles : modèle textuel structuré et modèle multimédia texte+image.
5.1 – Modèle textuel structuré
85Le modèle textuel structuré a été testé sur deux corpus, l’un, webKB ([WEB 99]) est un corpus de pages HTML, et l’autre, INEX [FUH 02] est un corpus développé à l’origine pour la recherche documentaire sur des documents XML.
5.1.1 – Corpus
86Le corpus WebKB [WEB 99] est composé de 8282 documents HTML issus de sites web de départements d’informatique de diverses universités. Il est devenu un corpus de référence dans la communauté Apprentissage pour la classification de documents HTML et pour la classification de documents structurés en général. Il est composé de 7 classes :student, faculty, course, project, department, staff, other. Other est une classe « poubelle » et elle est ici ignorée comme il est de coutume dans les tests. Il reste alors 4 520 documents. Nous avons utilisé le Stemming de Porter et enlevé tous les termes qui apparaissent dans moins de 5 documents. La taille du vocabulaire est alors de 8 038 termes. Nous avons gardé les tags qui apparaissent fréquemment (H1,H2,H3,TITLE,B,I,A). Nous avons pratiqué une validation croisée à 5 ensembles (80 % pour l’apprentissage et 20 % pour le test).
87Le corpus INEX [FUH 02] est un corpus récent devenu une référence dans le domaine de la recherche documentaire sur des documents XML. Il est composé d’articles de différents journaux et proceedings de la IEEE Computer Society. La base contient environ 15 000 articles de 18 journaux différents. Nous avons utilisé le Stemming de Porter et enlevé les mots qui apparaissent dans moins de 50 documents. La taille finale du vocabulaire est de 50 000 termes et le nombre de tags est d’environ 100. Nous avons fait une coupure aléatoire afin d’utiliser 50 % des documents en apprentissage et 50 % en test. La tâche consiste à classifier les articles dans le bon journal (18 classes).
5.1.2 – Résultats
88Les deux corpus étant des corpus de type multiclasses disjointes, nous utiliserons comme critère de performance le rappel micro-average et macro-average pour chaque classe. Le rappel micro-average est le rapport entre le nombre de documents correctement classés par rapport au nombre total de documents. Le rappel macro-average est la moyenne des rappels pour chacune des classes. Dans le cas de la classification multiclasses disjointes, le rappel micro-average et le rappel macro-average sont des mesures de performances suffisantes pour apprécier la qualité des modèles. Les résultats pour les deux corpus sont présentés dans les tableaux 1 et 2. Pour le corpus INEX, nous ne donnons que les performances moyennes vu le grand nombre de classes.
Performance des 5 classifieurs testés sur le corpus WebKB
Performance des 5 classifieurs testés sur le corpus WebKB
Performance des 5 classifieurs sur le corpus INEX
Performance des 5 classifieurs sur le corpus INEX
89Sur WebKB, le modèle BN est de 3 % supérieur en micro-average au modèle Naïve Bayes. C’est un résultat encourageant et supérieur à ce qui a déjà été publié sur ce corpus ([DIL 01]). Le modèle de Fisher l’augmente quant à lui de 4 %. Cela correspond à 2 % de mieux que le modèle SVM.
90Sur la grande base INEX, notre modèle génératif augmente le micro-average de 2 % par rapport à Naïve Bayes et la méthode du noyau de Fisher augmente encore le score de notre modèle génératif structuré de 6 %, mais seulement de 1 % par rapport au modèle SVM de référence. Les résultats obtenus ici confirment les bons résultats obtenus sur WebKB. Il est important de noter que ces résultats sont les premiers obtenus en discrimination sur une base XML réelle.
5.2 – Modèle multimédia texte+image
5.2.1 – Corpus
91Le corpus utilisé a été construit à partir d’un corpus issu du projet NetProtectII. Il est constitué d’un ensemble de sites pornographiques et non pornographiques en 8 langues. Nous détaillons en tableau 3 la composition de ce corpus. Il est important de noter que la classe non pornographique contient des sites web généraux ainsi que des sites web ambigus (sexualité, médecine, mariage).
Composition de la base de données
Composition de la base de données
5.2.2 – Résultats
92Le tableau de résultats donne le rappel micro-average et macro-average pour les 3 modèles suivants : le modèle de référence Naïve Bayes, le modèle structuré uniquement textuel et le modèle texte+image. Les résultats sont présentés tableau 4.
Rappel Micro-average et Macro-average sur la base NetProtect
Rappel Micro-average et Macro-average sur la base NetProtect
6 – Conclusion
93Le modèle de document présenté permet de prendre en compte simultanément la structure et le contenu ainsi que des informations de nature différente. Il est basé sur l’existence de modèles génératifs permettant le calcul de la probabilité a priori pour un document plat d’un certain type (texte, image, son). Nous avons instancié ce modèle en un modèle purement textuel ayant pour vocation la modélisation des documents de type XML ou HTML et en un modèle « Texte+Image » qui a été utilisé pour la classification de sites web. Nous avons montré comment à partir de ce modèle génératif, il était possible de construire par le biais du noyau de Fisher un modèle discriminant qui permet en général d’obtenir de meilleures performances quand on travaille à nombre de classes fixé. Des tests ont été effectués sur 3 corpus de grande taille : un corpus de pages web texte, un de documents XML, un corpus web texte + images. Les résultats démontrent les qualités opérationnelles du modèle proposé et des performances supérieures aux modèles plats. Le modèle est générique et peut être décliné en de nombreuses autres instances pour le traitement de documents structurés et multimédias.
Bibliographie
- [BAR 01] Barnard K., Forsyth D., « Combining Textual and Visual Cues for Content Based Image Retrieval on the World Wide Web », Proc. 8th Int. Conference on Computer Vision, vol. 2, 2001, p. 408–415.
- [BAR 03] Barnard K., Johnson M., Forsyth D., « Word sense disambiguation with pictures », Workshop on learning word meaning from non-linguistic data, 2003.
- [CAS 98] Cascia M. L., Sethi S., Sclaroff S., « Combining Textual and Visual Cues for Content-Based Image Retrieval on the World Wide Web », Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, juin 1998.
- [CHA 99] Chan.Y, Harvey R., Smith D., « Building Systems to Block Pornography », Challenge of Image Retrieval, 1999.
- [DIL 01] Diligenti M., Gori M., Maggini M., Scarselli F., « Classification of HTML documents by Hidden Tree-Markov Models », Proceedings of ICDAR, Seatle, 2001, WA (USA), p. 849–853.
- [DUM 00] Dumais S. T., Chen H., « Hierarchical classification of Web content », Belkin N.J.,Ingwersen P., Leong M.-K., Eds., Proceedings of SIGIR-00, ACM Press, 2000, p. 256–263.
- [FUH 02] Fuhr N., Govert N., Kazai G., Lalmas M., « INEX : Initiative for the Evaluation of XML Retrieval », Proceedings ACM SIGIR 2002 Workshop on XML and Information Retrieval, 2002.
- [HOF 00] Hofmann T., « Learning the Similarity of Documents : An Information-Geometric Approach to Document Retrieval and Categorization », Research and Development in Information Retrieval, 2000, p. 369-371.
- [JAA 99] Jaakkola T. S., Diekhans M., Haussler D., « Using the Fisher kernel method to detect remote protein homologies », Intelligent Systems for Molecular Biology Conference (ISMB’99), Heidelberg, Germany, août 1999, AAAI.
- [JOA 98] Joachims T., « Text categorization with support vector machines : learning with many relevant features », Proceedings of ECML-98, Chemnitz, DE, 1998, Springer Verlag, Heidelberg, DE, p. 137–142.
- [JON 02] Jones M. J., Rehg J. M., « Detecting Adult Images », rapport, 2002.
- [LEW 98] Lewis D. D., « Naive (Bayes) at forty : The independence assumption in information retrieval. », Proceedings of ECML-98, Chemnitz, DE, 1998, Springer Verlag,Heidelberg, DE, p. 4–15.
- [ORT 99] Ortega M., Porkaew K., Mehrotra S., « Information Retrieval over Multimedia Documents », the SIGIR Post-Conference Workshop on Multimedia Indexing and Retrieval (ACM SIGIR), 1999.
- [PIW ] Piwowarski B., Denoyer L., Gallinari P., « Un modele pour la recherche d’informations sur les documents structures », Proceedings of the 6emes journees Internationales d’Analyse Statistique des Donnees Textuelles (JADT2002).
- [SEB 02] Sebastiani F., « Machine learning in automated text categorization », ACM Computing Surveys, vol. 34, n° 1, 2002, p. 1–47.
- [WEB 99] webKB, http :// www-2. cs. cmu. edu/ afs/ cs. cmu. edu/ project/ theo-20/ www/ data/ lf, 1999.
- [YAN 02] Yang Y., Slattery S., Ghani R., « A Study of Approaches to Hypertext Categorization », Journal of Intelligent Information Systems, vol. 18, n° 2/3, 2002, p. 219–241.
- [YI 00] Yi J., Sundaresan N., « A classifier for semi-structured documents », Proceedings of KDD-00, 6th ACM International Conference on Knowledge Discovery and Data Mining, Boston, US, 2000, ACM Press, New York, US, p. 340–344.
Mots-clés éditeurs : apprentissage, classification, documents multimédias, documents structurés, réseaux bayésiens, XML