Un modèle de mixture de modèles génératifs pour les documents structurés multimédias:Application à la classification de documents XML et HTML

Ludovic Denoyer; Patrick Gallinari

Document numérique 2004/3 Vol. 8

Article de revue

Un modèle de mixture de modèles génératifs pour les documents structurés multimédias

Application à la classification de documents XML et HTML

Par Ludovic Denoyer
et Patrick Gallinari

Pages 35 à 54

DENOYER, Ludovic
et GALLINARI, Patrick,

2004. Un modèle de mixture de modèles génératifs pour les documents structurés multimédias Application à la classification de documents XML et HTML. Document numérique, 2004/3 Vol. 8, p.35-54. URL : https://stm.cairn.info/revue-document-numerique-2004-3-page-35?lang=fr.

Denoyer, Ludovic.
et al.

« Un modèle de mixture de modèles génératifs pour les documents structurés multimédias : Application à la classification de documents XML et HTML ». Document numérique, 2004/3 Vol. 8, 2004. p.35-54. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2004-3-page-35?lang=fr.

Denoyer, L.
et Gallinari, P.

(2004). Un modèle de mixture de modèles génératifs pour les documents structurés multimédias Application à la classification de documents XML et HTML. Document numérique, . 8(3), 35-54. https://stm.cairn.info/revue-document-numerique-2004-3-page-35?lang=fr.

Citer cet article

Denoyer, L.
et Gallinari, P.

(2004). Un modèle de mixture de modèles génératifs pour les documents structurés multimédias Application à la classification de documents XML et HTML. Document numérique, . 8(3), 35-54. https://stm.cairn.info/revue-document-numerique-2004-3-page-35?lang=fr.

Denoyer, Ludovic.
et al.

« Un modèle de mixture de modèles génératifs pour les documents structurés multimédias : Application à la classification de documents XML et HTML ». Document numérique, 2004/3 Vol. 8, 2004. p.35-54. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2004-3-page-35?lang=fr.

DENOYER, Ludovic
et GALLINARI, Patrick,

2004. Un modèle de mixture de modèles génératifs pour les documents structurés multimédias Application à la classification de documents XML et HTML. Document numérique, 2004/3 Vol. 8, p.35-54. URL : https://stm.cairn.info/revue-document-numerique-2004-3-page-35?lang=fr.

1 – Introduction

1Le développement du web et le nombre croissant de documents électroniques disponibles ont permis l’émergence de formats semi-structurés permettant la représentation et le stockage de documents textuels ou multimédias. Différents formats comme le HTML, le XHTML ou le XML sont aujourd’hui très populaires. Ces formats prennent en compte la structure logique des documents et permettent d’enrichir le contenu à l’aide de différents descripteurs ou métadonnées. Ils sont utilisés pour faciliter le stockage et l’accès à l’information.

2Nous étudions ici le problème de la classification de documents structurés multimédias. Nous considérons des documents structurés où les médias sont multiples (texte, image, son…). La classification supervisée de documents est une problématique générique de la recherche d’informations. Elle est utile pour différentes tâches telles que le filtrage d’email ou de Spam, l’indexation de documents, l’organisation de corpus, notamment sous forme hiérarchique, etc. Les modèles actuels ont été développés avant l’émergence des documents structurés et ils ne sont pas adaptés à ce nouveau type de documents. Quelques tentatives ont été réalisées pour la classification de documents plus complexes (XML ou multimédias par exemple). Ces approches sont basées sur la combinaison de classifieurs « plats » et sont spécifiques à certains types de documents ; une méthode ne fonctionnera par exemple que pour les pages HTML et pas pour les documents XML en général.

3Nous proposons pour la classification de documents structurés un modèle général qui permet la prise en compte simultanée de l’information de structure et de l’information de contenu des documents électroniques. Cette approche permet également l’intégration de manière naturelle de différentes sources d’information (texte et image par exemple). Il s’agit d’un modèle statistique basé sur le formalisme des réseaux bayésiens.

4L’article est organisé de la manière suivante : tout d’abord, nous présentons un état de l’art dans le domaine du traitement des documents structurés axé sur la classification ; nous décrivons ensuite le modèle général proposé et détaillons deux instances de ce modèle, l’une pour les documents structurés textuels et l’autre pour les documents structurés constitués de texte et d’images ; nous voyons ensuite comment transformer le modèle en un modèle discriminant plus performant à l’aide du formalisme du noyau de Fisher ; nous présentons finalement les résultats obtenus sur trois bases de données différentes de grande taille.

2 – Etat de l’art

5De nombreux travaux ont été consacrés à la tâche de classification de documents qu’ils soient textuels ou sous forme d’image. Cependant, peu concernent la classification de documents structurés et/ou multimédias dont l’émergence et l’exploitation massive est récente. La plupart des modèles proposés concernent uniquement les documents « plats ». La représentation dite en « sac de mots » est la plus utilisée par les modèles de classification.

6Les classifieurs utilisés en texte comme ailleurs, sont soit des modèle génératifs qui estiment les densités conditionnelles des différentes classes P(document/class)soit des modèles discriminants qui estiment directement les probabilités P(document/class)P(class/document). Par exemple, le modèle Naïve Bayes ([LEW 98]) est un modèle génératif fréquemment utilisé en texte tandis que le modèle des machines à vecteurs supports est actuellement souvent cité pour la classification de documents textuels. Sebastiani ([SEB 02]) propose une revue complète des différents modèles de classification de documents textuels plats.

7Nous allons tout d’abord présenter les travaux concernant la classification de documents structurés puis nous ferons un état de l’art des travaux concernant les documents multimédias. Il n’y a pas à notre connaissance de travaux permettant de traiter de façon générique les documents structurés multimédias.

8La plupart des classifieurs sont conçus pour le traitement de vecteurs ou de séquences et très peu de modèles permettent la prise en compte simultanée de l’information de structure et de contenu. L’importance croissante des documents structurés a cependant récemment suscité l’intérêt de la communauté de l’apprentissage pour ce type de modèles. Il y a quelques années, le développement du web a fait naître le besoin de développer des classifieurs pour les pages HTML (voir les deux dernières compétitions TREC). Dans les pages HTML, les différentes parties d’une page n’ont pas la même importance. Les titres, les tableaux et les liens peuvent être considérés comme différentes sources d’information. La plupart des techniques développées prennent en considération une information a prioriconcernant spécifiquement la sémantique introduite par le format HTML. Ces techniques utilisent habituellement une combinaison de classifieurs sur les différentes parties des pages rencontrées ([DUM 00], [YAN 02]). Ces premières tentatives de classification de documents structurés montrent que la combinaison de différents types d’informations peut parfois accroître les scores de bonne classification. Plus récemment, des méthodes ont été développées pour la classification de documents structurés génériques (par opposition aux documents HTML). Par exemple, Yi ([YI 00]) présente une extension du modèle Naïve Bayes pour les documents semi-structurés où les estimateurs globaux usuels de densité de mots d’un document sont remplacés par des estimateurs locaux qui dépendent du chemin permettant d’arriver à un nœud du document structuré. L’inconvénient de cette technique est le nombre important de paramètres qui ne peuvent pas être estimés de manière robuste. Le modèle proposé par Diligenti ([DIL 01] à base d’arbre de Markov cachés (Hidden Tree Markov Model - HTMM) étend les modèles de Markov cachés à la génération de documents structurés en arbres. Le modèle permet l’apprentissage d’un HTMM pour la génération de ces arbres. Ce modèle a été utilisé pour la classification de pages HTML. Piwowarski et al. ([PIW ]) propose un modèle discriminant à base de réseaux bayésiens qui calcule directement la probabilité a posteriori correspondante à la pertinence d’un document pour chacune des classes du problèmes.

9La classification de documents multimédias est un sujet de travail relativement récent. Par exemple, Cascia et al. ([CAS 98]) proposent un système qui combine des statistiques textuelles et visuelles en un seul et unique vecteur permettant la représentation d’un document. Barnard et al. ([BAR 01]) présentent un modèle génératif hiérarchique où les données sont décrites par une hiérarchie fixe de nœuds. Dans l’article de Ortega et al. ([ORT 99]), les différents objets sont décrits par des vecteurs de caractéristiques qui sont ensuite combinées. Plus récemment, une méthode permettant de lever les ambiguïtés sur les mots a été proposée par Barnard ([BAR 03]). Pour la tâche de filtrage de sites web, ([CHA 99], [JON 02]) s’intéressent à la classification d’images pornographiques en s’aidant également du contenant textuel. Mais ces approches ne considèrent pas le contexte global contenu dans les documents et ignorent les relations entre les différentes parties des documents.

3 – Modèle proposé

10Dans cette section, nous décrivons un modèle de documents structurés multimédias à structure explicite (de type XML). Nous présentons un modèle général puis eux instances du modèle, l’une pour les documents uniquement textuels et l’autre appliquée aux pages web texte + image.

Document structuré

11Nous représentons un document structuré comme un graphe orienté sans cycle (DAG pour Directed Acyclic Graph), ce qui correspond à la représentation usuelle utilisée dans les langages à base de balises (HTML et XML). Chaque nœud du graphe représente une entité structurelle(paragraphe, titre, section…) du document et chaque arc représente une relation hiérarchique entre 2 entités (par exemple, un paragraphe est inclus dans une section, deux paragraphes se suivent, etc.). Pour garder un niveau de complexité raisonnable, nous ne considérons pas les relations circulaires entre les nœuds qui pourraient apparaître pour certains types de documents (par exemple des sites web).

12Chaque nœud du DAG est composé d’une étiquetteet d’un contenu. Une étiquette peut par exemple être section, paragraphe, titre et représente la « sémantique » de l’unité structurelle. Le contenu d’un nœud peut être un morceau de texte (on parlera de contenu textuel), une image, un son, une vidéo, etc.

13Un document structuré contient alors trois types d’information :

une information d’organisation contenue dans les arcs du DAG,
une information d’étiquette contenue dans les étiquettes des nœuds,
une information de contenu (texte, image, son…).

Ces trois types d’information devront être pris en compte par nos modèles. La figure 1 donne un exemple simple de document structuré.

Figure 1

Un exemple de document structuré

Description de l'image par IA : L'image montre un diagramme de document structuré avec des étiquettes et du texte pour Introduction, Section et Paragraphe.

L'image représente un diagramme de structure d'un document. Ce diagramme est organisé en forme d'arbre avec des nœuds et des branches. Les nœuds sont des cercles contenant des flèches qui indiquent la direction de la structure. Chaque nœud est étiqueté avec un libellé et un texte descriptif. En haut du diagramme, il y a un nœud étiqueté "INTRODUCTION" avec le texte "Ce document est un exemple de document structuré". Ce nœud est connecté à un autre nœud étiqueté "DOCUMENT" avec le texte "Ce document est un exemple de document structuré". Sous le nœud "DOCUMENT", il y a deux branches principales. La première branche mène à un nœud étiqueté "SECTION" avec le texte "Ceci est la première section". Ce nœud est connecté à deux autres nœuds étiquetés "PARAGRAPHE". Le premier nœud "PARAGRAPHE" a le texte "Ceci est le premier paragraphe" et le second nœud "PARAGRAPHE" a le texte "Ceci est le second paragraphe". La seconde branche principale mène à un autre nœud étiqueté "SECTION" avec le texte "La seconde section est composée de deux petits paragraphes". Ce nœud est connecté à deux autres nœuds étiquetés "PARAGRAPHE". Le premier nœud "PARAGRAPHE" a le texte "Ceci est le premier paragraphe" et le second nœud "PARAGRAPHE" a le texte "Ceci est le troisième paragraphe". Les connexions entre les nœuds montrent la hiérarchie et la relation entre les différentes sections et paragraphes du document.

Un exemple de document structuré

3.2 – Le modèle génératif de document

14Nous faisons l’hypothèse que, pour chaque type d’information, nous possédons un modèle génératif permettant de calculer une estimation de la probabilité d’un document plat constitué uniquement de ce type d’information. Cette hypothèse est peu restrictive car, pour chaque type d’information rencontrée, plusieurs modèles génératifs ont déjà été développés (image, son, texte…).

3.3 – Notations

15Nous définissons les notations suivantes :

d un document (nous ne ferons pas de différence entre un document et le graphe qui le représente).
s_d la structure du document, donnée par l’ensemble des couples
s _ { \, d } = \{ ( s _ { d } ^ { i }, p a ( s _ { d } ^ { i } ) ) \}
pour i de 1 à |s_d| · |s_d| représente le nombre de nœuds du document,
s _ { d } ^ { i } \in \Lambda
correspond à l’étiquette du nœud i où ? représente l’ensemble des étiquettes possibles (décrites, pour un document XML, dans la DTD; par exemple : TITLE, H1… pour le XHTML),
p a ( s _ { d } ^ { i } ) \in s _ { d }
représente l’ensemble des nœuds parents du nœud i. Cette relation définit l’information organisationnelle du document.
t_d l’information de contenu. t_d est l’ensemble
\{ t _ { d } ^ { i } \}
pour i de 1 à |s_d| où tⁱ_dest l’information de contenu du nœud i. Nous faisons l’hypothèse que, pour une étiquette donnée, l’information est toujours de même nature (une certaine étiquette ne contient soit que du texte soit que de l’image mais ne peut contenir, dans un document du texte et dans un autre de l’image). Cette hypothèse peut, dans le cas où elle ne correspond pas à la réalité des documents, être respectée par l’ajout de tags supplémentaires.
? est l’ensemble des paramètres de notre modèle génératif. ? est l’ensemble
\{ \theta _ { l } \} \bigcup \theta ^ { s }
pour l ? ?. Nous considérons que nous possédons un ensemble de paramètres pour chaque valeur d’étiquette possible tel que, pour tout nous pouvons calculer la probabilité.
P ( t _ { d } ^ { i } / \theta ) = P ( t _ { d } ^ { i } | \theta _ { s _ { d } ^ { i } } )
.Le vecteur ?^s correspond lui aux paramètres permettant le calcul de la probabilité structurelle tel que
P ( s _ { d } | \theta ) = P ( s _ { d } | \theta ^ { s } )
(par simplification, nous noterons
P ( s _ { d } | \theta )
).

3.3.1 – Composantes du modèle génératif

16Nous nous plaçons dans un cadre probabiliste. Un document sera décrit par un réseau bayésien, ce formalisme permet de modéliser à la fois l’information de contenu et les relations entre les contenus. Chaque nœud du réseau bayésien correspond soit à une étiquette (un nœud du DAG), soit à un des éléments de contenu (le contenu attaché à un nœud du DAG).

17Un corpus sera alors représenté par un ensemble de réseaux bayésiens (un par document). Le modèle des réseaux bayésiens représentera le modèle de génération des documents structurés. Ce processus de génération peut être vu de la façon suivante : une personne voulant créer un document d’une certaine classe va successivement et récursivement créer l’organisation du document et le contenu correspondant. Par exemple, il décide que son document aura un titre, puis choisit ce titre ; il y ajoute une section contenant l’introduction du document puis un paragraphe avec une image, etc.

18Nous avons :

19

Description de l'image par IA : P majuscule parenthèse gauche d barre verticale thêta parenthèse droite égale P majuscule parenthèse gauche s indice d position de base virgule t indice d position de base barre verticale thêta parenthèse droite égale P majuscule parenthèse gauche s indice d position de base barre verticale thêta parenthèse droite P majuscule parenthèse gauche t indice d position de base barre verticale s indice d position de base virgule thêta parenthèse droite parenthèse gauche 1 parenthèse droite

20Où P(s_d|?) est appelée probabilité structurelle et P(t_d|s_d|?) est appelée probabilité de contenu. Nous allons maintenant détailler les composantes de la probabilité structurelle puis celle de la probabilité de contenu.

3.3.2 – Probabilité structurelle

21La probabilité structurelle P(s_d) est encodée par les étiquettes et les arcs du DAG. La structure du document d sera représentée par un réseau bayésien calqué sur le graphe représentant le document. Cependant, nous nous permettrons d’envisager différents types de dépendances (séquence, inclusion) afin d’essayer d’avoir une modélisation plus fine de l’organisation d’un document. La probabilité d’un tel document s’écrit :

Description de l'image par IA : P majuscule parenthèse gauche s indice d position de base divisé par thêta parenthèse droite égale P majuscule parenthèse gauche s indice d position de base barre verticale thêta exposant s position de base parenthèse droite égale produit début souscript i égale 1 début suscript début valeur absolue s indice d position de base fin valeur absolue fin scripts P majuscule parenthèse gauche s indice d exposant i position de base barre verticale p a parenthèse gauche s indice d exposant i position de base parenthèse droite virgule thêta exposant s position de base parenthèse droite parenthèse gauche 2 parenthèse droite

Les paramètres ?^s correspondent à l’estimation des probabilités Description de l'image par IA : P majuscule parenthèse gauche s indice d exposant i position de base barre verticale p a parenthèse gauche s indice d exposant i position de base parenthèse droite parenthèse droite

Description de l'image par IA : P majuscule parenthèse gauche s indice d exposant i position de base barre verticale p a parenthèse gauche s indice d exposant i position de base parenthèse droite parenthèse droite

qui sont les probabilités d’observer un nœud sⁱ_d sachant que ses parents sont Description de l'image par IA : p a parenthèse gauche s indice d exposant i position de base parenthèse droite

Description de l'image par IA : p a parenthèse gauche s indice d exposant i position de base parenthèse droite

.

Figure 2

Deux modélisations possibles de la structure

Description de l'image par IA : Deux diagrammes montrant des structures de documents avec des sections, sous-sections et paragraphes.

L'image montre deux diagrammes de modélisation de la structure d'un document. Le premier diagramme, intitulé "MODELE 1", présente une structure hiérarchique simple. Il commence par un nœud principal étiqueté "Document" qui se divise en deux sections principales : "Introduction" et "Section". La section "Introduction" mène à un nœud "Paragraphe". La section "Section" se divise en deux autres nœuds "Paragraphe". Le deuxième diagramme, intitulé "MODELE 2", montre une structure plus complexe. Il commence également par un nœud principal étiqueté "Document" qui se divise en trois sections principales : "Introduction", "Section", et "Section". La section "Introduction" mène à un nœud "Paragraphe". La première section "Section" se divise en deux nœuds "Paragraphe". La deuxième section "Section" se divise également en deux nœuds "Paragraphe". Les deux modèles montrent des structures différentes pour organiser les sections et les paragraphes d'un document, avec le deuxième modèle étant plus détaillé et complexe que le premier.

Deux modélisations possibles de la structure

22Pour avoir une estimation robuste de nos paramètres, nous considérons que les réseaux bayésiens de tous les documents partagent les mêmes paramètres ?. Ainsi, pour les paramètres de structure, nous faisons l’hypothèse que les probabilités Description de l'image par IA : accolade gauche P majuscule parenthèse gauche s indice d exposant i position de base barre verticale p a parenthèse gauche s indice d exposant i position de base parenthèse droite accolade droite

ne dépendent que des étiquettes des nœuds sⁱ_d et Description de l'image par IA : p a parenthèse gauche s indice d exposant i position de base parenthèse droite

. Cette probabilité sera notée Description de l'image par IA : thêta indice s sub-indice d sub-exposant i sub virgule p a parenthèse gauche s sub-indice d sub-exposant i sub parenthèse droite exposant s

Description de l'image par IA : thêta indice s sub-indice d sub-exposant i sub virgule p a parenthèse gauche s sub-indice d sub-exposant i sub parenthèse droite exposant s

.

23Plusieurs réseaux bayésiens peuvent être associés à un document. La figure 2 nous montre deux exemples de réseaux bayésiens correspondant à deux modélisations différentes de la structure du document de la figure 1. Dans la seconde, on modélise uniquement l’inclusion tandis que dans la première, on modélise l’inclusion (flèches verticales) ainsi que la séquence (flèches horizontales). Les modèles présentés sont une simplification de la réalité : ils ne prennent en compte qu’une partie des relations entre les différents éléments d’un document. Ce choix résulte d’un compromis entre capacité et complexité. Il s’agit en l’occurrence de réaliser lors de l’apprentissage une estimation robuste des paramètres en limitant leur nombre (égal à card(? × ?)), et également de réaliser des inférences exactes à faible coût.

3.3.3 – Probabilité de contenu

24La modélisation de la probabilité du contenu suit les hypothèses suivantes :

les différents éléments de contenu sont indépendants les uns des autres,
la probabilité du contenu ne dépend que de l’étiquette qui contient cette information,
cette probabilité suit le modèle génératif choisi pour le type d’information modélisé.

Nous avons alors :

25

Description de l'image par IA : P majuscule parenthèse gauche t indice d position de base barre verticale s indice d position de base virgule thêta parenthèse droite égale produit début souscript i égale 1 début suscript début valeur absolue s indice d position de base fin valeur absolue fin scripts P majuscule parenthèse gauche t indice d exposant i position de base barre verticale s indice d position de base virgule thêta parenthèse droite égale produit début souscript i égale 1 début suscript début valeur absolue s indice d position de base fin valeur absolue fin scripts P majuscule parenthèse gauche t indice d exposant i position de base barre verticale s indice d exposant i position de base virgule thêta indice s sub-indice d sub-exposant i sub position de base parenthèse droite parenthèse gauche 3 parenthèse droite

26Rappelons que la probabilité Description de l'image par IA : P majuscule parenthèse gauche t indice d exposant i position de base barre verticale s indice d exposant i position de base virgule thêta indice s sub-indice d sub-exposant i sub position de base parenthèse droite

est la probabilité calculée par le modèle génératif choisi pour modéliser le type d’information contenu par les nœuds d’étiquette Nous détaillerons plus loin le modèle dans le cas où cette probabilité est estimée en utilisant le modèle classique Naïve Bayes.

3.3.4 – Réseau bayésien final

27Par la suite, nous retenons la modélisation correspondant au modèle numéro 2 (les deux modèles donnent des résultats très similaires). Les hypothèses précédentes conduisent alors à la modélisation de notre document par le réseau bayésien représenté en figure 3. Les probabilités conditionnelles entre les nœuds terminaux (nœuds de contenu) et leurs parents sont estimées directement par comptage. Le modèle global peut ainsi être vu comme un modèle de mélange de modèles génératifs.

Figure 3

Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure

Description de l'image par IA : Diagram de réseau bayésien avec nœuds de structure et contenu, reliant des sections et paragraphes.

L'image représente un réseau bayésien avec des nœuds ronds et des nœuds rectangulaires. Les nœuds ronds représentent les nœuds de structure, tandis que les nœuds rectangulaires représentent les nœuds de contenu. Les arcs entre les nœuds indiquent les dépendances entre les éléments de structure, et les arcs en pointillés montrent la dépendance entre le contenu et la structure. En haut de l'image, il y a un nœud rond étiqueté "Document". Ce nœud se divise en deux autres nœuds ronds étiquetés "Introduction" et "Section". Le nœud "Introduction" mène à un nœud rectangulaire avec le texte "Ce document est un exemple de document structuré". Le nœud "Section" se divise en deux autres nœuds ronds étiquetés "Section". Le premier de ces nœuds se divise en un nœud rectangulaire avec le texte "Ceci est la première section" et en un autre nœud rond étiqueté "Paragraphe". Ce nœud "Paragraphe" se divise en deux nœuds rectangulaires avec les textes "Ceci est le premier paragraphe" et "Ceci est le deuxième paragraphe". Le second nœud "Section" se divise en un nœud rectangulaire avec le texte "La deuxième section est composée d'un seul paragraphe" et en un autre nœud rond étiqueté "Paragraphe". Ce nœud "Paragraphe" se divise en deux nœuds rectangulaires avec les textes "Ceci est le deuxième paragraphe" et "Ceci est le troisième paragraphe". Les dépendances entre les nœuds montrent comment les sections et les paragraphes sont organisés dans le document, avec des relations claires entre les éléments de structure et de contenu.

Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure

Ce réseau calcule le score suivant pour un document d :

28

3.3.5 – Apprentissage

29Afin de pouvoir utiliser notre modèle, nous devons passer par une phase d’apprentissage permettant l’estimation des paramètres du réseau. Rappelons que les paramètres ? sont de deux natures :

le vecteur
\theta ^ { s } \ = \ \{ \theta _ { i, j } ^ { s } \}
avec (i, j) ? ? × ? correspondant aux probabilités structurelles,
les vecteurs ?_i pour i ? ? correspondant aux paramètres du modèle génératif choisi pour la modélisation de l’information des nœuds d’étiquette i

Pour apprendre les paramètres de notre modèle, nous allons maximiser la vraisemblance des données.

30Soit D_TRAINla base d’apprentissage.La log-vraisemblance de ces documents est :

31

32Les deux termes (probabilité structurelle et probabilité de contenu) de notre somme ne partageant pas de paramètre, la maximisation de L revient à la maximisation indépendante des deux termes.

3.3.5.1 – Apprentissage des paramètres de structure ? ^s

33Nous voulons maximiser :

34

Description de l'image par IA : Formule mathématique avec des sommes et des logarithmes. Équation complexe avec des variables et des symboles mathématiques.

35sous la contrainte Description de l'image par IA : sommation début souscript s en italique gras indice 4 exposant i position de base appartient à Lambda majuscule en normal fin scripts thêta indice s en italique gras sub-indice 4 sub-exposant i sub virgule p a parenthèse gauche s en italique gras sub-indice 4 sub-exposant i sub parenthèse droite exposant opérateur astérisque position de base égale 1

.

36En utilisant la méthode des multiplicateurs de Lagrange, on résout :

37

$Description de l'image par IA : début fraction dérivée partielle parenthèse gauche L majuscule indice s t r u c t u r e position de base moins lambda indice m position de base parenthèse gauche sommation début souscript n fin scripts thêta indice n virgule m exposant s position de base moins 1 parenthèse droite parenthèse droite sur dérivée partielle thêta indice n virgule m exposant s position de base fin fraction égale 0 parenthèse gauche 7 parenthèse droite$

38Pour tous les couples (n,m) ? ?.

39Soit N_n,m, le nombre de fois qu’un nœud d’étiquette n a son parent d’étiquette m pour tous les documents de D_TRAIN, nous avons alors :

40

$Description de l'image par IA : thêta indice n virgule m exposant s position de base égale début fraction N majuscule indice n virgule m position de base sur sommation début souscript i fin scripts N majuscule indice i virgule m position de base fin fraction parenthèse gauche 8 parenthèse droite$

41Afin d’accroître la fiabilité de nos estimations, nous utiliserons un lissage :

42

$Description de l'image par IA : Formule mathématique avec une fraction et une somme.$

43La complexité de cet apprentissage est Description de l'image par IA : O majuscule parenthèse gauche sommation d appartient à D majuscule de ronde indice T majuscule R majuscule A majuscule I majuscule N majuscule position de base début valeur absolue s indice d position de base fin valeur absolue parenthèse droite

(linéaire en fonction de la taille des arbres des documents).

3.3.5.2 – Apprentissage des paramètres de contenu ? _i

44Nous voulons maximiser la log-vraisemblance :

Cette maximisation revient à la maximisation séparée de chacun des termes L^l_contenu. La maximisation de L^l_contenu revient à l’apprentissage du modèle génératif choisi pour l’étiquette l sur l’ensemble des données correspondant à cette étiquette dans D_TRAIN. Les modèles génératifs pour les différentes étiquettes sont appris indépendamment les uns des autres.

3.4 – Une instance particulière : contenu textuel et estimation des densités conditionnelles par Naïve Bayes

45Nous présentons maintenant de façon détaillée une instance du modèle, elle concerne la classification de documents structurés textuels uniquement et utilise comme modèle génératif de texte le modèle classique Naïve Bayes.

46Nous posons les notations suivantes :

t _ { d } ^ { i } = \{ w _ { d, k } ^ { i } \}
pour k ?[1..|tⁱ_d|] avec|tⁱ_d|le nombre de mots de l’élément i dans le document d et
w _ { d, k } ^ { i }
représente le k ? ieme mot de tⁱ_d. Les mots sont à valeur dans un vocabulaire noté V.

Sous les hypothèses d’indépendance de Naïve Bayes, nous pouvons réécrire l’équation 3 de la manière suivante :

47

48L’équation globale de notre modèle devient alors :

49

Description de l'image par IA : P majuscule parenthèse gauche d barre verticale thêta parenthèse droite égale début ensemble produit début souscript i égale 1 début suscript début valeur absolue s indice d position de base fin valeur absolue fin scripts thêta indice s sub-indice d sub-exposant i sub virgule p a parenthèse gauche s sub-indice d sub-exposant i sub parenthèse droite exposant s position de base fin ensemble début ensemble produit début souscript i égale 1 début suscript début valeur absolue s indice d position de base fin valeur absolue fin scripts parenthèse gauche produit début souscript k égale 1 début suscript début valeur absolue t indice d exposant i position de base fin valeur absolue fin scripts P majuscule parenthèse gauche w indice d virgule k exposant i position de base barre verticale s indice d exposant i position de base virgule thêta indice s sub-indice d sub-exposant i sub position de base parenthèse droite parenthèse droite fin ensemble parenthèse gauche 1 2 parenthèse droite point

50Un tel modèle correspond au réseau bayésien présenté en figure 4.

Figure 4

Le réseau bayésien final pour le modèle textuel

Description de l'image par IA : Diagram de réseau bayésien montrant la structure d'un document avec sections et paragraphes.

L'image représente un réseau bayésien pour un modèle textuel. Elle montre une structure hiérarchique avec des nœuds et des arcs. En haut, il y a un nœud intitulé "Document" qui se divise en deux sections principales : "Introduction" et "Section". La section "Introduction" contient un texte structuré en plusieurs phrases, chacune reliée par des flèches à un nœud intitulé "Document". La section "Section" se divise en deux sous-sections, chacune composée de phrases reliées par des flèches. Chaque sous-section contient des phrases qui sont reliées à des nœuds intitulés "Paragraphe". Les phrases sont interconnectées, indiquant des relations entre elles. L'image illustre comment les différentes parties d'un document sont organisées et interconnectées dans un modèle bayésien.

Le réseau bayésien final pour le modèle textuel

3.4.1 – Apprentissage et complexité

51Notons Description de l'image par IA : thêta indice w sub-indice d virgule k sub-exposant i sub virgule s sub-indice d sub-exposant i

l’estimateur de la probabilité Description de l'image par IA : P majuscule parenthèse gauche w indice d virgule k exposant i position de base barre verticale s indice d exposant i position de base parenthèse droite

Description de l'image par IA : P majuscule parenthèse gauche w indice d virgule k exposant i position de base barre verticale s indice d exposant i position de base parenthèse droite

52Dans le cas Naïve Bayes, la log-vraisemblance s’écrit :

53

\begin{array} { r l } { { { \cal L } _ { c o n t e n u } } } & { { = \displaystyle \sum _ { d \in { \cal D } _ { F R A H } } \displaystyle \sum _ { s = 1 } ^ { | s _ { s } | } \left( l o _ { \tilde { g } } F ( t _ { d } ^ { s } | \theta _ { s _ { s } ^ { s } } ) \right) } } \\ { { } } & { { = \displaystyle \sum _ { d \in { \cal D } _ { F R A H } } \displaystyle \sum _ { s = 1 } ^ { | s _ { s } | } \left( \displaystyle \sum _ { s = 1 } ^ { | s _ { s } | } l o _ { \tilde { g } } F ( w _ { d, k } ^ { s } | z _ { d } ^ { s }, \theta _ { s _ { s } ^ { s } } ) \right) \qquad \qquad ( 1 3 ) } } \\ { { } } & { { = \displaystyle \sum _ { d \in { \cal D } _ { F R A H } } \displaystyle \sum _ { s = 1 } ^ { | s _ { s } | } \left( \displaystyle \sum _ { s _ { s } = 1 } ^ { | s _ { s } ^ { s } | } l o _ { \tilde { g } } \theta _ { w _ { d, k } ^ { s }, s _ { s } ^ { s } } \right) } } \end{array}

54En utilisant les multiplicateurs de Lagrange, on veut résoudre, pour tous les couples (n,m) ? V x ?:

55

$Description de l'image par IA : début tableau 1re rangée avec etiquette parenthèse gauche 1 4 parenthèse droite fin etiquette début fraction dérivée partielle parenthèse gauche L majuscule indice c o n t e n u position de base moins lambda indice m position de base parenthèse gauche sommation début souscript n fin scripts thêta indice n virgule m position de base moins 1 parenthèse droite parenthèse droite sur dérivée partielle thêta indice n virgule m position de base fin fraction égale 0 fin tableau$

56En notant NW_n,mle nombre de fois où dans tous les documents de D_TRAIN le mot n apparaît dans une partie d’étiquette m, on obtient :

57

$Description de l'image par IA : N majuscule W majuscule indice n virgule m position de base égale début fraction N majuscule W majuscule indice n virgule m position de base sur sommation début souscript i appartient à V majuscule fin scripts N majuscule W majuscule indice i virgule m position de base fin fraction parenthèse gauche 1 5 parenthèse droite$

58De la même manière que précédemment, nous utiliserons un lissage :

59

$Description de l'image par IA : N majuscule W majuscule indice n virgule m position de base égale début fraction N majuscule W majuscule indice n virgule m position de base position de base 1 sur sommation début souscript i appartient à V majuscule fin scripts N majuscule W majuscule indice i virgule m position de base début valeur absolue V majuscule fin valeur absolue fin fraction parenthèse gauche 1 6 parenthèse droite$

60La complexité d’apprentissage du modèle complet est en

.

61Le nombre de nœuds d’un document étant très inférieur à son nombre de mots, cette complexité est sensiblement équivalente à Description de l'image par IA : O majuscule parenthèse gauche sommation début souscript d appartient à D majuscule de ronde indice T majuscule R majuscule A majuscule l N majuscule position de base fin scripts début valeur absolue t indice d position de base fin valeur absolue parenthèse droite

qui est la complexité du modèle Naïve Bayes sur documents plats. En pratique, notre modèle apprend aussi rapidement que Naïve Bayes. En inférence, la complexité est également Description de l'image par IA : O majuscule parenthèse gauche sommation début souscript d appartient à D majuscule de ronde indice T majuscule position de base y indice M majuscule N majuscule position de base fin scripts début valeur absolue s indice d position de base fin valeur absolue début valeur absolue t indice d position de base fin valeur absolue parenthèse droite virgule

Description de l'image par IA : O majuscule parenthèse gauche sommation début souscript d appartient à D majuscule de ronde indice T majuscule position de base y indice M majuscule N majuscule position de base fin scripts début valeur absolue s indice d position de base fin valeur absolue début valeur absolue t indice d position de base fin valeur absolue parenthèse droite virgule

i.e. linéaire en fonction de la taille du document.

3.4.2 – Adéquation avec le modèle Naïve Bayes plat

62Considérons un document plat présenté en figure 5. La probabilité calculée par notre modèle est :

Figure 5

Le réseau bayésien construit pour un document plat

Description de l'image par IA : Document plat avec réseau bayésien. Texte et flèches reliant mots-clés.

Le réseau bayésien construit pour un document plat

Description de l'image par IA : P majuscule parenthèse gauche d parenthèse droite égale produit début souscript k égale 1 début suscript début valeur absolue t indice d position de base fin valeur absolue fin scripts P majuscule parenthèse gauche w indice d virgule k position de base barre verticale s indice d position de base égale d o c u m e n t parenthèse droite parenthèse gauche 1 7 parenthèse droite

C’est l’équation du modèle Naïve Bayes. Dans le cas de documents plats, cette instance de notre modèle est équivalente au modèle Naïve Bayes. Ce modèle structuré constitue une extension du modèle Naïve Bayes.

3.5 – Modèle multimédia Texte + Image

63Nous allons considérer ici que, pour un document d de contenu t_d,l’information tⁱ_d est soit du texte, soit une image. Dans le cas d’un nœud de texte, nous utiliserons le modèle Naïve Bayes comme présenté précédemment. Dans le cas d’un nœud image nous utiliserons un modèle génératif simple présenté ci-dessous. D’autres modèles peuvent bien sûr être utilisés. Nous introduisons cet exemple pour montrer que notre modèle permet une intégration naturelle de différentes sources d’information.

Figure 6

Un document structuré comprenant une image et un texte

Description de l'image par IA : Chien et chat interagissant, image en noir et blanc.

Un document structuré comprenant une image et un texte

64La figure 6 donne un exemple de document de ce type.

3.5.1 – Modèle d’image

65Si le contenu tⁱ_d est une image, nous le représentons par un histogramme tⁱ_d= ( pⁱ_d,1,……….pⁱ_d,nc,où nc est le nombre de couleurs de l’image et pⁱ_d,k, et est le nombre de pixels de l’image de couleur k. Nous normalisons les images de façon à ce qu’elles possèdent toutes le même nombre de couleurs dans l’espace de couleur RGB et qu’elles soient toutes composées de Np pixels (normalisation de la taille).

66Le modèle génératif permettant de calculer la vraisemblance de l’image tⁱ_d est alors, sous l’hypothèse de l’indépendance des composantes de l’histogramme :

67

Description de l'image par IA : P majuscule parenthèse gauche t indice d exposant i position de base barre verticale thêta indice s sub-indice d sub-exposant i sub position de base parenthèse droite égale produit début souscript k égale 1 début suscript n c fin scripts P majuscule parenthèse gauche P majuscule indice k position de base égale p indice d virgule k exposant i position de base barre verticale thêta indice s sub-indice d sub-exposant i sub position de base parenthèse droite parenthèse gauche 1 8 parenthèse droite

68Ce modèle est un modèle simple de génération d’image. Nous avons effectué différents tests dans d’autres espaces de couleur (LSI notamment) ainsi qu’avec d’autres caractéristiques des images comme des moments ou des textures. Les meilleurs résultats ont été obtenus avec une caractérisation uniquement dans l’espace des couleurs avec une légère préférence pour l’espace RGB. Le modèle présenté peut sûrement être amélioré, mais offre déjà des performances de bon niveau.

3.5.2 – Apprentissage du modèle d’image

69Comme pour le cas du texte, apprendre le modèle génératif revient à compter le nombre de fois où une certaine couleur apparaît pour les images possédant une étiquette donnée. Nous ne détaillons pas les équations qui sont similaires à ce que l’on a déjà vu pour le texte.

4 – Des modèles génératifs aux modèles discriminants : les noyaux de Fisher

70Les modèles génératifs permettent de représenter des données complexes comme des séquences ou encore des arbres comme nous venons de le voir. Par contre, ils abordent le problème de discrimination de façon indirecte via l’estimation de densité. Les modèles discriminants résolvent directement le problème de discrimination et se révèlent en général plus efficaces pour cela. En revanche, la plupart de ces modèles ne permettent de traiter que des données vectorielles. Récemment, pour la classification de séquences biologiques, Jaakkola a proposé d’utiliser ([JAA 99]) l’information capturée dans les paramètres d’un modèle génératif pour entraîner un modèle discriminant. Cette idée a été reprise par différents auteurs [HOF 00]. Elle est attractive car elle permet d’utiliser sur des données complexes toute la palette des classifieurs vectoriels classiques. Nous proposons une extension de cette méthode développée pour les séquences aux arbres. Nous introduisons tout d’abord le principe des noyaux de Fisher qui est au cœur de cette méthode.

71Soit un modèle génératif de paramètre ?. [JAA 99] propose de calculer, pour chaque exemple d le score de Fisher :

72

Description de l'image par IA : U majuscule indice d position de base égale nabla indice thêta position de base log P majuscule parenthèse gauche d barre verticale thêta parenthèse droite parenthèse gauche 1 9 parenthèse droite

73Ce score est le gradient de la log-vraisemblance de l’exemple d pour le modèle ?. C’est un vecteur de dimension fixée (la dimension de ?) qui exprime combien un paramètre du modèle génératif contribue à générer un exemple donné.

74Grâce à ce score, nous pouvons alors définir une similarité entre deux exemples x et y comme une fonction noyau :

75

Description de l'image par IA : K majuscule parenthèse gauche x virgule y parenthèse droite égale U majuscule indice x exposant T majuscule position de base M majuscule exposant négatif 1 position de base U majuscule indice y position de base parenthèse gauche 2 0 parenthèse droite

76Ce noyau peut ensuite être utilisé avec n’importe quel classifieur à base de noyau (SVM par exemple). On peut ainsi dès que l’on possède un modèle génératif, obtenir une représentation vectorielle des exemples et une similarité entre exemples qui peuvent être utilisées dans des systèmes discriminants vectoriels classiques. Cette idée peut être naturellement adaptée à notre modèle.

4.1 – Application au modèle textuel

77Pour les expériences, nous avons appliqué la méthode du noyau de Fisher uniquement au modèle textuel présenté précédemment. L’utilisation sur des images ne pose pas de difficulté supplémentaire. En notant ?_n,m, la probabilité qu’un nœud du réseau bayésien final ait une valeur n sachant que son parent à pour valeur n, nous avons :

78

$Description de l'image par IA : début fraction dérivée partielle l o g P majuscule parenthèse gauche d barre verticale thêta parenthèse droite sur dérivée partielle thêta indice n virgule m position de base fin fraction égale début fraction N majuscule indice n virgule m exposant d position de base sur thêta indice n virgule m position de base fin fraction parenthèse gauche 2 1 parenthèse droite$

79Où N^d_n,mdésigne le nombre de fois où, dans le réseau bayésien représentant d, un nœud d’étiquette n à son parent d’étiquette m.

80En pratique, la méthode du noyau de Fisher ne s’applique pas telle quelle et il est nécessaire, notamment quand le nombre des paramètres est très important, de faire un ensemble de simplifications si l’on veut qu’elle conduise à de bonnes performances ([JAA 99], [HOF 00]).

81Nous avons choisi d’utiliser les approximations suivantes :

la matrice M est approximée par la matrice identité I ([JAA 99]),
nous calculons le gradient par rapport à
2 \sqrt { \theta _ { n, m } },
([HOF 00]).

Soit

Description de l'image par IA : rhô indice n virgule m position de base égale 2 début racine carrée thêta indice n virgule m position de base fin racine carrée

nous avons :

82

$Description de l'image par IA : début fraction dérivée partielle l o g P majuscule parenthèse gauche d barre verticale thêta parenthèse droite sur dérivée partielle rhô indice n virgule m position de base fin fraction égale 2 opérateur astérisque début fraction N majuscule indice n virgule m exposant d position de base sur rhô indice n virgule m position de base fin fraction égale début fraction N majuscule indice n virgule m exposant d position de base sur début racine carrée thêta indice n virgule m position de base fin racine carrée fin fraction parenthèse gauche en gras 2 en gras 2 en gras parenthèse droite en gras$

83Cette dernière formule est celle que nous avons utilisée pour le test de notre modèle sur les corpus.

5 – Expériences et résultats

84Nous présentons les résultats de nos expériences pour les 2 modèles : modèle textuel structuré et modèle multimédia texte+image.

5.1 – Modèle textuel structuré

85Le modèle textuel structuré a été testé sur deux corpus, l’un, webKB ([WEB 99]) est un corpus de pages HTML, et l’autre, INEX [FUH 02] est un corpus développé à l’origine pour la recherche documentaire sur des documents XML.

5.1.1 – Corpus

86Le corpus WebKB [WEB 99] est composé de 8282 documents HTML issus de sites web de départements d’informatique de diverses universités. Il est devenu un corpus de référence dans la communauté Apprentissage pour la classification de documents HTML et pour la classification de documents structurés en général. Il est composé de 7 classes :student, faculty, course, project, department, staff, other. Other est une classe « poubelle » et elle est ici ignorée comme il est de coutume dans les tests. Il reste alors 4 520 documents. Nous avons utilisé le Stemming de Porter et enlevé tous les termes qui apparaissent dans moins de 5 documents. La taille du vocabulaire est alors de 8 038 termes. Nous avons gardé les tags qui apparaissent fréquemment (H1,H2,H3,TITLE,B,I,A). Nous avons pratiqué une validation croisée à 5 ensembles (80 % pour l’apprentissage et 20 % pour le test).

87Le corpus INEX [FUH 02] est un corpus récent devenu une référence dans le domaine de la recherche documentaire sur des documents XML. Il est composé d’articles de différents journaux et proceedings de la IEEE Computer Society. La base contient environ 15 000 articles de 18 journaux différents. Nous avons utilisé le Stemming de Porter et enlevé les mots qui apparaissent dans moins de 50 documents. La taille finale du vocabulaire est de 50 000 termes et le nombre de tags est d’environ 100. Nous avons fait une coupure aléatoire afin d’utiliser 50 % des documents en apprentissage et 50 % en test. La tâche consiste à classifier les articles dans le bon journal (18 classes).

5.1.2 – Résultats

88Les deux corpus étant des corpus de type multiclasses disjointes, nous utiliserons comme critère de performance le rappel micro-average et macro-average pour chaque classe. Le rappel micro-average est le rapport entre le nombre de documents correctement classés par rapport au nombre total de documents. Le rappel macro-average est la moyenne des rappels pour chacune des classes. Dans le cas de la classification multiclasses disjointes, le rappel micro-average et le rappel macro-average sont des mesures de performances suffisantes pour apprécier la qualité des modèles. Les résultats pour les deux corpus sont présentés dans les tableaux 1 et 2. Pour le corpus INEX, nous ne donnons que les performances moyennes vu le grand nombre de classes.

Tableau 1

Performance des 5 classifieurs testés sur le corpus WebKB

Tableau comparatif des performances de cinq classifieurs avec des scores pour plusieurs métriques.

	cou.	dep.	sta.	fac.	stu.	'0.1d	Macro	Micro
Naive Bayes (NB) BN Model	0.96 0.96	0.93 0.82	0.07 0.03 0.17 0.17	0.67 0.72	0.91 0.93	0.65 0.76	0.70 0.70	0.81 0.83
SVM	0.90	0.79		0.85	0.91	0.77	0.73	0.85
NB + Fisher	0.95	0.77		0.82	0.91	0.71	0.72	0.85
BN + Fisher	0.95	0.83	0.14	0.84	0.94	0.72	0.73	0.87

cou dep sta fac stu pro Macro Micro Naive Bayes (NB) 0.96 0.93 0.07 0.67 0.91 0.65 0.70 0.81 BN Model 0.96 0.82 0.03 0.72 0.93 0.76 0.70 0.83 SVM 0.90 0.79 0.17 0.85 0.91 0.77 0.73 0.85 NB + Fisher 0.95 0.77 0.17 0.82 0.91 0.71 0.72 0.85 BN + Fisher 0.95 0.83 0.14 0.84 0.94 0.72 0.73 0.87

Performance des 5 classifieurs testés sur le corpus WebKB

Tableau 2

Performance des 5 classifieurs sur le corpus INEX

Tableau comparatif des performances de cinq classifieurs avec des scores Macro et Micro.

	Macro	Micro
Naive Bayes BN Model SVM BN Model Fisher	0.61 0.67	0.64 0.66
Naive Bay es Fisher	0.71 0.70
	0.69	0.69
	0.72	0.71

Macro Micro Naive Bayes 0.61 0.64 BN Model 0.67 0.66 SVM 0.71 0.70 Naive Bayes Fisher 0.69 0.69 BN Model Fisher 0.72 0.71

Performance des 5 classifieurs sur le corpus INEX

Nous avons utilisé le modèle Naïve Bayes comme classifieur de référence pour le modèle génératif et les SVMs ([JOA 98]) comme référence pour la version discriminante.

89Sur WebKB, le modèle BN est de 3 % supérieur en micro-average au modèle Naïve Bayes. C’est un résultat encourageant et supérieur à ce qui a déjà été publié sur ce corpus ([DIL 01]). Le modèle de Fisher l’augmente quant à lui de 4 %. Cela correspond à 2 % de mieux que le modèle SVM.

90Sur la grande base INEX, notre modèle génératif augmente le micro-average de 2 % par rapport à Naïve Bayes et la méthode du noyau de Fisher augmente encore le score de notre modèle génératif structuré de 6 %, mais seulement de 1 % par rapport au modèle SVM de référence. Les résultats obtenus ici confirment les bons résultats obtenus sur WebKB. Il est important de noter que ces résultats sont les premiers obtenus en discrimination sur une base XML réelle.

5.2 – Modèle multimédia texte+image

5.2.1 – Corpus

91Le corpus utilisé a été construit à partir d’un corpus issu du projet NetProtectII. Il est constitué d’un ensemble de sites pornographiques et non pornographiques en 8 langues. Nous détaillons en tableau 3 la composition de ce corpus. Il est important de noter que la classe non pornographique contient des sites web généraux ainsi que des sites web ambigus (sexualité, médecine, mariage).

Tableau 3

Composition de la base de données

Tableau des données linguistiques en français, anglais, allemand, néerlandais, portugais, espagnol, grec et italien.

	PORNO	GENERAL	AMBIGUS	TOTAL NON PORNO
French	830	2042	420	2462
English	3808	1827	640	2467
Gerrman	357	1428	290	1718
Dutch	349	1200	220	1420
Portuguese	63	200	93	293
Spanish	530	1448	641	2089
Greek	309	870	359	1229
Italian	386	1138	223	1361
Total	6614	10153	2886	13039

PORNO GENERAL AMBIGUS TOTALNONPORNO French 830 2 042 420 2 462 English 3 808 1 827 640 2 467 German 357 1 428 290 1 718 Dutch 349 1 200 220 1 420 Portuguese 63 200 93 293 Spanish 530 1 448 641 2 089 Greek 309 870 359 1 229 Italian 386 1 138 223 1 361 Total 6 614 10 153 2 886 13 039

Composition de la base de données

Pour les tests, nous avons conservé uniquement les images aux formats JPEG afin de ne pas conserver les éléments de décorations habituellement au format GIF ou PNG. Nous avons coupé le corpus aléatoirement en deux pour l’apprentissage et le test et gardé en test uniquement des documents avec images. Nous avons obtenu 9 711 pages HTML en apprentissage (6 514 NOTPORNO et 3 197 PORNO) et 8 147 en test (6 520 NOTPORNO et 1 627 PORNO). Nous avons enlevé les mots qui apparaissent dans moins de 20 pages.

5.2.2 – Résultats

92Le tableau de résultats donne le rappel micro-average et macro-average pour les 3 modèles suivants : le modèle de référence Naïve Bayes, le modèle structuré uniquement textuel et le modèle texte+image. Les résultats sont présentés tableau 4.

Tableau 4

Rappel Micro-average et Macro-average sur la base NetProtect

Tableau comparatif des scores Micro-average et Macro-average pour différents modèles.

Modele	Micro-average	Macro-average
Naive Bayes	88.4	89.9
BN Text	92.9	92.5
BN Texte+Image	94.7	93.5

Modèle Micro-average Macro-average Naive Bayes 88.4 89.9 BN Text 92.9 92.5 BN Texte+Image 94.7 93.5

Rappel Micro-average et Macro-average sur la base NetProtect

Nous voyons que le modèle structuré Texte+Image donne 6 % de mieux que le modèle Naïve Bayes pour le rappel Micro-average et environ 4 % de mieux pour le macro-average. Il est supérieur au modèle structuré textuel de respectivement 2 et 1 % qui lui-même améliore le rappel par rapport à Naïve Bayes de 4,5 et 3 %. Notre modèle texte+image réduit l’erreur de classification de 50 % par rapport au modèle Naïve Bayes qui traite uniquement le texte.

6 – Conclusion

93Le modèle de document présenté permet de prendre en compte simultanément la structure et le contenu ainsi que des informations de nature différente. Il est basé sur l’existence de modèles génératifs permettant le calcul de la probabilité a priori pour un document plat d’un certain type (texte, image, son). Nous avons instancié ce modèle en un modèle purement textuel ayant pour vocation la modélisation des documents de type XML ou HTML et en un modèle « Texte+Image » qui a été utilisé pour la classification de sites web. Nous avons montré comment à partir de ce modèle génératif, il était possible de construire par le biais du noyau de Fisher un modèle discriminant qui permet en général d’obtenir de meilleures performances quand on travaille à nombre de classes fixé. Des tests ont été effectués sur 3 corpus de grande taille : un corpus de pages web texte, un de documents XML, un corpus web texte + images. Les résultats démontrent les qualités opérationnelles du modèle proposé et des performances supérieures aux modèles plats. Le modèle est générique et peut être décliné en de nombreuses autres instances pour le traitement de documents structurés et multimédias.

Bibliographie

[BAR 01] Barnard K., Forsyth D., « Combining Textual and Visual Cues for Content Based Image Retrieval on the World Wide Web », Proc. 8th Int. Conference on Computer Vision, vol. 2, 2001, p. 408–415.
[BAR 03] Barnard K., Johnson M., Forsyth D., « Word sense disambiguation with pictures », Workshop on learning word meaning from non-linguistic data, 2003.
[CAS 98] Cascia M. L., Sethi S., Sclaroff S., « Combining Textual and Visual Cues for Content-Based Image Retrieval on the World Wide Web », Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, juin 1998.
[CHA 99] Chan.Y, Harvey R., Smith D., « Building Systems to Block Pornography », Challenge of Image Retrieval, 1999.
[DIL 01] Diligenti M., Gori M., Maggini M., Scarselli F., « Classification of HTML documents by Hidden Tree-Markov Models », Proceedings of ICDAR, Seatle, 2001, WA (USA), p. 849–853.
[DUM 00] Dumais S. T., Chen H., « Hierarchical classification of Web content », Belkin N.J.,Ingwersen P., Leong M.-K., Eds., Proceedings of SIGIR-00, ACM Press, 2000, p. 256–263.
[FUH 02] Fuhr N., Govert N., Kazai G., Lalmas M., « INEX : Initiative for the Evaluation of XML Retrieval », Proceedings ACM SIGIR 2002 Workshop on XML and Information Retrieval, 2002.
[HOF 00] Hofmann T., « Learning the Similarity of Documents : An Information-Geometric Approach to Document Retrieval and Categorization », Research and Development in Information Retrieval, 2000, p. 369-371.
[JAA 99] Jaakkola T. S., Diekhans M., Haussler D., « Using the Fisher kernel method to detect remote protein homologies », Intelligent Systems for Molecular Biology Conference (ISMB’99), Heidelberg, Germany, août 1999, AAAI.
[JOA 98] Joachims T., « Text categorization with support vector machines : learning with many relevant features », Proceedings of ECML-98, Chemnitz, DE, 1998, Springer Verlag, Heidelberg, DE, p. 137–142.
[JON 02] Jones M. J., Rehg J. M., « Detecting Adult Images », rapport, 2002.
[LEW 98] Lewis D. D., « Naive (Bayes) at forty : The independence assumption in information retrieval. », Proceedings of ECML-98, Chemnitz, DE, 1998, Springer Verlag,Heidelberg, DE, p. 4–15.
[ORT 99] Ortega M., Porkaew K., Mehrotra S., « Information Retrieval over Multimedia Documents », the SIGIR Post-Conference Workshop on Multimedia Indexing and Retrieval (ACM SIGIR), 1999.
[PIW ] Piwowarski B., Denoyer L., Gallinari P., « Un modele pour la recherche d’informations sur les documents structures », Proceedings of the 6emes journees Internationales d’Analyse Statistique des Donnees Textuelles (JADT2002).
[SEB 02] Sebastiani F., « Machine learning in automated text categorization », ACM Computing Surveys, vol. 34, n° 1, 2002, p. 1–47.
[WEB 99] webKB, http :// www-2. cs. cmu. edu/ afs/ cs. cmu. edu/ project/ theo-20/ www/ data/ lf, 1999.
[YAN 02] Yang Y., Slattery S., Ghani R., « A Study of Approaches to Hypertext Categorization », Journal of Intelligent Information Systems, vol. 18, n° 2/3, 2002, p. 219–241.
[YI 00] Yi J., Sundaresan N., « A classifier for semi-structured documents », Proceedings of KDD-00, 6th ACM International Conference on Knowledge Discovery and Data Mining, Boston, US, 2000, ACM Press, New York, US, p. 340–344.

Mots-clés éditeurs : apprentissage, classification, documents multimédias, documents structurés, réseaux bayésiens, XML

Un modèle de mixture de modèles génératifs pour les documents structurés multimédias

Application à la classification de documents XML et HTML

Citer cet article

Citer cet article

1 – Introduction

2 – Etat de l’art

3 – Modèle proposé

Document structuré

Un exemple de document structuré

Un exemple de document structuré

3.2 – Le modèle génératif de document

3.3 – Notations

3.3.1 – Composantes du modèle génératif

3.3.2 – Probabilité structurelle

Deux modélisations possibles de la structure

Deux modélisations possibles de la structure

3.3.3 – Probabilité de contenu

3.3.4 – Réseau bayésien final

Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure

Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure

3.3.5 – Apprentissage

3.3.5.1 – Apprentissage des paramètres de structure ? s

3.3.5.2 – Apprentissage des paramètres de contenu ? i

3.4 – Une instance particulière : contenu textuel et estimation des densités conditionnelles par Naïve Bayes

Le réseau bayésien final pour le modèle textuel

Le réseau bayésien final pour le modèle textuel

3.4.1 – Apprentissage et complexité

3.4.2 – Adéquation avec le modèle Naïve Bayes plat

Le réseau bayésien construit pour un document plat

Le réseau bayésien construit pour un document plat

3.5 – Modèle multimédia Texte + Image

Un document structuré comprenant une image et un texte

Un document structuré comprenant une image et un texte

3.5.1 – Modèle d’image

3.5.2 – Apprentissage du modèle d’image

4 – Des modèles génératifs aux modèles discriminants : les noyaux de Fisher

4.1 – Application au modèle textuel

5 – Expériences et résultats

5.1 – Modèle textuel structuré

5.1.1 – Corpus

5.1.2 – Résultats

Performance des 5 classifieurs testés sur le corpus WebKB

Performance des 5 classifieurs testés sur le corpus WebKB

Performance des 5 classifieurs sur le corpus INEX

Performance des 5 classifieurs sur le corpus INEX

5.2 – Modèle multimédia texte+image

5.2.1 – Corpus

Composition de la base de données

Composition de la base de données

5.2.2 – Résultats

Rappel Micro-average et Macro-average sur la base NetProtect

Rappel Micro-average et Macro-average sur la base NetProtect

6 – Conclusion

Bibliographie

Accès institutions

Toutes les institutions

3.3.5.1 – Apprentissage des paramètres de structure ? ^s

3.3.5.2 – Apprentissage des paramètres de contenu ? _i