Article de revue

Un modèle de mixture de modèles génératifs pour les documents structurés multimédias

Application à la classification de documents XML et HTML

Pages 35 à 54

Figure 1
Description de l'image par IA : L'image montre un diagramme de document structuré avec des étiquettes et du texte pour Introduction, Section et Paragraphe.

Un exemple de document structuré

Figure 2
Description de l'image par IA : Deux diagrammes montrant des structures de documents avec des sections, sous-sections et paragraphes.

Deux modélisations possibles de la structure

Figure 3
Description de l'image par IA : Diagram de réseau bayésien avec nœuds de structure et contenu, reliant des sections et paragraphes.

Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tandis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure

Figure 4
Description de l'image par IA : Diagram de réseau bayésien montrant la structure d'un document avec sections et paragraphes.

Le réseau bayésien final pour le modèle textuel

Figure 5
Description de l'image par IA : Document plat avec réseau bayésien. Texte et flèches reliant mots-clés.

Le réseau bayésien construit pour un document plat

Figure 6
Description de l'image par IA : Chien et chat interagissant, image en noir et blanc.

Un document structuré comprenant une image et un texte

Tableau 1
Tableau comparatif des performances de cinq classifieurs avec des scores pour plusieurs métriques.

Performance des 5 classifieurs testés sur le corpus WebKB

Tableau 2
Tableau comparatif des performances de cinq classifieurs avec des scores Macro et Micro.

Performance des 5 classifieurs sur le corpus INEX

Tableau 3
Tableau des données linguistiques en français, anglais, allemand, néerlandais, portugais, espagnol, grec et italien.

Composition de la base de données

Tableau 4
Tableau comparatif des scores Micro-average et Macro-average pour différents modèles.

Rappel Micro-average et Macro-average sur la base NetProtect