Article de revue

Construction incrémentale d'une ontologie par analyse du texte et de la structure des documents

Pages 77 à 91

Figure 1
Description d'une espèce botanique avec texte et illustrations en noir et blanc.

Description d’une espèce. Les pages des volumes papier fournis par l’IRD ont été numérisées en TIFF, puis le texte a été extrait par un logiciel d’OCR. C’est sur le texte ainsi extrait que portent les travaux d’analyse structurelle et linguistique menés dans le projet BIOTIM

Figure 2
Code XML avec annotations morpho-syntaxiques pour des mots en français.

Exemple d’annotations morpho-syntaxiques au format MAF

Figure 3
Description de l'image par IA : Diagramme montrant la conversion de texte en XML, puis en OWL et MAF, avec des étapes d'analyse et d'extraction.

La structure XML, obtenue par rétroconversion à partir du texte, sert d’une part à construire une hiérarchie de classes OWL reflétant la taxinomie botanique traditionnelle et d’autre part à mieux cibler des traitements linguistiques permettant d’extraire les informations relatives aux organes constitutifs des plantes

Figure 4
Code XML représentant les relations entre genres et espèces dans un volume de la Flore du Cameroun.

Aperçu général de la représentation des relations entre genres et espèces dans un volume de la Flore du Cameroun après conversion en XML

Figure 5
Code XML représentant la hiérarchie de classes OWL pour la taxonomie des plantes.

Représentation OWL de la hiérarchie de classes

Figure 6
Texte XML décrivant une espèce botanique avec détails physiques.

Représentation XML de la structure logique d’une fiche décrivant une espèce. Les paragraphes situés dans l’élément description contiennent une description physique détaillée de l’espèce

Figure 7
Tige courte, feuilles lancéolées, fleurs blanches et vertes, bractées florales, pédicelle, sépales et pétales décrits en détail.

Description des caractéristiques physiques d’une espèce

Figure
Description de l'image par IA :
Figure 8
Description de l'image par IA : Code XML avec des annotations lexicographiques pour des termes botaniques comme sépale, dorsal, ovale-lancéolé, etc.

Début des annotations liées à la description d’un sépale dorsal