Article de revue

Comparaison d'outils pour la visualisation de sources historiques codées en XML/TEI

Pages 37 à 56

Citer cet article


  • Dufournaud, N.
  • et Fekete, J.-D.
(2006). Comparaison d'outils pour la visualisation de sources historiques codées en XML/TEI. Document numérique, . 9(2), 37-56. https://stm.cairn.info/revue-document-numerique-2006-2-page-37?lang=fr.

  • Dufournaud, Nicole.
  • et al.
« Comparaison d'outils pour la visualisation de sources historiques codées en XML/TEI ». Document numérique, 2006/2 Vol. 9, 2006. p.37-56. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2006-2-page-37?lang=fr.

  • DUFOURNAUD, Nicole
  • et FEKETE, Jean-Daniel,
2006. Comparaison d'outils pour la visualisation de sources historiques codées en XML/TEI. Document numérique, 2006/2 Vol. 9, p.37-56. URL : https://stm.cairn.info/revue-document-numerique-2006-2-page-37?lang=fr.

Notes

  • [1]
    Les titres de famille sont des documents relatifs à des familles habitant ou ayant habité dans le diocèse de Nantes. Le noyau primitif des fonds est constitué par les documents confisqués sur les émigrés en 1793-1794. Ils complètent souvent les informations fournies par la précédente sous-série : titres féodaux. Ils sont aussi le fait de versements de fonds privés. Enfin, mais surtout à partir de la fin du 17e siècle, ils proviennent de la Chambre des comptes de Bretagne.
  • [2]
    hhttp:// nicole. dufournaud. net/
  • [3]
  • [4]
    hhttp:// www. w3. org/ RDF/
  • [5]
    Il existe une ontologie populaire nommée « Friend of a Friend » (FOAF) disponible à hhttp:// xmlns. com/ foaf/ 0. 1/ qui décrit des relations sociales à l’ère Internet.
  • [6]
    Sur le site hhttp:// nicole. dufournaud. net

1 – Introduction

1La méthodologie d’étude des sources historiques subit actuellement une évolution rapide avec l’utilisation des outils bureautiques et de l’Internet. Cependant, très peu d’études existent sur l’impact des nouvelles technologies sur le mode de travail de l’historien. Une étude rétrospective serait intéressante, mais sa portée serait sans doute limitée à cause de la grande vitesse d’évolution des technologies et des méthodes associées. Que les nouvelles technologies de gestion du document puissent servir aux historiens, personne n’en doute, mais compte tenu de l’investissement technique, beaucoup d’historiens hésitent à franchir le pas, attendant d’être convaincus de bénéfices d’un investissement coûteux en terme de productivité scientifique. Il existe pour nous trois écueils importants à l’adoption des nouvelles technologies du document numérique par les historiens : la preuve de l’efficacité des nouvelles méthodes, l’existence d’outils pour mettre en œuvre ces méthodes et l’existence de formations appropriées.

2Dans cet article, nous répondons au premier de ces écueils en faisant le bilan d’un travail de thèse en histoire sociale dont la méthode repose grandement sur le codage et l’utilisation de documents numériques structurés pour l’analyse de sources manuscrites historiques. Le corpus que nous avons transcrit et analysé est composé d’environ 1 000 documents de longueurs variables (quelques lignes à quelques pages). Ces documents sont des actes manuscrits des 15e, 16 e et 17e siècles : 409 lettres de rémission, 444 titres de famille [1] 114 visites pastorales et quelques minutes notariales forment la plus grande partie du corpus.

3Nous avons déjà décrit l’essentiel de la méthode utilisée pour coder les sources (Fekete et Dufournaud, 1999). Nous la rappelons brièvement dans la section 2 avec un bref état de l’art. Notre propos est de montrer les multiples exploitations que nous avons faites du corpus une fois codé. Au-delà de la publication en ligne, déjà accessible sur notre site [2], nous avons conçu et utilisé plusieurs outils d’exploration visuelle pour analyser notre corpus. La troisième section est consacrée à la description de ces outils et de leur utilisation au quotidien pour notre travail de thèse. Ce travail n’a été possible que grâce à la collaboration d’une étudiante en histoire et d’un chercheur en informatique. Cette configuration ne pouvant être généralisée, nous décrivons en quatrième section les leçons qui nous semblent importantes à l’issue de ce travail et qui peuvent être généralisées et développées sous forme d’outils à intégrer dans un environnement de travail historique.

2 – Codage et exploitation de sources manuscrites historiques

4Il existe à ce jour un grand nombre de projets utilisant les technologies du document numérique pour publier des sources historiques. Il serait vain d’essayer d’en faire une liste exhaustive ici. Le site de la « Text Encoding Initiative » (TEI (Sperberg-McQueen, Consortium et al., 2003)) en référence une trentaine. En revanche, le nombre de projets d’exploitation numérique de manuscrits historiques est beaucoup plus restreint, tout au plus une dizaine dont les projets Charrette de l’université de Poitiers et de Princeton ou plus récemment les éditions en ligne de l’Ecole des chartes [3] Tous ces projets visent à publier des sources mais aucun n’envisage de faciliter un travail d’analyse sur les sources.

5Plusieurs projets de recherche ont tenté de concevoir et réaliser un environnement d’édition pour les sources historiques manuscrites. En 1995, l’éditeur Thot était utilisé dans (André, Fekete et al., 1995) pour lier textes et images manuscrites. Les projets Bambi (Calabretto, Pinon et al., 1999) (Calabretto et Bozzi, 1998), Philectre (Lecolinet, Likforman-Sulem et al., 1998) et DEBORA (Nichols, Pemberton et al., 2000) ont tenté de fournir des outils d’édition de documents manuscrits ou à intérêts graphiques. Ces projets n’ont pas abouti à des systèmes utilisables pour plusieurs raisons, les deux principales étant qu’ils étaient destinés à la recherche et qu’ils utilisaient des formats de documents ad hoc qui ont disparus aujourd’hui. La situation actuelle est plus optimiste car XML s’est imposé comme format de base pour pratiquement tous les documents structurés. Des outils génériques et relativement faciles à utiliser commencent donc à exister pour éditer ces documents.

6Des projets de publication électronique voient donc le jour, mais ils sont pilotés par des organismes qui disposent de moyens financiers et de personnels importants. Notre démarche décrite dans (Fekete et Dufournaud, 1999) a plutôt été orientée vers une approche individuelle ou de petit groupe ne nécessitant pas de support institutionnel important et visant, en plus de la publication en ligne, à travailler sur les documents. Cette notion de travail nous semble essentiel car, pour nous, un des bénéfices essentiels des outils que nous décrivons dans cet article est le passage du mode « production de document » vers le mode « processus de production de connaissances ». Avec le traitement de texte classique, les outils sont destinés à créer un document final qui sera publié. Les étapes intermédiaires servant à la construction du document sont invisibles ou ne transparaissent qu’à travers le document final. Avec notre mode de travail, une grande partie des traitements et des résultats intermédiaires sont gardés et réutilisables. Le document est une étape des traitements et analyses effectuées mais n’est pas la fin du processus. Celui-ci peut être continué par l’auteur ou par d’autres personnes, appliqué aux mêmes sources ou à d’autres, plus complètes ou différentes. Le processus devient visible, réutilisable et compréhensible et peut être réutilisé pour d’autres analyses, pour compléter l’analyse ou pour inspirer des chercheurs sur la méthode suivie, comme le travail de Claude Gauvard (Gauvard, 1991) nous a inspiré nous-même, bien que l’annexe méthodologique de sa thèse d’état n’ait pas été reproduite dans la version publiée.

7Réutiliser le travail est essentiel car, comme nous l’avons indiqué dans (Fekete et Dufournaud, 1999), le temps de codage des documents est important : de l’ordre de 2 à 3 heures par document. La logique voudrait que ce temps ne soit passé qu’une seule fois mais les pratiques compétitives actuelles interfèrent parfois avec cette logique. Notons qu’il est difficile de comparer ce temps avec celui des pratiques manuelles car nous ne connaissons pas de rapport sur le temps mis par les historiens pour dépouiller leurs sources ni de statistiques sur les pratiques d’échanges de transcriptions. Selon notre expérience, ces échanges de transcriptions sont rares, même s’ils devraient être encouragés par les organismes de recherche qui financent ce travail redondant.

Analyse historique de sources manuscrites : infrastructure

8Nos sources ont été chacune saisies en XML en utilisant le codage préconisé par TEI. Nous nous sommes restreints à la version « légère » de TEI. Nous avons adopté un codage en niveaux sémantiques, chaque niveau ajoutant des annotations plus abstraites et éventuellement moins génériques. Les niveaux que nous avons retenus sont :

  1. Codage syntaxique : chaque document manuscrit est transcrit diplomatiquement (en respectant les passages à la ligne et autant que possible la topographie de la page). A ce niveau, nous avons noté les abréviations, les numéros de feuillets et de lignes, les insertions, les suppressions, les erreurs manifestes (sic), les sections illisibles ou difficiles à lire (non sûres). Tous ces éléments sont standard dans TEI ce qui permet en outre de spécifier des régularisations ou des corrections en attributs. A ce stade, les documents sont transcrits et peuvent être vus dans leur version originelle ou régularisée à l’aide de feuilles de style.
  2. Codage sémantique. Un certain nombre de catégories sémantiques sont balisées : les dates, les noms, les lieux. Les dates sont régularisées (en attribut) car le calendrier du 16e siècle est différent du nôtre. Les noms aussi sont régularisés. Comme nous le verrons plus loin, la régularisation des noms nécessite plusieurs passes sur les documents et l’utilisation d’index générés.
  3. Codage analytique. TEI propose un mécanisme d’annotations appelé « interprétation » qui s’organise en deux phases : la déclaration de catégories d’interprétations et l’association de ces catégories à des éléments TEI. Par exemple, si le sexe des personnes est important, on peut déclarer les catégories interprétatives suivantes :

Code XML définissant des genres : masculin et féminin.

9L’association entre ces catégories et les éléments se fait avec l’attribut standard « ana » de TEI :

10Il est possible d’associer plusieurs catégories à un même élément. Lorsqu’une partie de document n’est pas balisée, l’élément <seg> peut être utilisé pour lui accrocher un attribut analytique.

11Les catégories d’interprétation sont placées dans un fichier unique qui est inclus dans chaque document TEI comme entité externe XML. Ce mécanisme d’interprétation est très proche de la grille d’analyse utilisée par certains historiens pour dépouiller leurs sources (Gauvard, 1991).

12Techniquement, ces trois niveaux de codage se retrouvent dans un même document XML, mais les codages sont ajoutés en plusieurs étapes. Il serait intéressant que XML permette de garder les trois niveaux dans des documents séparés.

13Nous avons évalué le temps de travail à environ 1h30 par document pour la transcription et 1h30 pour le codage. Ce temps peut paraître important mais le temps de transcription est de toute façon indispensable pour toute analyse de source manuscrite, en particulier faite dans le cadre d’une thèse en histoire. Notre méthode demande du temps pour coder la transcription, mais ce temps ne nous semble pas déraisonnable par rapport à la méthode standard d’exploitation des sources. Nous ne disposons pas de chiffres précis sur le temps requis à la mise en forme des annexes dans un travail de thèse standard ; même si le temps de saisie d’une transcription dans un logiciel de traitement de texte peut sembler inférieur à 1h30, le temps nécessaire à l’établissement d’un index – nécessitant la régularisation des noms propres par exemple – est certainement comparable à notre temps de codage. Les exploitations multiples du codage faites ultérieurement permettent d’économiser beaucoup plus de temps que celui nécessaire à l’établir. Le problème se pose différemment lorsque les sources sont imprimées car alors, elles ne nécessitent pas de transcription ni de saisie et l’évaluation du rapport coût/bénéfice change sensiblement.

14A partir du codage, plusieurs outils ont été construits pour traduire le corpus en HTML et créer des index, comme le montre la figure 1. Cette représentation permet de naviguer dans les documents suivant plusieurs axes (index). La création d’un index des noms permet aussi de retravailler les documents afin de les régulariser sur l’ensemble du corpus. Cette régularisation est une condition essentielle de l’utilisabilité du corpus car elle permet de garder à jour le réseau social de chaque personne présente dans les sources.

Figure 1

Représentation sous la forme d’un site Web du corpus XML/TEI. Les index disponibles sont listés en haut à gauche. L’index sélectionné (ici celui des noms) est représenté en dessous. La transcription traduite en HTML est disposée en haut à droite tandis que l’image du manuscrit, lorsqu’il est disponible, est en bas à droite

Description de l'image par IA : Page web affichant une transcription et un manuscrit. Index à gauche, texte en haut à droite, image du manuscrit en bas à droite.

Représentation sous la forme d’un site Web du corpus XML/TEI. Les index disponibles sont listés en haut à gauche. L’index sélectionné (ici celui des noms) est représenté en dessous. La transcription traduite en HTML est disposée en haut à droite tandis que l’image du manuscrit, lorsqu’il est disponible, est en bas à droite

15Un avantage indéniable à l’utilisation de TEI/XML est la facilité avec laquelle les données peuvent être corrigées lorsque des erreurs apparaissent. La construction d’index est un exemple où des allers-retours continuels sont indispensables. Loin d’être pénible, le cycle création d’index/vérification se fait de manière simple et naturel car les index référencent les documents XML/TEI. Un nom isolé est facile à repérer ; il référence l’emplacement du document où il apparaît : il suffit de cliquer sur le lien pour faire apparaître le document et le corriger.

16Ce mécanisme est utilisable pour les index mais aussi pour les catégories interprétatives. Ainsi, au lieu de créer initialement une hiérarchie complexe de catégories interprétatives, l’annotation interprétative se fait par raffinements successifs : un ensemble minimal de catégories est créé et les documents sont annotés avec ces catégories. Par la suite, les index permettent de parcourir les documents par catégories : des sous-catégories émergent alors. Il suffit ensuite de cliquer sur les bons liens pour attribuer des sous-catégories aux éléments. Ce processus est raffiné autant que nécessaire, mais seulement quand la création de sous-catégories se justifie.

17Nous n’avons pas utilisé ce processus pour ajouter des balises car TEI est déjà très riche en balises et attributs et nous avons suivi les recommandations de TEI avec soin.

3 – Expérience de visualisation pour les documents historiques

18Pour travailler sur le corpus, nous avons utilisé essentiellement quatre outils de visualisation, chronologiquement : Compus, InfoZoom, GraphViz et la boîte à outils InfoVis.

19Nous ne proposons pas de nouvelles visualisations car il existe déjà un grand nombre de systèmes utilisables pour nos besoins. Nous pensons que les outils que nous avons utilisé représentent l’état de l’art du domaine car le second auteur de cet article a une connaissance approfondie du domaine. A titre informatif, une liste à jour des outils de visualisation peut être trouvée sur le site dmoz.org à la rubrique « information visualization ».

3.1 – Compus

20Compus (Fekete et Dufournaud, 2000) est un outil de visualisation de corpus XML qui visualise chaque document sous la forme d’un rectangle vertical. Chaque document XML est considéré comme une longue chaîne de caractères et chaque caractère a un index. Par exemple, le document suivant :

Description de l'image par IA : début tableau 1re rangée  0 2e rangée  1 3e rangée  0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 4e rangée  petit triangle blanc pointant vers la gauche a b c d inférieur à B majuscule supérieur à e f g h inférieur à barre oblique B majuscule inférieur à c supérieur à i f j k 1 inférieur à 0 supérieur à m o p inférieur à barre oblique D majuscule supérieur à inférieur à barre oblique C majuscule supérieur à q r s t inférieur à barre oblique B majuscule supérieur à fin tableau

21est transformé en une suite d’intervalles A=[0,48[, B=[7,18[, C=[18,40[, D=[25,36[, chacun des éléments est alors associé à une couleur et affiché comme une longue bande dont les couleurs se superposent, la dernière couleur étant celle que l’on voit. Enfin, cette longue bande est coupée en lignes, comme le montre le tableau ci-dessous :

Table avec deux colonnes "Index" et "Couleur", listant des valeurs numériques et des lettres (A, B, C, D) à des intervalles réguliers.
Index Couleur 0 A A A A A 5 A A B B B 10 B B B B B 15 B B B C C 20 C C C C C 25 D D D D D 30 D D D D D 35 D C C C C 40 A A A A A 45 A A A

22Tous les documents sont mis côte à côte et remis à l’échelle pour que le plus grand document occupe toute la hauteur de l’affichage, comme le montre la figure 2.

Figure 2

99 lettres de Rémission codées en XML/TEI visualisées dans Compus

Description de l'image par IA : Visualisation de données codées en XML/TEI dans le logiciel Compus, avec une légende de couleurs pour différents éléments.

99 lettres de Rémission codées en XML/TEI visualisées dans Compus

23Compus permet d’autres modes d’affichage où, au lieu de représenter les éléments à leur place relative dans le document, ils les regroupent et en montre la surface totale. Il est ainsi possible de comparer visuellement si un document contient plus d’abréviations qu’un autre. Il permet aussi de trier les documents selon le nombre ou la surface des éléments visibles.

24L’intérêt de Compus réside surtout dans sa capacité à visualiser le corpus transformé. Il est possible d’appliquer une feuille de style XSLT sur chaque document pour visualiser la version transformée. Nous avons développé une feuille de style qui met en évidence la transformation d’attributs analytiques TEI en éléments XML. Compus visualise alors les éléments d’interprétation et montre des catégories sémantiques plutôt que syntaxiques.

25Nous avons utilisé Compus dans une phase amont des réflexions sur le corpus pour confirmer ou infirmer des hypothèses. Par exemple, une hypothèse était que le Roi avait gracié plus de nobles autour de 1 532 dans le contexte du rattachement de la Bretagne au royaume de France. Compus a confirmé cette hypothèse en montrant que la moitié du corpus avait trait à des nobles.

3.1.1 – Bénéfices pour l’analyse de sources

26Compus a été utilisé efficacement lors du début de l’analyse du corpus. Il a permis de faciliter la compréhension globale du corpus, tant qualitativement que quantitativement. Il a aussi permis de créer des illustrations pour des mémoires de maîtrise et DEA pour mettre en évidence la fréquence de certains phénomènes ou leur rareté.

3.1.2 – Défauts pour l’analyse des sources

27En revanche, la manipulation de Compus est un peu difficile, comme beaucoup de produits de recherche. Il nécessite en outre la connaissance du langage XSLT pour créer des feuilles de style pour les transformations. Même si des feuilles de style déjà faites peuvent être utilisées, Compus reste ardu de manipulation.

28Nous avons découvert InfoZoom après avoir conçu et réalisé Compus et avons constaté que beaucoup de fonctionnalités de Compus pouvaient s’y retrouver. Le seul point manquant était la visualisation de la distribution des événements dans le corpus (par exemple, reconnaître le type de document en voyant sa structure).

3.2 – InfoZoom

29InfoZoom est un outil de visualisation d’information conçu par une équipe de recherche (Spenke, Beilken et al., 1996) et commercialisé par la société allemande HumanIT. Il est destiné à afficher de grandes tables et à naviguer rapidement dans ces tables.

30Une table pour InfoZoom est vue comme une suite d’enregistrements successifs, telle une table de base de données. InfoZoom affiche ensuite cette table de manière similaire à un tableur. En plus de ce mode de représentation, InfoZoom permet de compresser les tables. Dans cette configuration, toutes les valeurs identiques de cellules qui se suivent, sont représentées comme une seule valeur.

31L’utilisation rationnelle d’InfoZoom requiert une réflexion initiale car la flexibilité du système ne s’exprime que lorsque les données sont mises dans un format adéquat. Après discussion avec Mickael Spenke, auteur d’InfoZoom, nous avons opté pour le format suivant : chaque attribut analytique définit un événement qui est visualisé comme une colonne de la table d’InfoZoom. Cette colonne contient le nom du document, la date du document, la catégorie de l’attribut analytique, l’attribut analytique lui-même et le nombre d’occurrence de cet attribut dans le fichier. Par exemple, le document B19-0022-pinczault, rédigé le 22 mai 1510, contient les éléments suivants :

Description de l'image par IA : Texte XML avec balises et contenu incompréhensible.