Comparaison d'outils pour la visualisation de sources historiques codées en XML/TEI
Pages 37 à 56
Citer cet article
- DUFOURNAUD, Nicole
- et FEKETE, Jean-Daniel,
- Dufournaud, Nicole.
- et al.
- Dufournaud, N.
- et Fekete, J.-D.
Citer cet article
- Dufournaud, N.
- et Fekete, J.-D.
- Dufournaud, Nicole.
- et al.
- DUFOURNAUD, Nicole
- et FEKETE, Jean-Daniel,
Notes
-
[1]
Les titres de famille sont des documents relatifs à des familles habitant ou ayant habité dans le diocèse de Nantes. Le noyau primitif des fonds est constitué par les documents confisqués sur les émigrés en 1793-1794. Ils complètent souvent les informations fournies par la précédente sous-série : titres féodaux. Ils sont aussi le fait de versements de fonds privés. Enfin, mais surtout à partir de la fin du 17e siècle, ils proviennent de la Chambre des comptes de Bretagne.
-
[2]
hhttp:// nicole. dufournaud. net/
- [3]
-
[4]
hhttp:// www. w3. org/ RDF/
-
[5]
Il existe une ontologie populaire nommée « Friend of a Friend » (FOAF) disponible à hhttp:// xmlns. com/ foaf/ 0. 1/ qui décrit des relations sociales à l’ère Internet.
-
[6]
Sur le site hhttp:// nicole. dufournaud. net
1 – Introduction
1La méthodologie d’étude des sources historiques subit actuellement une évolution rapide avec l’utilisation des outils bureautiques et de l’Internet. Cependant, très peu d’études existent sur l’impact des nouvelles technologies sur le mode de travail de l’historien. Une étude rétrospective serait intéressante, mais sa portée serait sans doute limitée à cause de la grande vitesse d’évolution des technologies et des méthodes associées. Que les nouvelles technologies de gestion du document puissent servir aux historiens, personne n’en doute, mais compte tenu de l’investissement technique, beaucoup d’historiens hésitent à franchir le pas, attendant d’être convaincus de bénéfices d’un investissement coûteux en terme de productivité scientifique. Il existe pour nous trois écueils importants à l’adoption des nouvelles technologies du document numérique par les historiens : la preuve de l’efficacité des nouvelles méthodes, l’existence d’outils pour mettre en œuvre ces méthodes et l’existence de formations appropriées.
2Dans cet article, nous répondons au premier de ces écueils en faisant le bilan d’un travail de thèse en histoire sociale dont la méthode repose grandement sur le codage et l’utilisation de documents numériques structurés pour l’analyse de sources manuscrites historiques. Le corpus que nous avons transcrit et analysé est composé d’environ 1 000 documents de longueurs variables (quelques lignes à quelques pages). Ces documents sont des actes manuscrits des 15e, 16 e et 17e siècles : 409 lettres de rémission, 444 titres de famille [1] 114 visites pastorales et quelques minutes notariales forment la plus grande partie du corpus.
3Nous avons déjà décrit l’essentiel de la méthode utilisée pour coder les sources (Fekete et Dufournaud, 1999). Nous la rappelons brièvement dans la section 2 avec un bref état de l’art. Notre propos est de montrer les multiples exploitations que nous avons faites du corpus une fois codé. Au-delà de la publication en ligne, déjà accessible sur notre site [2], nous avons conçu et utilisé plusieurs outils d’exploration visuelle pour analyser notre corpus. La troisième section est consacrée à la description de ces outils et de leur utilisation au quotidien pour notre travail de thèse. Ce travail n’a été possible que grâce à la collaboration d’une étudiante en histoire et d’un chercheur en informatique. Cette configuration ne pouvant être généralisée, nous décrivons en quatrième section les leçons qui nous semblent importantes à l’issue de ce travail et qui peuvent être généralisées et développées sous forme d’outils à intégrer dans un environnement de travail historique.
2 – Codage et exploitation de sources manuscrites historiques
4Il existe à ce jour un grand nombre de projets utilisant les technologies du document numérique pour publier des sources historiques. Il serait vain d’essayer d’en faire une liste exhaustive ici. Le site de la « Text Encoding Initiative » (TEI (Sperberg-McQueen, Consortium et al., 2003)) en référence une trentaine. En revanche, le nombre de projets d’exploitation numérique de manuscrits historiques est beaucoup plus restreint, tout au plus une dizaine dont les projets Charrette de l’université de Poitiers et de Princeton ou plus récemment les éditions en ligne de l’Ecole des chartes [3] Tous ces projets visent à publier des sources mais aucun n’envisage de faciliter un travail d’analyse sur les sources.
5Plusieurs projets de recherche ont tenté de concevoir et réaliser un environnement d’édition pour les sources historiques manuscrites. En 1995, l’éditeur Thot était utilisé dans (André, Fekete et al., 1995) pour lier textes et images manuscrites. Les projets Bambi (Calabretto, Pinon et al., 1999) (Calabretto et Bozzi, 1998), Philectre (Lecolinet, Likforman-Sulem et al., 1998) et DEBORA (Nichols, Pemberton et al., 2000) ont tenté de fournir des outils d’édition de documents manuscrits ou à intérêts graphiques. Ces projets n’ont pas abouti à des systèmes utilisables pour plusieurs raisons, les deux principales étant qu’ils étaient destinés à la recherche et qu’ils utilisaient des formats de documents ad hoc qui ont disparus aujourd’hui. La situation actuelle est plus optimiste car XML s’est imposé comme format de base pour pratiquement tous les documents structurés. Des outils génériques et relativement faciles à utiliser commencent donc à exister pour éditer ces documents.
6Des projets de publication électronique voient donc le jour, mais ils sont pilotés par des organismes qui disposent de moyens financiers et de personnels importants. Notre démarche décrite dans (Fekete et Dufournaud, 1999) a plutôt été orientée vers une approche individuelle ou de petit groupe ne nécessitant pas de support institutionnel important et visant, en plus de la publication en ligne, à travailler sur les documents. Cette notion de travail nous semble essentiel car, pour nous, un des bénéfices essentiels des outils que nous décrivons dans cet article est le passage du mode « production de document » vers le mode « processus de production de connaissances ». Avec le traitement de texte classique, les outils sont destinés à créer un document final qui sera publié. Les étapes intermédiaires servant à la construction du document sont invisibles ou ne transparaissent qu’à travers le document final. Avec notre mode de travail, une grande partie des traitements et des résultats intermédiaires sont gardés et réutilisables. Le document est une étape des traitements et analyses effectuées mais n’est pas la fin du processus. Celui-ci peut être continué par l’auteur ou par d’autres personnes, appliqué aux mêmes sources ou à d’autres, plus complètes ou différentes. Le processus devient visible, réutilisable et compréhensible et peut être réutilisé pour d’autres analyses, pour compléter l’analyse ou pour inspirer des chercheurs sur la méthode suivie, comme le travail de Claude Gauvard (Gauvard, 1991) nous a inspiré nous-même, bien que l’annexe méthodologique de sa thèse d’état n’ait pas été reproduite dans la version publiée.
7Réutiliser le travail est essentiel car, comme nous l’avons indiqué dans (Fekete et Dufournaud, 1999), le temps de codage des documents est important : de l’ordre de 2 à 3 heures par document. La logique voudrait que ce temps ne soit passé qu’une seule fois mais les pratiques compétitives actuelles interfèrent parfois avec cette logique. Notons qu’il est difficile de comparer ce temps avec celui des pratiques manuelles car nous ne connaissons pas de rapport sur le temps mis par les historiens pour dépouiller leurs sources ni de statistiques sur les pratiques d’échanges de transcriptions. Selon notre expérience, ces échanges de transcriptions sont rares, même s’ils devraient être encouragés par les organismes de recherche qui financent ce travail redondant.
Analyse historique de sources manuscrites : infrastructure
8Nos sources ont été chacune saisies en XML en utilisant le codage préconisé par TEI. Nous nous sommes restreints à la version « légère » de TEI. Nous avons adopté un codage en niveaux sémantiques, chaque niveau ajoutant des annotations plus abstraites et éventuellement moins génériques. Les niveaux que nous avons retenus sont :
- Codage syntaxique : chaque document manuscrit est transcrit diplomatiquement (en respectant les passages à la ligne et autant que possible la topographie de la page). A ce niveau, nous avons noté les abréviations, les numéros de feuillets et de lignes, les insertions, les suppressions, les erreurs manifestes (sic), les sections illisibles ou difficiles à lire (non sûres). Tous ces éléments sont standard dans TEI ce qui permet en outre de spécifier des régularisations ou des corrections en attributs. A ce stade, les documents sont transcrits et peuvent être vus dans leur version originelle ou régularisée à l’aide de feuilles de style.
- Codage sémantique. Un certain nombre de catégories sémantiques sont balisées : les dates, les noms, les lieux. Les dates sont régularisées (en attribut) car le calendrier du 16e siècle est différent du nôtre. Les noms aussi sont régularisés. Comme nous le verrons plus loin, la régularisation des noms nécessite plusieurs passes sur les documents et l’utilisation d’index générés.
- Codage analytique. TEI propose un mécanisme d’annotations appelé « interprétation » qui s’organise en deux phases : la déclaration de catégories d’interprétations et l’association de ces catégories à des éléments TEI. Par exemple, si le sexe des personnes est important, on peut déclarer les catégories interprétatives suivantes :
9L’association entre ces catégories et les éléments se fait avec l’attribut standard « ana » de TEI :
10Il est possible d’associer plusieurs catégories à un même élément. Lorsqu’une partie de document n’est pas balisée, l’élément <seg> peut être utilisé pour lui accrocher un attribut analytique.
11Les catégories d’interprétation sont placées dans un fichier unique qui est inclus dans chaque document TEI comme entité externe XML. Ce mécanisme d’interprétation est très proche de la grille d’analyse utilisée par certains historiens pour dépouiller leurs sources (Gauvard, 1991).
12Techniquement, ces trois niveaux de codage se retrouvent dans un même document XML, mais les codages sont ajoutés en plusieurs étapes. Il serait intéressant que XML permette de garder les trois niveaux dans des documents séparés.
13Nous avons évalué le temps de travail à environ 1h30 par document pour la transcription et 1h30 pour le codage. Ce temps peut paraître important mais le temps de transcription est de toute façon indispensable pour toute analyse de source manuscrite, en particulier faite dans le cadre d’une thèse en histoire. Notre méthode demande du temps pour coder la transcription, mais ce temps ne nous semble pas déraisonnable par rapport à la méthode standard d’exploitation des sources. Nous ne disposons pas de chiffres précis sur le temps requis à la mise en forme des annexes dans un travail de thèse standard ; même si le temps de saisie d’une transcription dans un logiciel de traitement de texte peut sembler inférieur à 1h30, le temps nécessaire à l’établissement d’un index – nécessitant la régularisation des noms propres par exemple – est certainement comparable à notre temps de codage. Les exploitations multiples du codage faites ultérieurement permettent d’économiser beaucoup plus de temps que celui nécessaire à l’établir. Le problème se pose différemment lorsque les sources sont imprimées car alors, elles ne nécessitent pas de transcription ni de saisie et l’évaluation du rapport coût/bénéfice change sensiblement.
14A partir du codage, plusieurs outils ont été construits pour traduire le corpus en HTML et créer des index, comme le montre la figure 1. Cette représentation permet de naviguer dans les documents suivant plusieurs axes (index). La création d’un index des noms permet aussi de retravailler les documents afin de les régulariser sur l’ensemble du corpus. Cette régularisation est une condition essentielle de l’utilisabilité du corpus car elle permet de garder à jour le réseau social de chaque personne présente dans les sources.
Représentation sous la forme d’un site Web du corpus XML/TEI. Les index disponibles sont listés en haut à gauche. L’index sélectionné (ici celui des noms) est représenté en dessous. La transcription traduite en HTML est disposée en haut à droite tandis que l’image du manuscrit, lorsqu’il est disponible, est en bas à droite
Représentation sous la forme d’un site Web du corpus XML/TEI. Les index disponibles sont listés en haut à gauche. L’index sélectionné (ici celui des noms) est représenté en dessous. La transcription traduite en HTML est disposée en haut à droite tandis que l’image du manuscrit, lorsqu’il est disponible, est en bas à droite
15Un avantage indéniable à l’utilisation de TEI/XML est la facilité avec laquelle les données peuvent être corrigées lorsque des erreurs apparaissent. La construction d’index est un exemple où des allers-retours continuels sont indispensables. Loin d’être pénible, le cycle création d’index/vérification se fait de manière simple et naturel car les index référencent les documents XML/TEI. Un nom isolé est facile à repérer ; il référence l’emplacement du document où il apparaît : il suffit de cliquer sur le lien pour faire apparaître le document et le corriger.
16Ce mécanisme est utilisable pour les index mais aussi pour les catégories interprétatives. Ainsi, au lieu de créer initialement une hiérarchie complexe de catégories interprétatives, l’annotation interprétative se fait par raffinements successifs : un ensemble minimal de catégories est créé et les documents sont annotés avec ces catégories. Par la suite, les index permettent de parcourir les documents par catégories : des sous-catégories émergent alors. Il suffit ensuite de cliquer sur les bons liens pour attribuer des sous-catégories aux éléments. Ce processus est raffiné autant que nécessaire, mais seulement quand la création de sous-catégories se justifie.
17Nous n’avons pas utilisé ce processus pour ajouter des balises car TEI est déjà très riche en balises et attributs et nous avons suivi les recommandations de TEI avec soin.
3 – Expérience de visualisation pour les documents historiques
18Pour travailler sur le corpus, nous avons utilisé essentiellement quatre outils de visualisation, chronologiquement : Compus, InfoZoom, GraphViz et la boîte à outils InfoVis.
19Nous ne proposons pas de nouvelles visualisations car il existe déjà un grand nombre de systèmes utilisables pour nos besoins. Nous pensons que les outils que nous avons utilisé représentent l’état de l’art du domaine car le second auteur de cet article a une connaissance approfondie du domaine. A titre informatif, une liste à jour des outils de visualisation peut être trouvée sur le site dmoz.org à la rubrique « information visualization ».
3.1 – Compus
20Compus (Fekete et Dufournaud, 2000) est un outil de visualisation de corpus XML qui visualise chaque document sous la forme d’un rectangle vertical. Chaque document XML est considéré comme une longue chaîne de caractères et chaque caractère a un index. Par exemple, le document suivant :
21est transformé en une suite d’intervalles A=[0,48[, B=[7,18[, C=[18,40[, D=[25,36[, chacun des éléments est alors associé à une couleur et affiché comme une longue bande dont les couleurs se superposent, la dernière couleur étant celle que l’on voit. Enfin, cette longue bande est coupée en lignes, comme le montre le tableau ci-dessous :
22Tous les documents sont mis côte à côte et remis à l’échelle pour que le plus grand document occupe toute la hauteur de l’affichage, comme le montre la figure 2.
99 lettres de Rémission codées en XML/TEI visualisées dans Compus
99 lettres de Rémission codées en XML/TEI visualisées dans Compus
23Compus permet d’autres modes d’affichage où, au lieu de représenter les éléments à leur place relative dans le document, ils les regroupent et en montre la surface totale. Il est ainsi possible de comparer visuellement si un document contient plus d’abréviations qu’un autre. Il permet aussi de trier les documents selon le nombre ou la surface des éléments visibles.
24L’intérêt de Compus réside surtout dans sa capacité à visualiser le corpus transformé. Il est possible d’appliquer une feuille de style XSLT sur chaque document pour visualiser la version transformée. Nous avons développé une feuille de style qui met en évidence la transformation d’attributs analytiques TEI en éléments XML. Compus visualise alors les éléments d’interprétation et montre des catégories sémantiques plutôt que syntaxiques.
25Nous avons utilisé Compus dans une phase amont des réflexions sur le corpus pour confirmer ou infirmer des hypothèses. Par exemple, une hypothèse était que le Roi avait gracié plus de nobles autour de 1 532 dans le contexte du rattachement de la Bretagne au royaume de France. Compus a confirmé cette hypothèse en montrant que la moitié du corpus avait trait à des nobles.
3.1.1 – Bénéfices pour l’analyse de sources
26Compus a été utilisé efficacement lors du début de l’analyse du corpus. Il a permis de faciliter la compréhension globale du corpus, tant qualitativement que quantitativement. Il a aussi permis de créer des illustrations pour des mémoires de maîtrise et DEA pour mettre en évidence la fréquence de certains phénomènes ou leur rareté.
3.1.2 – Défauts pour l’analyse des sources
27En revanche, la manipulation de Compus est un peu difficile, comme beaucoup de produits de recherche. Il nécessite en outre la connaissance du langage XSLT pour créer des feuilles de style pour les transformations. Même si des feuilles de style déjà faites peuvent être utilisées, Compus reste ardu de manipulation.
28Nous avons découvert InfoZoom après avoir conçu et réalisé Compus et avons constaté que beaucoup de fonctionnalités de Compus pouvaient s’y retrouver. Le seul point manquant était la visualisation de la distribution des événements dans le corpus (par exemple, reconnaître le type de document en voyant sa structure).
3.2 – InfoZoom
29InfoZoom est un outil de visualisation d’information conçu par une équipe de recherche (Spenke, Beilken et al., 1996) et commercialisé par la société allemande HumanIT. Il est destiné à afficher de grandes tables et à naviguer rapidement dans ces tables.
30Une table pour InfoZoom est vue comme une suite d’enregistrements successifs, telle une table de base de données. InfoZoom affiche ensuite cette table de manière similaire à un tableur. En plus de ce mode de représentation, InfoZoom permet de compresser les tables. Dans cette configuration, toutes les valeurs identiques de cellules qui se suivent, sont représentées comme une seule valeur.
31L’utilisation rationnelle d’InfoZoom requiert une réflexion initiale car la flexibilité du système ne s’exprime que lorsque les données sont mises dans un format adéquat. Après discussion avec Mickael Spenke, auteur d’InfoZoom, nous avons opté pour le format suivant : chaque attribut analytique définit un événement qui est visualisé comme une colonne de la table d’InfoZoom. Cette colonne contient le nom du document, la date du document, la catégorie de l’attribut analytique, l’attribut analytique lui-même et le nombre d’occurrence de cet attribut dans le fichier. Par exemple, le document B19-0022-pinczault, rédigé le 22 mai 1510, contient les éléments suivants :
32Cette structure est créée pour tous les documents et visualisés dans InfoZoom sous plusieurs formes. La plus simple est montrée en figure 3 et est très facile à comprendre mais ne donne pas une bonne vue d’ensemble. InfoZoom offre une option de représentation compressée de la table qui donne une vue d’ensemble et facilite l’exploration, comme montré en figure 3. Ces opérations sont rapides, incrémentales, réversibles et permettent de naviguer de l’ensemble à la sous-partie d’intérêt puis, en cliquant sur le nom du document, à accéder à la source elle-même.
Séquence de vues pour naviguer vers des documents spécifiques dans la représentation compressée d’InfoZoom
Séquence de vues pour naviguer vers des documents spécifiques dans la représentation compressée d’InfoZoom
33Les actions sont :
- cliquer à gauche sur le label « Date » pour ordonner par date,
- cliquer sur le label « groupe » pour ordonner alphabétiquement la ligne
- double-cliquer sur les groupes « T… » pour ne voir que celui-ci,
- double-cliquer sur le groupe « type-pardon »,
- cliquer sur le label « Key » à gauche pour ordonner par nom de document puis double-cliquer sur « B1… » pour ne voir que les documents avec ce préfixe. La dernière vue montre tous les documents choisis sur lesquels on peut cliquer pour les lire
3.2.1 – Bénéfices pour l’analyse de sources
34InfoZoom permet de visualiser et de naviguer dans les caractéristiques analytiques d’un corpus XML/TEI à plusieurs niveaux : du détail, de l’ensemble ou de degrés intermédiaires (groupe de documents). De plus, il permet d’accéder au contenu du document XML grâce à sa bonne intégration avec le système d’exploitation : cliquer sur le nom du document fait apparaître la transcription dans un navigateur Web. InfoZoom a remplacé l’explorateur de Windows pour le travail sur le corpus.
3.2.2 – Défauts pour l’analyse des sources
35Pour être utilisé efficacement, InfoZoom requiert une structure qui diffère un peu des habitudes des chercheurs et nécessite une conversion des documents XML/TEI en tables. Ce sont à nos yeux des défauts extrêmement mineurs car il serait illusoire de penser qu’un nouvel outil ne va rien changer aux habitudes des chercheurs et ne demandera aucune conversion ou extraction de format.
3.3 – GraphViz
36GraphViz ( wwww. graphviz. org) est un ensemble de programmes distribué gratuitement par la société AT&T et destiné à afficher des graphes. Il propose plusieurs algorithmes de calcul de placement de graphes : dot pour les graphes orientés placés en niveaux, neato pour les graphes non orientés placés par champs de forces, twopi et circo pour des placements de graphes circulaires, etc.
37Nous avons utilisé GraphViz pour visualiser les arbres généalogiques des personnages apparaissant dans les sources à l’aide d’un programme de traduction de données généalogiques en données assimilables par le programme dot (figure 4, figure 5). Nous avons aussi utilisé GraphViz pour visualiser le réseau social construit par l’ensemble des documents (figure 6).
Représentation d’un arbre généalogique placé automatiquement avec le logiciel GenoPro en haut et avec GraphViz/dot en bas. Les petits rectangles représentent des familles et les pointillés les femmes. Les remariages et les croisements posent des problèmes au haut tandis que dot les traite correctement
Représentation d’un arbre généalogique placé automatiquement avec le logiciel GenoPro en haut et avec GraphViz/dot en bas. Les petits rectangles représentent des familles et les pointillés les femmes. Les remariages et les croisements posent des problèmes au haut tandis que dot les traite correctement
Extrait des arbres généalogiques produits à l’aide de GraphViz/dot à partir de fichiers généalogiques
Extrait des arbres généalogiques produits à l’aide de GraphViz/dot à partir de fichiers généalogiques
Réseau social des personnages importants du corpus. Il s’agit d’un réseau reliant des personnages à des documents. Seuls les personnages référencés par au moins deux documents apparaissent
Réseau social des personnages importants du corpus. Il s’agit d’un réseau reliant des personnages à des documents. Seuls les personnages référencés par au moins deux documents apparaissent
38Les programmes d’édition de généalogies sont nombreux et de bonne qualité mais ils ne sont pas conçus pour visualiser correctement des arbres gros ou complexes (figure 4). Par exemple, la société du 16e siècle utilise les mariages pour sceller des alliances entre familles commerçantes : les relations entre familles sont entrecroisées, ce qui les rend trop complexes pour les méthodes de placement des programmes de généalogie. Le programme dot s’est avéré très robuste pour représenter des généalogies complexes. Nous avons opté pour une représentation non standard affichant les individus et leurs familles. Au sens généalogique, une famille est composée de deux parents et d’enfants issus de ces parents ou adoptés par eux. Le fait de visualiser les familles permet de bien distinguer les remariages qui sont fréquents avec la mortalité de l’époque, et aussi les enfants d’un couple et ceux provenant d’autres mariages.
3.3.1 – Bénéfices pour l’analyse de sources
39La généalogie est importante pour la compréhension de plusieurs phénomènes historiques. Disposer d’une représentation lisible de familles complexe facilite grandement l’analyse. De plus, l’exposition de certains problèmes liés à des héritages sous forme textuelle est extrêmement fastidieuse. Disposer d’un support visuel pour pointer les problèmes ou les parcours simplifie et clarifie le discours.
40L’utilisation de dot s’est avérée extrêmement simple et robuste : un document au format standard GED peut être exporté de tous les logiciels standard de généalogie et est traité automatiquement par notre script qui le traduit au format d’entrée de dot et le transforme en image. Ce processus ne nécessite aucune retouche.
3.3.2 – Défauts pour l’analyse des sources
41Dot est un programme extrêmement robuste mais qui fait quelques compromis entre la structure d’un graphe et sa présentation. Il n’a pas été possible de forcer dot à respecter l’ordre des enfants dans une famille : il change cet ordre pour minimiser les croisements entre générations. Pour notre corpus, ce n’est pas un problème car l’ordre est rarement connu mais, dans les cas de conflits entre aînés et cadets, la représentation n’aide pas toujours. Pour des arbres généalogiques contemporains, le problème saute généralement aux yeux.
42Le logiciel Pajek (de Nooy, Mrvar et al., 2005) permet de faire le même genre de représentation que dot mais il ne fournit pas des représentations aussi belles sans prétraitements. En revanche, il fournit des algorithmes plus flexibles et adaptés, en particulier pour calculer des générations à partir de fichiers généalogiques ou pour contrôler plus finement le placement. Plus d’expérimentations seraient utiles.
43La plus grande difficulté que nous avons rencontrée avec tous les logiciels de placement de graphes est leur incapacité à superposer plusieurs relations. La figure 7 montre un exemple qui à été produit en modifiant à la main la description du graphe au format dot. Cette modification a aussi influencé le placement calculé. Il semblerait que la superposition ne soit gérée par aucun système de placement de graphe actuel.
Superposition d’un arbre généalogique et d’un parcours de propriété litigieuse d’une terre, à la fois cédée et héritée
Superposition d’un arbre généalogique et d’un parcours de propriété litigieuse d’une terre, à la fois cédée et héritée
3.4 – La boîte à outils InfoVis
44La représentation de réseaux sociaux avec GraphViz est statique et ne permet pas d’exploration facile. Nous avons utilisé la boîte à outils InfoVis (Fekete, 2004) pour visualiser interactivement le réseau social des acteurs du corpus, les filtrer et identifier plus facilement les îlots. InfoVis permet d’utiliser des logiciels de placement de graphe externes comme GraphViz ou Pajek. Il fournit aussi des algorithmes de placement qui sont alors plus interactifs. Indépendamment de ces méthodes de placement, InfoVis fournit des interactions pour filtrer selon tous les attributs définis sur les sommets et sur les arêtes du graphe, qu’ils soient fournis par l’utilisateur (par exemple un nom ou une date) ou calculés à partir de la topologie du graphe (degré d’un sommet, centralité etc.). InfoVis permet aussi de facilement contrôler les paramètres visuels comme les couleurs, les tailles, les polices de caractères et de faciliter la production de documents imprimables dans une thèse ou un article.
45Nous avons essentiellement utilisé InfoVis pour analyser les réseaux sociaux liant personnages et documents. Cette analyse a aussi permis de nettoyer les données en normalisant les noms. L’analyse en elle-même est un travail en cours pour lequel, outre la cartographie de la figure 6, nous n’avons pas encore de résultats finaux. Bien entendu, l’analyse des réseaux sociaux est un domaine de recherche à part entière et une littérature abondante lui est destiné (Hummon et Carley, 1993 ; Borgatti, Everett et al., 1999 ; de Nooy, Mrvar et al., 2005). Encore une fois, nous ne voulons pas proposer un nouveau système de visualisation ou de nouveaux traitements mais simplement illustrer le fait que XML/TEI facilite l’extraction d’information sous forme de réseaux qui peuvent ensuite être injectés dans tous les logiciels destinés à leur analyse.
3.4.1 – Bénéfices pour l’analyse de sources
46InfoVis offre essentiellement une grande interactivité et une grande richesse d’algorithmes de représentation et de placement de réseaux sociaux. Il facilite l’exploration de grands réseaux sociaux, leur mise en forme et leur exportation pour publication.
3.4.2 – Défauts pour l’analyse des sources
47Dans la version actuelle, InfoVis nécessite encore du travail pour être intégré au processus de production et d’analyse des sources XML/TEI. Il ne dispose pas encore de toutes les fonctionnalités requises pour une analyse fine des réseaux sociaux : c’est un travail en cours.
4 – Leçons tirées de l’utilisation de XML/TEI et des outils de visualisation
48Ce travail de thèse touche à sa fin et nous pouvons dès maintenant tirer un bilan de l’utilisation de notre méthode et de nos outils. Nous avons déjà souligné la pérennité des formats XML/TEI et leur réutilisabilité. Notre index des noms a été d’une grande aide pour nous mais aussi déjà pour plusieurs autres chercheurs.
49Comme nous l’avons indiqué dans (Fekete et Dufournaud, 1999), le temps de codage des documents est important : de l’ordre de 2 à 3 heures par document. Ce temps est difficile à comparer avec les pratiques manuelles car nous ne connaissons pas de rapport sur le temps mis par les historiens pour dépouiller leurs sources.
50Une fois ce travail initial effectué, le système InfoZoom a permis une analyse rapide et précise. C’est un outil de visualisation et de navigation très bien adapté aux corpus XML/TEI et très bien intégré à l’environnement de travail Windows.
51La représentation d’arbres généalogiques par GraphViz/dot a été très utile car les outils standard d’édition d’arbres généalogiques n’arrivaient pas à afficher convenablement les réseaux avec consanguinité ou mariages multiples. En revanche, une erreur lourde que nous avons commise très tôt, était de séparer la gestion de la généalogie des documents TEI à partir desquels cette généalogie était déduite. Il nous a été pratiquement impossible ensuite de mettre à jour nos généalogies lorsque les documents étaient modifiés ou d’être sûr que ces généalogies étaient bien à jour dans une vérification fastidieuse.
52La bonne méthode aurait été d’ajouter des relations entre personnes dans les documents TEI et d’en extraire les arbres généalogiques. TEI n’offre pas cette option en standard mais une extension serait relativement simple à faire. Une telle extension serait extrêmement utile pour exprimer des relations plus générales entre acteurs des différents documents. Il serait aussi possible d’utiliser RDF [4] pour cela en étendant TEI pour accepter des faits RDF du type « X est le père de Y ». Ce sera un travail à poursuivre car, à notre connaissance, il n’existe pas d’ontologie généalogique ou permettant d’exprimer des relations sophistiquées entre personnes [5]
53L’utilité de XML/TEI pour les sources historiques va bien au-delà de la publication électronique : elle facilite le dépouillement, l’analyse et la réutilisabilité des documents et des processus d’analyse.
54Les outils d’analyse applicables à des sources codées sont encore limités mais la richesse du codage XML/TEI permet des exploitations nombreuses à partir d’outils standard ou d’outils spécifiques adaptés sans grande difficulté. Nous n’avons pas abordé l’utilisation d’outils statistiques dans cet article, mais l’extraction d’informations destinées aux analyses statistiques a été réalisée de manière similaire à la visualisation.
55Parmi les outils que nous avons utilisés, InfoZoom s’est révélé le plus utile pour l’analyse, la navigation et le nettoyage du corpus. Pour l’analyse de réseaux sociaux, nous n’avons abordé que superficiellement le problème faute de temps et de mécanismes standard de XML/TEI mais il semble évident que cette voie d’analyse est extrêmement féconde et nous comptons la poursuivre. Nous poursuivons des recherches pour faciliter la visualisation et l’analyse de réseaux sociaux pour les sciences humaines car ce domaine, bien qu’en vogue, souffre encore du manque d’outils simples à utiliser pour des chercheurs en sciences humaines (Henry et Fekete, 2006).
56Dans nos travaux, nous avons considéré XML/TEI comme un format de travail, facile à enrichir et à corriger à l’aide de mécanismes d’analyse, de visualisation et d’indexation. C’est une vision centrée sur le processus de recherche et non sur ses produits comme le site en ligne ou le mémoire de thèse. Une publication électronique sous la forme d’un CD-ROM ou d’un site Web serait un produit dérivé de ce processus, à moins que l’on ne considère ce dernier comme un produit dérivé du travail de thèse. Cette vue duale nous paraît intéressante et plus riche que le processus traditionnel de fabrication de thèse ou de monographie qui disparaît lorsque la thèse ou la monographie est terminée. En utilisant XML/TEI, le processus peut être réutilisé pour d’autres analyses ou pour inspirer des chercheurs sur la méthode suivie.
57Les outils développés spécifiquement pour cette thèse restent artisanaux et ont nécessité la collaboration d’une étudiante en histoire moderne et d’un chercheur en informatique. Ceux-ci sont librement disponibles [6] mais nécessitent encore une qualification certaine en informatique pour être mis en œuvre. Nous espérons que ce témoignage et la description des leçons que nous avons tirées de ce travail, permettront d’une part de convaincre les chercheurs que les outils liés aux documents électroniques augmentent notablement le pouvoir d’analyse des historiens et, d’autre part, aideront à créer des outils adaptés aux chercheurs en sciences humaines.
58Nous sommes loin d’avoir épuisé les exploitations possibles de XML/TEI pour l’analyse de documents historiques. Parmi les exploitations possibles, citons rapidement l’analyse des lieux (toponymes) et leur mise en relation à travers les sources. Nous avons codé ces toponymes mais ne les avons pas régularisés faute d’ontologies existantes. Il serait sans conteste très utile de disposer de ressources numériques sur les noms de lieux afin de permettre une exploitation géographique des sources. De même, une ontologie des événements datés permettrait de décrire proprement une chronologie des actions décrites dans les sources. Pour résumer, un grand nombre d’enrichissement serait possible à l’aide des technologies du Web Sémantique (Berners Lee et al., 2001) et de la constitution d’ontologies et de ressources associées. Ces ressources seront constituées lorsque la communauté des historiens réalisera les bénéfices qu’elle en tirera.
5. Bibliographie
- André J., Fekete J.-D., Richy H., « Traitement mixte image/texte de documents anciens », In Actes du Congrès GUTenberg, La Grande Motte, 1995, p. 75-85.
- Berners Lee, T., Hendler J., Lassila O., « The semantic web : A new form of web content that is meaningful to computers will unleash a revolution of new possibilities », Scientific American, vol. 5 n° 1, 2001, p. 34-43.
- Borgatti, S., Everett M., Freeman L., UCINET V user’s guide, Natick, MA, Analytic Technologies, 1998.
- Calabretto, S., Bozzi A., « The Philological Workstation BAMBI (Better Access to Manuscripts, Browsing of Images) », Journal of Digital Information, vol. 1 n° 3, 1998, p. 1-17.
- Calabretto, S., Pinon J.-M., Bozzi A., « BAMBI : système de gestion de manuscrits anciens pour historiens », Document Numérique, numéro spécial "Les bibliothèques numériques" vol. 2, n° 3-4, Paris, Hermès, 1999, p. 31-50.
- de Nooy, W., Mrvar A., Batagelj V., Exploratory Social Network Analysis with Pajek, Cambridge University Press, 2005.
- Fekete, J.-D., « The InfoVis Toolkit », Proceedings of the IEEE Symposium on Information Visualization (INFOVIS’04), Austin, TX, IEEE Computer Society, 2004, p. 167-174.
- Fekete, J. D., Dufournaud N., « Analyse historique de sources manuscrites : application de TEI à un corpus de lettres de rémission du XVIe siècle », Document Numérique, numéro spécial « Les documents anciens », vol. 3, n° 1-2, Paris, Hermès, 1999, p. 117-134.
- Fekete, J. D., Dufournaud N., « Compus : visualization and analysis of structured documents for understanding social life in the 16th century », Proceedings of the fifth ACM conference on Digital Libraries, San Antonio, TX, USA, ACM, 2000, p. 47-55.
- Gauvard, C., De grace especial. Crime, Etat et Société en France à la fin du Moyen Age. Paris, Publications de la Sorbonne, 1991.
- Henry, N., Fekete J.-D., « MatrixExplorer : Un système pour l’analyse exploratoire de réseaux sociaux », In Proceedings of IHM2006, Montréal, Canada, ACM Press, 2006, p. 67-74.
- Hummon, N., K. Carley, « Social networks as normal science », Soc Net, vol. 15, 1993, p. 1-18.
- Lecolinet, E., Likforman-Sulem L., Robert L., Role F., Lebrave J.-L., « An integrated reading and editing environment for scholarly research on literary works and their handwritten sources », Proceedings of the third ACM conference on Digital libraries, Pittsburgh, Pennsylvania, United States, ACM Press, 1998, p. 144-151.
- Nichols, D. M., Pemberton D., Dalhoumi S., Larouk O., Belisle C., Twidale M., « DEBORA : Developing an Interface to Support Collaboration in a Digital Library », Proceedings of the 4th European Conference on Research and Advanced Technology for Digital Libraries, Springer-Verlag, 2000, p. 239-248.
- Spenke, M., Beilken C., Berlage T., « FOCUS : the interactive table for product comparison and selection », Proceedings of the 9th annual ACM symposium on User interface software and technology, Seattle, Washington, United States, ACM Press, 1996, p. 41-50.
- Sperberg-McQueen, C. M., Burnard L., TEI Consortium, Guidelines for Electronic Text Encoding and Interchange : Volumes 1 and 2 : P4, University Press of Virginia, 2003.
Mots-clés éditeurs : analyse, corpus historique, histoire, TEI, Visualisation, XML