Article de revue

Introduction

Pages 7 à 9

Citer cet article


  • Grau, B.
(2010). Introduction. Document numérique, . 13(3), 7-9. https://stm.cairn.info/revue-document-numerique-2010-3-page-7?lang=fr.

  • Grau, Brigitte.
« Introduction ». Document numérique, 2010/3 Vol. 13, 2010. p.7-9. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2010-3-page-7?lang=fr.

  • GRAU, Brigitte,
2010. Introduction. Document numérique, 2010/3 Vol. 13, p.7-9. URL : https://stm.cairn.info/revue-document-numerique-2010-3-page-7?lang=fr.

1Aujourd’hui disponible sous forme électronique, sur le web mais aussi dans les intranets d’entreprises, l’information a une taille toujours croissante et la masse textuelle qu’il faut appréhender pour prendre connaissance d’une information ou la traiter atteint une ampleur considérable. On ne peut envisager de réaliser cette tâche sans disposer d’assistants intelligents pour accéder aux contenus. Aussi, au-delà de la recherche de documents, se posent les problèmes de l’analyse des textes ou des passages afin d’en restituer des informations précises, de les catégoriser, d’en faciliter la lecture et la synthèse.

2Ces thématiques amènent à se poser différents types de questions. D’abord quels sont les modèles de texte, ou de discours, permettant l’automatisation de leur analyse et de leur compréhension et quelle est la dépendance des processus d’analyse par rapport au type de texte, à la tâche ou à l’application visée ?

3Alors que les premiers travaux en traitement automatique de la langue se sont intéressés à la compréhension en profondeur de textes et à la définition des connaissances nécessaires à cette compréhension, les recherches se sont orientées vers la définition et l’utilisation de modèles caractérisant certaines propriétés des textes (cohésion lexicale, relations rhétoriques, structure, etc.) pour des analyses dédiées à des tâches. Ces analyses reposent sur des analyses de surface et exploitent les indices explicites dans les textes qui sont porteurs d’informations quant à l’interprétation du contenu. C’est l’approche suivie dans les quatre premiers articles qui, pour procéder à une analyse dédiée à une tâche (analyse d’opinion, détection de segments obsolescents, détection de dérivation de textes et gestion d’offres d’emploi et de candidatures), extraient des traits caractéristiques sur le plan lexical (types de termes, entités nommées, marqueurs rhétoriques, etc.) et sur les plans syntaxique et textuel (types de constituant syntaxique, position, marqueurs de structure, etc.). Le premier article offre une étude approfondie de la reconnaissance et l’interprétation de ces traits, et les trois autres proposent des méthodes choisies en fonction du type de texte traité, et donc des caractéristiques qui les décrivent, et de la tâche visée, définie en tant que tâche de classification.

4Tous ces processus se doivent de posséder une certaine robustesse pour être applicables à un ensemble de textes suffisamment grand : robustesse vis-à-vis de la langue, ou du domaine, et contraintes de se dérouler en un temps acceptable, et cela amène à faire des choix sur les indices extraits et leur traitement.

5L’article d’Agata Jackiewicz « Structures avec constituants détachés et jugements d’évaluation » se situe dans le courant de recherche actuel sur l’analyse d’opinion, domaine très largement exploré par des approches majoritairement statistiques. Dans cet article, l’auteur a choisi d’étudier un phénomène langagier particulier, les constituants détachés, et en effectue une analyse approfondie afin de montrer quel rôle ils jouent dans l’acte d’évaluation et quels types d’information ils sont à même d’apporter aux différentes dimensions évaluatives définies à partir de la théorie Appraisal.

6L’article de Marion Laignelet, Marie-Paule Péry-Woodley et Ludovic Tanguy « Découverte de configurations de traits textuels pour la caractérisation des segments d’obsolescence » porte sur une tâche spécifique aux textes encyclopédiques, le repérage de segments pouvant nécessiter une mise à jour. Dans ce but, les auteurs se reposent sur un ensemble de critères caractérisant ces segments, sur les différents plans du texte, et les combinent par apprentissage supervisé fondé sur des règles d’association.

7L’article de Fabien Poulard, Nicolas Hernandez, Stergos D. Afantenos et Béatrice Daille « Évaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte » porte sur la détection de textes dérivés et de textes codérivés. Il s’agit de reconnaître ces relations entre deux textes, par extraction de traits descriptifs relatifs aux sujets traités et à l’organisation discursive, formant une signature, et ensuite par comparaison des signatures. Une attention particulière est accordée à la réduction de la complexité de ce calcul dans la mesure où le but est de sélectionner des traits « minimaux » suffisamment descriptifs.

8L’article de Rémy Kessler, Juan-Manuel Torres-Moreno et Marc El-Bèze « EGen : traitement automatique d’informations de ressources humaines » décrit une application pour le traitement de documents de ressources humaines (offres d’emploi, CV, lettres de motivation). Le but est d’analyser les offres d’emploi afin d’en produire une représentation structurée, et ensuite de sélectionner des candidatures pertinentes, après avoir analysé automatiquement les mails réponses et reconnus les CV des lettres de motivation.

9Par ailleurs, des questions concernent l’accès au contenu. À quels types d’information ou de connaissances peut-on accéder au travers des textes, et comment y accéder ? L’amélioration de l’accès à l’information et de son traitement ne passe pas nécessairement par une analyse automatisée du contenu. Les solutions proposées dans le cadre du web sémantique avec les formalismes de représentation d’ontologies et du web collaboratif avec des outils de discussion permettent d’expliciter et formaliser la sémantique des documents, de les doter de possibilités de parcours, et de les manipuler, tout ou par partie, comme objets de connaissances que l’on peut annoter, commenter et évaluer. C’est ce dont traitent les deux derniers articles de ce numéro.

10L’article de François Lévy, Adeline Nazarenko et Abdoulaye Guissé « Annotation, indexation et parcours de documents numériques » concerne la création d’un index sur des textes de spécification, représentant à la fois la sémantique du texte et permettant l’accès au texte lui-même. Le modèle sémantique est constitué d’une ontologie et de règles métiers. L’index permet l’accès au texte mais crée aussi un espace de navigation, permettant de construire et d’analyser les connaissances représentées (leur cohérence, leur obsolescence).

11L’article de Antoine Seilles, Julien Cotret, Fanny Georges, Jean Sallantin, Nancy Rodriguez, Abdelkader Gouaich et Christophe Fagot « L’annotation discursive et sémantique pour la pratique de “débats 2.0” » vise à enrichir des textes par des annotations destinées à les évaluer, les commenter, les structurer et mettre ainsi en place une pratique des débats. Le modèle proposé repose sur les outils du web 2.0, permettant la discussion et la collaboration. Une plate-forme générique d’annotation a été conçue et des expérimentations ont été menées afin d’étudier l’usage qu’en font des utilisateurs permettant ainsi une première évaluation du modèle proposé.

12Les travaux présentés dans ce numéro sont représentatifs des approches dédiées actuellement à l’analyse de texte, chacun dans leur domaine d’application. Si certains ne sont pas dédiés à des genres de texte particuliers et portent sur l’analyse d’opinion, la détection de plagiats et l’annotation de textes, d’autres ont développé une analyse qui est propre à un genre de texte (textes de réglementation, offres d’emplois et candidatures, textes encyclopédiques).


Comité de lecture

13Patrice Bellot – LIA, Université d’Avignon

14Gaël Dias – HULTIG, University of Beira Interior, Portugal

15Marc Elbèze – LIA, Université d’Avignon

16Patrice Enjalbert – GREYC, Université de Caen

17Olivier Ferret – CEA LIST, Fontenay-aux-Roses

18Patrick Gallinari – LIP6, Université Pierre et Marie Curie, Paris

19Nicolas Hernandez – LINA, Université de Nantes Agata Jackiewicz – STIH, Université de Paris 4

20Guy Lapalme – RALI, Université de Montréal

21Bernard Levrat – LERIA, Université d’Angers

22Yvette Yannick Mathieu – LFF, Paris

23Aurélien Max – LIMSI, Université Paris-Sud

24Jean-Luc Minel – Modyco, Université Paris 10

25Adeline Nazarenko – LIPN, Université Paris 13

26Marie-Paule Péry-Woodley – CLLE-ERSS, Université de Toulouse 2

27Thierry Poibeau – LaTTiCe, Paris

28Violaine Prince – LIRMM, Université de Montpellier

29Isabelle Robba – LIMSI, Université Versailles Saint-Quentin

30Horacio Saggion – TALN, Universitat Pompeu Fabra, Espagne

31Pascale Sébillot – IRISA, INSA Rennes

32Yannnick Toussaint – INRIA Nancy - Grand-Est, LORIA

33Pierre Zweigenbaum – LIMSI, Orsay

Relecteurs additionnels

34Tassadit Amghar – LERIA, Université d’Angers

35Pierre-Yves Buard – Presses Universitaires de Caen

36Julia Roger – Presses Universitaires de Caen


Date de mise en ligne : 01/04/2011