Article de revue

Catégorisation de textes en domaines et genres

Complémentarité des indexations lexicale et morphosyntaxique

Pages 61 à 76

Citer cet article


  • Poudat, C.,
  • Cleuziou, G.
  • et Clavier, V.
(2006). Catégorisation de textes en domaines et genres Complémentarité des indexations lexicale et morphosyntaxique. Document numérique, . 9(1), 61-76. https://stm.cairn.info/revue-document-numerique-2006-1-page-61?lang=fr.

  • Poudat, Céline.,
  • et al.
« Catégorisation de textes en domaines et genres : Complémentarité des indexations lexicale et morphosyntaxique ». Document numérique, 2006/1 Vol. 9, 2006. p.61-76. CAIRN.INFO, stm.cairn.info/revue-document-numerique-2006-1-page-61?lang=fr.

  • POUDAT, Céline,
  • CLEUZIOU, Guillaume
  • et CLAVIER, Viviane,
2006. Catégorisation de textes en domaines et genres Complémentarité des indexations lexicale et morphosyntaxique. Document numérique, 2006/1 Vol. 9, p.61-76. URL : https://stm.cairn.info/revue-document-numerique-2006-1-page-61?lang=fr.

Notes

  • [1]
    Pour davantage de détails sur cette étape de réduction, se reporter à (Sebastiani, 2002).
  • [2]
    Discours littéraire, juridique, scientifique, journalistique, etc. Les types de discours sont reliés à des pratiques sociales distinctes et organisent en leur sein les typologies génériques et domaniales. Le discours juridique inclut ainsi les genres de l’arrêt, du décret, de la loi, etc.
  • [3]
    Ou « style », « registre », voire « type de textes ».
  • [4]
    Il semblerait en effet que les types de discours sont les premiers à émerger au niveau morphosyntaxique, bien avant les genres, les domaines ou les styles personnels (Malrieu et al., 2001). Étant donné que nous nous intéressons aux notions de genres et de domaines dans la présente étude, il semble pertinent d’évacuer momentanément le problème des discours.
  • [5]
    Pour plus de précisions sur la technique d’apprentissage par SVM, se reporter à (Vapnik, 1995).
  • [6]
    Corpus homogènes en genre (ART-corpus) ou en domaine (LING-corpus).
  • [7]
    La micro-précision mesure la proportion de textes classés correctement, quelle que soit la classe. A contrario, la macro-précision mesure pour chaque classe séparément la proportion de textes bien classés avant d’effectuer la moyenne.
  • [8]
    Cette observation confirme l’importance d’utiliser plusieurs méthodes de classification, utilisant des approches différentes d’apprentissage.
  • [9]
    L’ordre d’apparition des variables dans les colonnes du tableau est totalement arbitraire.
  • [10]
    Ce phénomène n’est pas visbible dans le tableau qui ne présente que les substantifs fréquents.
Français

Résumé

Cet article traite du choix de descripteurs linguistiques appropriés pour caractériser et classifier les textes. On considère généralement que les domaines sont corrélés au niveau du contenu (mots, termes, etc.) tandis que les genres sont discriminés au niveau morphosyntaxique. Malgré les bons résultats obtenus par ces choix méthodologiques, peu de travaux ont cherché à mesurer l’impact et la complémentarité des deux niveaux de description pour la classification. Cette étude vise ainsi à évaluer l’intérêt discriminant des descripteurs morphosyntaxiques et thématiques pour classer les genres et les domaines. Des résultats encourageants sont obtenus sur un corpus pilote de textes scientifiques français.

Mots-clés

  • recherche d’information
  • genre
  • domaine
  • classification
  • lexique
  • morphosyntaxe

Mots-clés éditeurs : classification, domaine, genre, lexique, morphosyntaxe, recherche d'information


English

Abstract

This paper deals with the selection of appropriate descriptors to characterize and classify texts. In most classification tasks, domains are generally correlated to the content level (words, terms, bags of words, etc.) and genres to the morphosyntactic one. However, few studies have assessed the impact and the complementarity of the two description levels on classification. The present study aims at evaluating the discriminant interest of the lexical and morphosyntactic linguistic levels in the field of genre and domain classification. Encouraging results are obtained on a French scientific corpus, which has been built in that perspective.

Keywords

  • information retrieval
  • genre
  • domain
  • classification
  • morphosyntax

Mots-clés éditeurs : classification, domain, genre, information retrieval, morphosyntax