XV. Le Traitement Automatique du Langage[T]

Axel Cypel

Au cœur de l'intelligence artificielle 2020

Chapitre d’ouvrage

XV. Le Traitement Automatique du Langage^[T]

Par Axel Cypel

Pages 313 à 354

CYPEL, Axel,

2020. XV. Le Traitement Automatique du Langage[T] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.313-354. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-313?lang=fr.

Cypel, Axel.

« XV. Le Traitement Automatique du Langage[T] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.313-354. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-313?lang=fr.

Cypel, A.

(2020). XV. Le Traitement Automatique du Langage[T] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 313-354). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-313?lang=fr.

Notes

[1]
C’est l’inférence.
[2]
Ce qui ne signifie pas forcément « éloigné de la réalité ». Qui n’a pas connu le petit désagrément d’avoir une idée lumineuse et, le temps de la noter, c’est-à-dire de la transcrire en mots sur une feuille ou un ordinateur, de constater qu’elle s’est volatilisée ? L’idée, fruit de la pensée, est bien d’ordre sémantique et il semble que, pour la transcrire, nous appliquions spontanément une fonction de réalisation syntaxique dans le langage. Pour les cas courants, c’est instantané, mais il arrive que l’idée soit si subtile, et souvent recherchée depuis longtemps, que cette traduction prenne du temps. Nous ne sommes évidemment pas loin du vieux débat de la poule et de l’œuf : la pensée préexiste-t-elle au langage ?
[3]
Certes, il faut un peu d’imagination... Quoi qu’il en soit, le célèbre tableau de Raphaël y représente Platon, index vers le haut, pour rappeler sa croyance en le monde des idées, et Aristote, main vers le bas, pour signifier la préséance de la réalité matérielle. Il convient d’arrêter là la comparaison, faute de quoi on aboutirait à une identification entre essence (idées) et signification, soit entre métaphysique et sémantique, ce qui serait indubitablement une erreur (voir, par exemple, [1], chapitre IX « Popper, épistémologie et pensée politique »).
[4]
Et encore, on ne parle que de l’écrit, car à l’oral l’intonation avec laquelle est prononcée une phrase peut faire différer son sens par rapport au littéral.
[5]
On parle aussi de « base de connaissances ».
[6]
On peut aussi voir les choses d’une manière plus informatique : l’atome de connaissance est constitué par le triplet RDF (Resource Description Framework) « Sujet, Prédicat, Objet ». On peut décrire le monde comme cela, à la fois en termes de contenu et de structure de l’ontologie.
[7]
Une relation est une fonction et donc un ensemble.
[8]
Ou encore d’une de ses extensions, pour garder la terminologie ensembliste.
[9]
Si l’entité nommée que l’on cherche à extraire est une date, certes il s’agit d’une suite de chiffres, mais ramener tous les chiffres rencontrés dans le texte ne fait pas l’affaire.
[10]
Cet enrichissement de données n’est pas éloigné, dans l’esprit, de la data augmentation en traitement d’images, les termes « augmentation » et « enrichissement » rendant compte de cette proximité.
[11]
Voir chapitres VIII et XVI.
[12]
En voici quelques-uns : lemmatisation (conversion des mots conjugués : « suis », « fut », « était » → « ÊTRE ») ; racinisation (« organiser », « organisations » → « organis ») ; stop-words (mots à supprimer, n’apportant pas de sens, comme par exemple les articles, les mots du genre « bonjour », « cordialement », ...).
[13]
Parmi d’autres : fréquences d’apparition, position, transcription lettre à lettre, probabilités... Le codage pouvant être plus ou moins malin, comme il sera vu plus tard avec quelques précisions sur le célèbre Word2Vec.
[14]
Term frequency-inverse document frequency : approche statistique visant à pondérer les mots d’un texte relativement à leur fréquence d’apparition et à celle calculée sur le corpus global, ce qui permet de refléter à la fois l’importance de ce mot dans le texte considéré et d’éviter de le sur-représenter s’il s’agit d’un mot rare dans le corpus complet.
[15]
Analyse de la forme du mot, de sa catégorie grammaticale... L’ordinateur étant bien loin d’une compréhension sémantique, il semble de bon ton d’essayer de s’adapter à lui, pour qui souhaite l’aider à nous comprendre. D’où ce parallèle : à la composition – à la morphologie – des mots, en linguistique, répondent les approches géométriques, vectorielles, qui seront mises en œuvre par l’informatique, soit l’étude des formes partant des morphismes mathématiques (i.e. des fonctions).
[16]
Rappelons qu’un vecteur peut être vu comme un ensemble de coordonnées spatiales.
[17]
Comprendre : parallèles.
[18]
Perçue comme provenant des contextes dans lesquels ils apparaissent.
[19]
Pseudo-sémantique, puisqu’appris grâce au contexte des mots (i.e. leurs voisins).
[20]
Due à Tomas Mikolov.
[21]
Cette étape est délicate car, avec cette préparation des données, on cherche à aider notre classifieur automatique à apprendre, sans garantie et avec le risque d’introduire des biais.
[22]
Voir la note de bas de page 14, p. 330.
[23]
Notez qu’avec cette approche, l’ordre des mots ne compte plus !
[24]
Tout le charme du features engineering : on peut créer autant de nouvelles variables que l’on veut ! Au passage, la recherche continue : on peut, au lieu de procéder à des regroupements, être plus granulaire et tenter une classification sur les caractères (les lettres) composant les mots. Certes, on quitte alors le domaine de la linguistique, mais le ML sur ces features particuliers peut donner des résultats.
[25]
C’est-à-dire recenser les liens entre les questions que pourraient poser les utilisateurs et les documents dont un expert métier considère qu’ils en sont la réponse. Dressons un parallèle avec le traitement d’images. On pourrait arguer que, si la base labélisée est suffisamment vaste, elle représente à peu près tout le corpus documentaire et le moteur de recherche à créer ne reposera en fait que sur un vulgaire arbre de décision. Vision évidemment réductrice puisque tout algorithme supervisé fonctionne sur la généralisation : apprendre à partir d’une base d’exemples labélisés et généraliser. Autrement dit, pour le supervisé en NLP, le moteur n’apprend pas tous les liens (i.e. toutes les liaisons possibles entre les questions et les réponses), mais les déduit par généralisation. La chose amusante sur cet exemple textuel est le chiasme que l’on peut faire avec l’exemple des images (détection de chat sur une photo) : là où la base d’apprentissage est « infinie » pour les chats, la réponse attendue est dans un ensemble fini (« oui » ou « non »), tandis que pour une base documentaire, si le fonds est fini (quelques milliers de fichiers), c’est l’ensemble des questions qu’il est possible de poser (tant sur les sujets abordables que sur la manière de formuler) qui est « infini ».
[26]
Interface Homme-Machine : la partie visuelle comprenant le petit dessin qui bouge les lèvres comme s’il parlait, la fenêtre vous permettant de taper vos questions...
[27]
Il l’a « comprise » : c’est le U, pour Understanding, de l’acronyme NLU.
[28]
Nous retrouvons la remarque faite plus haut : une IA capable de créer toute seule une ontologie, autrement dit de saisir d’elle-même les regroupements syntaxiques à réaliser pour créer les concepts, est de facto une IA forte.
[29]
Un « algorithme » ! C’est à la mode.
[30]
Qui sera sûrement atteinte au bout d’un temps infini.
[31]
Même si des annonces mirobolantes apparaissent fréquemment sur la faculté de traduction des machines – qui seraient capables de traduire un livre (« Lequel ? » semble être une bonne question) toutes seules sans faute – nonobstant d’indéniables progrès, le résultat d’une traduction automatique ne constitue qu’une aide... ou une œuvre d’art dadaïste !
[32]
Voir le chapitre IX dans ce volume.
[33]
Lire, par exemple, la vignette « Fond et forme », p. 162 de [15].
[34]
Cf. l’article « La logique comme géométrie du cognitif » de Jean-Yves Girard, dans [30].

Citer ce chapitre

Cypel, A.

(2020). XV. Le Traitement Automatique du Langage[T] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 313-354). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-313?lang=fr.

Cypel, Axel.

« XV. Le Traitement Automatique du Langage[T] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.313-354. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-313?lang=fr.

CYPEL, Axel,

2020. XV. Le Traitement Automatique du Langage[T] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.313-354. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-313?lang=fr.

Notes

[1]
C’est l’inférence.
[2]
Ce qui ne signifie pas forcément « éloigné de la réalité ». Qui n’a pas connu le petit désagrément d’avoir une idée lumineuse et, le temps de la noter, c’est-à-dire de la transcrire en mots sur une feuille ou un ordinateur, de constater qu’elle s’est volatilisée ? L’idée, fruit de la pensée, est bien d’ordre sémantique et il semble que, pour la transcrire, nous appliquions spontanément une fonction de réalisation syntaxique dans le langage. Pour les cas courants, c’est instantané, mais il arrive que l’idée soit si subtile, et souvent recherchée depuis longtemps, que cette traduction prenne du temps. Nous ne sommes évidemment pas loin du vieux débat de la poule et de l’œuf : la pensée préexiste-t-elle au langage ?
[3]
Certes, il faut un peu d’imagination... Quoi qu’il en soit, le célèbre tableau de Raphaël y représente Platon, index vers le haut, pour rappeler sa croyance en le monde des idées, et Aristote, main vers le bas, pour signifier la préséance de la réalité matérielle. Il convient d’arrêter là la comparaison, faute de quoi on aboutirait à une identification entre essence (idées) et signification, soit entre métaphysique et sémantique, ce qui serait indubitablement une erreur (voir, par exemple, [1], chapitre IX « Popper, épistémologie et pensée politique »).
[4]
Et encore, on ne parle que de l’écrit, car à l’oral l’intonation avec laquelle est prononcée une phrase peut faire différer son sens par rapport au littéral.
[5]
On parle aussi de « base de connaissances ».
[6]
On peut aussi voir les choses d’une manière plus informatique : l’atome de connaissance est constitué par le triplet RDF (Resource Description Framework) « Sujet, Prédicat, Objet ». On peut décrire le monde comme cela, à la fois en termes de contenu et de structure de l’ontologie.
[7]
Une relation est une fonction et donc un ensemble.
[8]
Ou encore d’une de ses extensions, pour garder la terminologie ensembliste.
[9]
Si l’entité nommée que l’on cherche à extraire est une date, certes il s’agit d’une suite de chiffres, mais ramener tous les chiffres rencontrés dans le texte ne fait pas l’affaire.
[10]
Cet enrichissement de données n’est pas éloigné, dans l’esprit, de la data augmentation en traitement d’images, les termes « augmentation » et « enrichissement » rendant compte de cette proximité.
[11]
Voir chapitres VIII et XVI.
[12]
En voici quelques-uns : lemmatisation (conversion des mots conjugués : « suis », « fut », « était » → « ÊTRE ») ; racinisation (« organiser », « organisations » → « organis ») ; stop-words (mots à supprimer, n’apportant pas de sens, comme par exemple les articles, les mots du genre « bonjour », « cordialement », ...).
[13]
Parmi d’autres : fréquences d’apparition, position, transcription lettre à lettre, probabilités... Le codage pouvant être plus ou moins malin, comme il sera vu plus tard avec quelques précisions sur le célèbre Word2Vec.
[14]
Term frequency-inverse document frequency : approche statistique visant à pondérer les mots d’un texte relativement à leur fréquence d’apparition et à celle calculée sur le corpus global, ce qui permet de refléter à la fois l’importance de ce mot dans le texte considéré et d’éviter de le sur-représenter s’il s’agit d’un mot rare dans le corpus complet.
[15]
Analyse de la forme du mot, de sa catégorie grammaticale... L’ordinateur étant bien loin d’une compréhension sémantique, il semble de bon ton d’essayer de s’adapter à lui, pour qui souhaite l’aider à nous comprendre. D’où ce parallèle : à la composition – à la morphologie – des mots, en linguistique, répondent les approches géométriques, vectorielles, qui seront mises en œuvre par l’informatique, soit l’étude des formes partant des morphismes mathématiques (i.e. des fonctions).
[16]
Rappelons qu’un vecteur peut être vu comme un ensemble de coordonnées spatiales.
[17]
Comprendre : parallèles.
[18]
Perçue comme provenant des contextes dans lesquels ils apparaissent.
[19]
Pseudo-sémantique, puisqu’appris grâce au contexte des mots (i.e. leurs voisins).
[20]
Due à Tomas Mikolov.
[21]
Cette étape est délicate car, avec cette préparation des données, on cherche à aider notre classifieur automatique à apprendre, sans garantie et avec le risque d’introduire des biais.
[22]
Voir la note de bas de page 14, p. 330.
[23]
Notez qu’avec cette approche, l’ordre des mots ne compte plus !
[24]
Tout le charme du features engineering : on peut créer autant de nouvelles variables que l’on veut ! Au passage, la recherche continue : on peut, au lieu de procéder à des regroupements, être plus granulaire et tenter une classification sur les caractères (les lettres) composant les mots. Certes, on quitte alors le domaine de la linguistique, mais le ML sur ces features particuliers peut donner des résultats.
[25]
C’est-à-dire recenser les liens entre les questions que pourraient poser les utilisateurs et les documents dont un expert métier considère qu’ils en sont la réponse. Dressons un parallèle avec le traitement d’images. On pourrait arguer que, si la base labélisée est suffisamment vaste, elle représente à peu près tout le corpus documentaire et le moteur de recherche à créer ne reposera en fait que sur un vulgaire arbre de décision. Vision évidemment réductrice puisque tout algorithme supervisé fonctionne sur la généralisation : apprendre à partir d’une base d’exemples labélisés et généraliser. Autrement dit, pour le supervisé en NLP, le moteur n’apprend pas tous les liens (i.e. toutes les liaisons possibles entre les questions et les réponses), mais les déduit par généralisation. La chose amusante sur cet exemple textuel est le chiasme que l’on peut faire avec l’exemple des images (détection de chat sur une photo) : là où la base d’apprentissage est « infinie » pour les chats, la réponse attendue est dans un ensemble fini (« oui » ou « non »), tandis que pour une base documentaire, si le fonds est fini (quelques milliers de fichiers), c’est l’ensemble des questions qu’il est possible de poser (tant sur les sujets abordables que sur la manière de formuler) qui est « infini ».
[26]
Interface Homme-Machine : la partie visuelle comprenant le petit dessin qui bouge les lèvres comme s’il parlait, la fenêtre vous permettant de taper vos questions...
[27]
Il l’a « comprise » : c’est le U, pour Understanding, de l’acronyme NLU.
[28]
Nous retrouvons la remarque faite plus haut : une IA capable de créer toute seule une ontologie, autrement dit de saisir d’elle-même les regroupements syntaxiques à réaliser pour créer les concepts, est de facto une IA forte.
[29]
Un « algorithme » ! C’est à la mode.
[30]
Qui sera sûrement atteinte au bout d’un temps infini.
[31]
Même si des annonces mirobolantes apparaissent fréquemment sur la faculté de traduction des machines – qui seraient capables de traduire un livre (« Lequel ? » semble être une bonne question) toutes seules sans faute – nonobstant d’indéniables progrès, le résultat d’une traduction automatique ne constitue qu’une aide... ou une œuvre d’art dadaïste !
[32]
Voir le chapitre IX dans ce volume.
[33]
Lire, par exemple, la vignette « Fond et forme », p. 162 de [15].
[34]
Cf. l’article « La logique comme géométrie du cognitif » de Jean-Yves Girard, dans [30].

L’IA, la pure et dure, celle du machine learning et des limitations, vous a manqué ? Comme je vous comprends. Maintenant que nous sommes dotés du savoir technique et prévenus par quelques connaissances corrélatives à l’IA, nous pouvons partir à l’assaut des véritables problèmes. Nous ouvrons donc le bal avec ce dernier chapitre technique qui traite d’un domaine d’application difficile de l’IA : le langage. Cela aura aussi pour vertu de nous faire réviser une bonne part de l’ensemble des concepts exposés avant de prendre notre envol.
Un peu de modestie, toutefois. Des thèses entières, que dis-je ? Des carrières complètes peuvent se faire rien que sur le sujet de ce chapitre. Nous n’en donnerons qu’un aperçu qui ne pourra être qu’un rapide survol, sur le plan technique. Alors nous nous efforcerons de tester des mélanges...
Qu’attendrait-on de plus « naturel », de la part d’un ordinateur intelligent, qu’une conversation réelle ou, à tout le moins, une sorte de compréhension de notre parler ? La faculté de manier le langage est une caractéristique purement humaine, ainsi, doter une machine de NLU (Natural Language Understanding) ou de NLG (Natural Language Generation) constituerait le parangon d’humanisation de ces bêtes de silice. Un peu de modestie...
Le Traitement Automatique du Langage (TAL, ou NLP en anglais, Natural Language Processing) est un des grands espoirs de l’IA en même temps qu’un domaine ancien. Il est intéressant à double titre, si l’on a en vue sa compréhension, car il permet, d’une part, de réutiliser l’ensemble des concepts techniques exposés auparavant et, d’autre part, d’illustrer la différence entre l’IA faible – la seule dont on dispose à ce jour – et l’IA forte qui adviendra un jour peut-être, ou jamais…

Date de mise en ligne : 01/07/2024

Ce chapitre est en accès conditionnel

Acheter ce chapitre

5,00 €

42 pages format électronique (HTML, PDF et feuilletage)

Membre d'une institution cliente ?

Compte personnel

XV. Le Traitement Automatique du Langage^[T]

Notes

Citer ce chapitre

Notes

Ce chapitre est en accès conditionnel

Acheter ce chapitre

Accès institutions

Toutes les institutions