III. Incursion dans l’IA[T]

Axel Cypel

Au cœur de l'intelligence artificielle 2020

Chapitre d’ouvrage

III. Incursion dans l’IA^[T]

Par Axel Cypel

Pages 61 à 97

CYPEL, Axel,

2020. III. Incursion dans l’IA[T] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.61-97. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-61?lang=fr.

Cypel, Axel.

« III. Incursion dans l’IA[T] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.61-97. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-61?lang=fr.

Cypel, A.

(2020). III. Incursion dans l’IA[T] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 61-97). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-61?lang=fr.

Notes

[1]
Le chercheur Gilles Dowek propose d’ailleurs de parler « d’apprentissage épais », arguant qu’en français un empilement de couches successives forme une structure épaisse et non pas profonde.
[2]
Nommément le « RN convolutif », qui favorise la détermination de patterns, d’invariants efficaces, notablement dans le traitement d’image. Un RN étant un assemblage de centaines de « neurones » informatiques unitaires, une architecture correspond à une manière de les relier entre eux : combien en mettez-vous ? Tous à la suite ou bien en couches successives ? Tous reliés entre eux ou avec des liaisons privilégiées ? Etc. Comme dans le bâtiment, à partir des mêmes briques (les neurones) qui se ressemblent toutes, on peut construire des maisons de types différents (des architectures variées) selon la manière dont on les combine.
[3]
Exemple : la position et la vitesse d’un véhicule, ou encore la température et la pression d’un local.
[4]
Remarquez qu’appliquer les lois de la physique pour obtenir la relation f (le modèle physique, donc) entre les entrées et les sorties, c’est déjà effectuer un travail de modélisation, c’est-à-dire de transcription de la réalité en un formalisme. L’écriture « y = f(x) » constitue même déjà une réduction.
[5]
Elle est souvent notée ŷ (dire : « y chapeau »).
[6]
Pourquoi ? Soit parce que le phénomène est très complexe et que la théorie est en retard, soit parce la physique ne peut rien pour nous. Par exemple, une bonne part de ce qui est du ressort des activités humaines n’obéit pas à une loi physique précise.
[7]
Pour ceux que le formalisme mathématique ne rebute pas : une fois que l’on dispose du modèle ϕ, pour un x donné, quel est l’écart entre la vraie valeur de sortie du système, y = f(x), et l’estimation qui, seule, est accessible au calcul : ŷ = ϕ(x) ?
[8]
Nous sommes dans une analogie. En toute généralité, l’équation d’un modèle n’est pas ∑
forcément de la forme_i p_i.x_i. Pour autant, il s’agira toujours d’une combinaison de paramètres à trouver et de variables reconnues dans les observations.
[9]
Les boutons de réglages de volume, de balance, de graves et d’aiguës d’une chaîne Hi-Fi.
[10]
Si l’on se restreint, comme annoncé, au seul prédictif et au non-supervisé.
[11]
La comparaison ne concerne bien sûr pas la méthode mathématique utilisée : calcul de moyennes et d’écart-types pour déterminer les cœfficients de régression linéaire, rétro-propagation du gradient pour les RN. A noter cependant qu’il s’agit, pour ces derniers, d’un cas particulier et astucieux de descente de gradient, algorithme assez général dès lors que de l’optimisation entre en jeu.
[12]
Ce qui ne veut pas dire explicitable : une fois le RN entraîné, on pourrait s’amuser à imprimer les dizaines de pages que constitueraient la formule de prédiction. Cette explicitation serait matérielle, mais inutile : elle ne passe pas la contrainte de l’explicite.
[13]
Cf. sa leçon inaugurale au Collège de France. Nous aurons l’occasion de recroiser ce professeur au chapitre VIII qui approfondit ces notions, en tant que limitations à l’IA.
[14]
Et pour considérer que l’image chargée est labélisée, encore faut-il que la personne n’ait pas chargé autre chose à la place !
[15]
De la forme : \(\left[\begin{array}{cc} 100 \% & 0 \\ 0 & 100 \% \end{array}\right]\).
[16]
Si x est une variable, un polynôme en x est de la forme a₀ + a₁x + a₂x² +... + a_nxⁿ, c’est-à-dire la somme de puissances de x pondérées par des cœfficients a_i.
[17]
Mais attention au sur-apprentissage...!
[18]
Sans que cela soit une surprise : ce critère, c’est la métrique fixée lors de la phase de modélisation, comme on le verra plus tard lorsque l’on abordera la définition de ce qu’est modéliser une situation.
[19]
Un exemple concret : le choix de la meilleure voiture parmi dix modèles présentés. Pour moi : celle de couleur bleu-roi. Pour Arnaud, la moins polluante (qui n’est pas la voiture bleue). Chacun de nous a raison, mais Arnaud pourrait me reprocher mon égoïsme de favoriser quelque chose d’aussi futile que la couleur devant la lutte contre la pollution, tandis que je pourrais l’attaquer sur son absence de bon goût l’ayant conduit à choisir une voiture jaune. Pour un troisième comparse, le critère important sera le prix, ou la vitesse de pointe du véhicule...
[20]
Comme nous verrons en détail, au chapitre IX, des résultats plus surprenants encore, nous ne nous étendons pas ici sur cette preuve.
[21]
Dossier spécial Les Echos des 9 et 10 mars 2018.
[22]
Sale bête !
[23]
En notation mathématique : si T < T_c alors cmd = 1, 0 sinon.
[24]
Si T > T_max, alors cmd = 0.
[25]
Notons que, dans cet exemple simple, il est inutile de donner la température de consigne et la température maximale !
[26]
Voir chapitre XVII où cette notion est discutée.
[27]
M. « ELT », qui se reconnaîtra.
[28]
« règles du jeu et les stratégies », aurait-on pu écrire. En effet, le ML peut déduire les déplacements autorisés à partir des parties jouées données, mais cela fait ça de plus à apprendre et risque de réduire inutilement les performances. Un principe de parcimonie veut que si on connaît déjà les règles, on ne les donne pas à apprendre à la machine.
[29]
En outre, la complexité de l’approche venait du fait que les seuls descripteurs intéressants sont ceux qui présentent une invariance par rapport à certaines transformations géométriques, telles les translations, les homothéties, les rotations..., sans quoi une figure détectée sur une image donnée ne peut plus l’être sur une autre.
[30]
Alors que nos experts pouvaient se prononcer, pour la détermination des caractéristiques à découvrir pour réaliser, par exemple, un problème de classification, sur un jeu comprenant peu de données.
[31]
A prendre au sens de bonne qualité, et non de propriétaire.
[32]
On fait donc le gros présupposé que nous avons affaire à un médecin qui raisonne !
[33]
Bon, en fait, un ERP est une collection de règles, parfois concurrentes, et dont il faut gérer les priorités. Comment ? Avec d’autres règles...!
[34]
Diagnostic : « C’est dans la tête. »
[35]
On aura reconnu une tâche de labélisation (cf. section 1.5, p. 74).
[36]
Et dans « vrai », on entend : bon et de chair et d’os.
[37]
Ya ?
[38]
En cela leur caractère « probabiliste ».
[39]
L’intelligence artificielle : un instrument de puissance ?, visible sur Arte.tv en mars 2019.
[40]
Voir aussi le chapitre VIII sur la notion de dépendance au chemin.
[41]
Pour éviter les confusions : la programmation d’un RN est chose facile. L’algorithme est connu. Ce qui l’est moins, c’est la signification à accorder à la modélisation en résultant, signification d’autant plus délicate à trouver que les règles créées par le RN sont implicites. En aparté, notons que la donnée de règles explicites n’est pas non plus garante de facilité à en définir le sens.

Citer ce chapitre

Cypel, A.

(2020). III. Incursion dans l’IA[T] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 61-97). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-61?lang=fr.

Cypel, Axel.

« III. Incursion dans l’IA[T] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.61-97. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-61?lang=fr.

CYPEL, Axel,

2020. III. Incursion dans l’IA[T] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.61-97. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-61?lang=fr.

Notes

[1]
Le chercheur Gilles Dowek propose d’ailleurs de parler « d’apprentissage épais », arguant qu’en français un empilement de couches successives forme une structure épaisse et non pas profonde.
[2]
Nommément le « RN convolutif », qui favorise la détermination de patterns, d’invariants efficaces, notablement dans le traitement d’image. Un RN étant un assemblage de centaines de « neurones » informatiques unitaires, une architecture correspond à une manière de les relier entre eux : combien en mettez-vous ? Tous à la suite ou bien en couches successives ? Tous reliés entre eux ou avec des liaisons privilégiées ? Etc. Comme dans le bâtiment, à partir des mêmes briques (les neurones) qui se ressemblent toutes, on peut construire des maisons de types différents (des architectures variées) selon la manière dont on les combine.
[3]
Exemple : la position et la vitesse d’un véhicule, ou encore la température et la pression d’un local.
[4]
Remarquez qu’appliquer les lois de la physique pour obtenir la relation f (le modèle physique, donc) entre les entrées et les sorties, c’est déjà effectuer un travail de modélisation, c’est-à-dire de transcription de la réalité en un formalisme. L’écriture « y = f(x) » constitue même déjà une réduction.
[5]
Elle est souvent notée ŷ (dire : « y chapeau »).
[6]
Pourquoi ? Soit parce que le phénomène est très complexe et que la théorie est en retard, soit parce la physique ne peut rien pour nous. Par exemple, une bonne part de ce qui est du ressort des activités humaines n’obéit pas à une loi physique précise.
[7]
Pour ceux que le formalisme mathématique ne rebute pas : une fois que l’on dispose du modèle ϕ, pour un x donné, quel est l’écart entre la vraie valeur de sortie du système, y = f(x), et l’estimation qui, seule, est accessible au calcul : ŷ = ϕ(x) ?
[8]
Nous sommes dans une analogie. En toute généralité, l’équation d’un modèle n’est pas ∑
forcément de la forme_i p_i.x_i. Pour autant, il s’agira toujours d’une combinaison de paramètres à trouver et de variables reconnues dans les observations.
[9]
Les boutons de réglages de volume, de balance, de graves et d’aiguës d’une chaîne Hi-Fi.
[10]
Si l’on se restreint, comme annoncé, au seul prédictif et au non-supervisé.
[11]
La comparaison ne concerne bien sûr pas la méthode mathématique utilisée : calcul de moyennes et d’écart-types pour déterminer les cœfficients de régression linéaire, rétro-propagation du gradient pour les RN. A noter cependant qu’il s’agit, pour ces derniers, d’un cas particulier et astucieux de descente de gradient, algorithme assez général dès lors que de l’optimisation entre en jeu.
[12]
Ce qui ne veut pas dire explicitable : une fois le RN entraîné, on pourrait s’amuser à imprimer les dizaines de pages que constitueraient la formule de prédiction. Cette explicitation serait matérielle, mais inutile : elle ne passe pas la contrainte de l’explicite.
[13]
Cf. sa leçon inaugurale au Collège de France. Nous aurons l’occasion de recroiser ce professeur au chapitre VIII qui approfondit ces notions, en tant que limitations à l’IA.
[14]
Et pour considérer que l’image chargée est labélisée, encore faut-il que la personne n’ait pas chargé autre chose à la place !
[15]
De la forme : \(\left[\begin{array}{cc} 100 \% & 0 \\ 0 & 100 \% \end{array}\right]\).
[16]
Si x est une variable, un polynôme en x est de la forme a₀ + a₁x + a₂x² +... + a_nxⁿ, c’est-à-dire la somme de puissances de x pondérées par des cœfficients a_i.
[17]
Mais attention au sur-apprentissage...!
[18]
Sans que cela soit une surprise : ce critère, c’est la métrique fixée lors de la phase de modélisation, comme on le verra plus tard lorsque l’on abordera la définition de ce qu’est modéliser une situation.
[19]
Un exemple concret : le choix de la meilleure voiture parmi dix modèles présentés. Pour moi : celle de couleur bleu-roi. Pour Arnaud, la moins polluante (qui n’est pas la voiture bleue). Chacun de nous a raison, mais Arnaud pourrait me reprocher mon égoïsme de favoriser quelque chose d’aussi futile que la couleur devant la lutte contre la pollution, tandis que je pourrais l’attaquer sur son absence de bon goût l’ayant conduit à choisir une voiture jaune. Pour un troisième comparse, le critère important sera le prix, ou la vitesse de pointe du véhicule...
[20]
Comme nous verrons en détail, au chapitre IX, des résultats plus surprenants encore, nous ne nous étendons pas ici sur cette preuve.
[21]
Dossier spécial Les Echos des 9 et 10 mars 2018.
[22]
Sale bête !
[23]
En notation mathématique : si T < T_c alors cmd = 1, 0 sinon.
[24]
Si T > T_max, alors cmd = 0.
[25]
Notons que, dans cet exemple simple, il est inutile de donner la température de consigne et la température maximale !
[26]
Voir chapitre XVII où cette notion est discutée.
[27]
M. « ELT », qui se reconnaîtra.
[28]
« règles du jeu et les stratégies », aurait-on pu écrire. En effet, le ML peut déduire les déplacements autorisés à partir des parties jouées données, mais cela fait ça de plus à apprendre et risque de réduire inutilement les performances. Un principe de parcimonie veut que si on connaît déjà les règles, on ne les donne pas à apprendre à la machine.
[29]
En outre, la complexité de l’approche venait du fait que les seuls descripteurs intéressants sont ceux qui présentent une invariance par rapport à certaines transformations géométriques, telles les translations, les homothéties, les rotations..., sans quoi une figure détectée sur une image donnée ne peut plus l’être sur une autre.
[30]
Alors que nos experts pouvaient se prononcer, pour la détermination des caractéristiques à découvrir pour réaliser, par exemple, un problème de classification, sur un jeu comprenant peu de données.
[31]
A prendre au sens de bonne qualité, et non de propriétaire.
[32]
On fait donc le gros présupposé que nous avons affaire à un médecin qui raisonne !
[33]
Bon, en fait, un ERP est une collection de règles, parfois concurrentes, et dont il faut gérer les priorités. Comment ? Avec d’autres règles...!
[34]
Diagnostic : « C’est dans la tête. »
[35]
On aura reconnu une tâche de labélisation (cf. section 1.5, p. 74).
[36]
Et dans « vrai », on entend : bon et de chair et d’os.
[37]
Ya ?
[38]
En cela leur caractère « probabiliste ».
[39]
L’intelligence artificielle : un instrument de puissance ?, visible sur Arte.tv en mars 2019.
[40]
Voir aussi le chapitre VIII sur la notion de dépendance au chemin.
[41]
Pour éviter les confusions : la programmation d’un RN est chose facile. L’algorithme est connu. Ce qui l’est moins, c’est la signification à accorder à la modélisation en résultant, signification d’autant plus délicate à trouver que les règles créées par le RN sont implicites. En aparté, notons que la donnée de règles explicites n’est pas non plus garante de facilité à en définir le sens.

Dans ce chapitre, il sera essentiellement question de ce que l’on nomme l’« apprentissage machine supervisé », cas emblématique de l’IA, et la part belle sera faite aux réseaux de neurones, objets de tous les fantasmes de par leur dénomination, que nous tenterons de démystifier en expliquant rigoureusement, mais de manière didactique, les notions de modélisation et d’apprentissage. Enfin, nous aborderons le changement de paradigme dans la programmation dont, en définitive, résulte l’IA.
On se propose ici de revenir sur les fondamentaux scientifiques de l’IA. Leur compréhension permet de pourfendre les « benêts de l’IA », dans une optique de démystification. Comme on a pu le constater sur les exemples mentionnés au chapitre précédent, c’est un véritable combat tant les marchands du temple tentent d’en obscurcir le sens.
Attention toutefois : les armes de la science sont bien difficiles à manier tandis que celles des benêts sont infiniment plus nombreuses et d’un maniement plus aisé, se révélant, par là-même, plus dangereuses sur le champ de bataille de la communication.
Tout d’abord, il est impératif d’éviter une confusion ayant malheureusement court, y compris dans l’esprit de personnes pourtant érudites : l’IA est un ensemble de techniques mathématiques et informatiques et en aucun cas une collection exiguë de sujets ou d’applications métiers. Un chatbot, ce n’est pas (de)l’IA, c’est un système informatique qui utilise l’IA pour simuler une conversation. A contrari…

Date de mise en ligne : 01/07/2024

Ce chapitre est en accès conditionnel

Acheter ce chapitre

5,00 €

37 pages format électronique (HTML, PDF et feuilletage)

Membre d'une institution cliente ?

Compte personnel

III. Incursion dans l’IA^[T]

Notes

Citer ce chapitre

Notes

Ce chapitre est en accès conditionnel

Acheter ce chapitre

Accès institutions

Toutes les institutions