IV. L’apprentissage machine[T]

Axel Cypel

Au cœur de l'intelligence artificielle 2020

Chapitre d’ouvrage

IV. L’apprentissage machine^[T]

Par Axel Cypel

Pages 99 à 135

CYPEL, Axel,

2020. IV. L’apprentissage machine[T] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.99-135. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-99?lang=fr.

Cypel, Axel.

« IV. L’apprentissage machine[T] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.99-135. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-99?lang=fr.

Cypel, A.

(2020). IV. L’apprentissage machine[T] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 99-135). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-99?lang=fr.

Notes

[1]
Les classes d’équivalence, en quelques sortes, qui permettent de lier un mot à son champ lexical et de constituer des clusters (des regroupements) pour faciliter l’analyse sémantique.
[2]
Il s’agit d’un type particulier de données où l’on dispose de relevés de la même variable en fonction du temps. Un cours de bourse en est l’exemple typique : le prix d’un actif à des instants donnés.
[3]
Plate-forme de compétition en datascience sur laquelle sont proposés des problèmes de modélisation ; et que le meilleur gagne !
[4]
Extrait de [11], de Jean-Claude Heudin : « AlphaGo est basé sur une architecture de recherche arborescente [...] supervisée par deux réseaux de neurones profonds. Le premier gère la tactique de jeu et le second évalue la probabilité de victoire finale. Au départ deux réseaux ont été entraînés sur un très large jeu de données, complété par des parties qu’ils ont jouées contre eux-mêmes. »
[5]
Dans le cas général... Parfois il se peut que l’ajout de bruit dans les données améliore le modèle.
[6]
Un peu comme quand vous copiez un fichier : vous l’avez certes en double, mais vous n’avez pas créé de nouvelles informations ce faisant.
[7]
Notons que cette vision est de nature « essentialiste » (« les choses sont ce qu’elles doivent être »), puisque l’on présuppose l’existence d’une loi. Nous avons tout le chapitre V sur le déterminisme pour en rediscuter.
[8]
Le sur-apprentissage revient à une « rigidification » de la fonction trouvée qui, au lieu d’être à peu de choses près semblable à la loi, n’est plus qu’une relation ne contenant strictement que les zones noires connues point à point. On image cela souvent par une fonction au dessin très complexe (type polynôme d’interpolation) qui passe bien par tous les points de la base d’apprentissage, mais n’en expliquerait aucun qui ne serait pas présent dans celle-ci.
[9]
Oui, je sais, ce serait un cauchemar pour beaucoup de personnes.
[10]
Sauf si je suis transhumaniste, mais c’est un autre débat...
[11]
En plus, d’un point de vue mathématique, la donnée du graphe d’une fonction, c’est-à-dire de l’ensemble des points de l’espace qu’elle met en relation, équivaut formellement à la donnée de la fonction, puisque le graphe en est la représentation ensembliste (cf. Halmos, [14]).
[12]
Valeur de f en x à peu près égale à y.
[13]
En continu, il va être difficile de connaître la pesée d’un nouvel exemple dans le modèle à créer. Et si sa contribution, mal dosée, conduisait au fur et à mesure à du sur-apprentissage, impliquant une dérive progressive du modèle, alors même que son contrôle est, dans le cas d’espèce, malaisé ?
[14]
Cette fois, par « modélisation », on entend « structure de modélisation », typiquement un RN de même nature dont on importe les poids déterminés lors d’un premier apprentissage. Lorsque la nature de la modélisation est différente, on parlera plutôt de multi-task learning, où des traitements parallèles se renforcent et se complètent mutuellement.
[15]
Par exemple le GDPR, qui impose un certain nombre de limitations, en particulier sur la durée de conservation.
[16]
La distinction entre ces deux ensembles de couches est empirique.
[17]
Symboliquement : sans transfer learning, on aurait eu f = f₂ peu performante, alors qu’avec le transfert : f = f₂ ◦ f₁, bien meilleure.
[18]
Rassurons notre lecteur : cette idée stupide n’a pour vocation que de choquer afin d’illustrer plus loin la notion de transparence des algorithmes. Cela dit, elle pourrait ne pas paraître incongrue à ceux qui s’adonnent à cette pseudo-science inepte qu’est la morphopsychologie, ainsi qu’à tous les charlatans scientistes férus de ML.
[19]
Cette fois, on peut expliquer en quoi : si l’on peut justifier, à la rigueur, que des jeux de données D₁ et D₂ sont comparables (ex : photographies d’animaux et de personnes dans des décors similaires), comment expliquer le lien entre la fonction créée par RN₁ et celle que doit accomplir RN₂ ?
[20]
Voir aussi le chapitre XV à ce sujet.
[21]
Rappelons que le modèle f condense les liens appris sur les exemples de la base d’apprentissage – les couples (x, y) où y est la cible. L’estimation ŷ se calcule alors comme la valeur f(x) pour un nouvel individu x.
[22]
Faire du clustering n’est pas la seule chose réalisable par le non supervisé. Ces techniques sont également employées pour faire ce que l’on nomme de l’« estimation de densité », terme technique pour signifier construction d’un modèle probabiliste. Passons.
[23]
Matt Turck, « Frontier AI : How far are we from artificial “general” intelligence, really ? »
[24]
Et encore, cette typologie de modèles n’est-elle pas en fait supervisée par la simulation de l’environnement ?
[25]
Titre de la diapo : DCGAN : “reverse” ConvNet maps random vectors to images – Radford, Metz, Chintala, 2015.
[26]
Rappelons qu’il s’agit d’étiqueter chaque éléments de la base pour indiquer sa nature, ou plus prosaïquement, « cible ? : oui ou non ».
[27]
Vous ne me croyez pas ? Eh bien allez voir là : https://quest.mit.edu/ ! La bonne nouvelle, c’est qu’ils se casseront les dents avant que de casser le « code » de l’intelligence ; mais ils auront potentiellement déjà fait pas mal de dégâts, même s’ils n’atteignent pas leur but. Tous ces gens ne rêvent que de débrouiller le fonctionnement du cerveau, dussent-ils vous l’ôter de la tête à la petite cuillère. Souvenons-nous de la fable de La Fontaine, La Poule aux œufs d’or : on termine avec un pauvre... et une morte !
[28]
Traduction : Le transfer learning sera la clef d’acquisition de savoir conceptuel détaché des détails liés à la perception qui l’ont porté à notre connaissance.
[29]
La réduction mathématico-informatique. Premier indice...
[30]
Une bijection est une relation biunivoque entre deux ensembles, c’est-à-dire un lien qui associe un individu de l’ensemble de gauche à un et un seul individu de l’ensemble de droite.
[31]
Jeu de mot et second indice.
[32]
Le LU est en fait l’algorithme ascensionnel (voir chapitre XV) permettant d’appréhender mécaniquement un concept, entité abstraite du Monde des Idées.
[33]
Nous renvoyons le lecteur à [15] de Jean-Yves Girard, Le Fantôme de la transparence, à la mention du « pravdamètre ». Les passages sont si éclairants qu’il faudrait les reproduire dans leur intégralité...
[34]
Cette fonction de codage universelle ne vient pas au poignet du nouveau-né, contrairement à l’étiquette qui le dénomme.
[35]
Formule de l’apprentissage par renforcement : But = max Critère.
{Commandes}
[36]
AI playing Super Mario World with Deep Reinforcement Learning, visible à la page : https://www.youtube.com/watch?v=L4KBBAwF_bE
[37]
C’est cette quasi-unicité de la méthode qui fait qu’un algorithme n’est pas foncièrement meilleur ou moins bon qu’un autre de la même classe. Selon le contexte, les données en jeu, bien sûr un algorithme se révélera plus adapté qu’un autre, mais la performance obtenue ne variera pas du simple au double. Réciproquement, si, avec un type d’algorithme, vous ne parvenez pas à un résultat décent, un autre ne devrait pas améliorer franchement cet état de fait. Votre salut se trouvera dans les données (quantité, qualité) plus que dans la quête spirituelle d’un nouvel algorithme.
[38]
Rappelons que les cours de bourse en sont ; et que d’aucuns aimeraient beaucoup en extraire ce qu’ils ne contiennent plus qu’en résumé.
[39]
Un algorithme d’apprentissage statistique particulièrement performant dans les problématiques de classification et de régression.

Citer ce chapitre

Cypel, A.

(2020). IV. L’apprentissage machine[T] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 99-135). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-99?lang=fr.

Cypel, Axel.

« IV. L’apprentissage machine[T] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.99-135. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-99?lang=fr.

CYPEL, Axel,

2020. IV. L’apprentissage machine[T] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.99-135. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-99?lang=fr.

Notes

[1]
Les classes d’équivalence, en quelques sortes, qui permettent de lier un mot à son champ lexical et de constituer des clusters (des regroupements) pour faciliter l’analyse sémantique.
[2]
Il s’agit d’un type particulier de données où l’on dispose de relevés de la même variable en fonction du temps. Un cours de bourse en est l’exemple typique : le prix d’un actif à des instants donnés.
[3]
Plate-forme de compétition en datascience sur laquelle sont proposés des problèmes de modélisation ; et que le meilleur gagne !
[4]
Extrait de [11], de Jean-Claude Heudin : « AlphaGo est basé sur une architecture de recherche arborescente [...] supervisée par deux réseaux de neurones profonds. Le premier gère la tactique de jeu et le second évalue la probabilité de victoire finale. Au départ deux réseaux ont été entraînés sur un très large jeu de données, complété par des parties qu’ils ont jouées contre eux-mêmes. »
[5]
Dans le cas général... Parfois il se peut que l’ajout de bruit dans les données améliore le modèle.
[6]
Un peu comme quand vous copiez un fichier : vous l’avez certes en double, mais vous n’avez pas créé de nouvelles informations ce faisant.
[7]
Notons que cette vision est de nature « essentialiste » (« les choses sont ce qu’elles doivent être »), puisque l’on présuppose l’existence d’une loi. Nous avons tout le chapitre V sur le déterminisme pour en rediscuter.
[8]
Le sur-apprentissage revient à une « rigidification » de la fonction trouvée qui, au lieu d’être à peu de choses près semblable à la loi, n’est plus qu’une relation ne contenant strictement que les zones noires connues point à point. On image cela souvent par une fonction au dessin très complexe (type polynôme d’interpolation) qui passe bien par tous les points de la base d’apprentissage, mais n’en expliquerait aucun qui ne serait pas présent dans celle-ci.
[9]
Oui, je sais, ce serait un cauchemar pour beaucoup de personnes.
[10]
Sauf si je suis transhumaniste, mais c’est un autre débat...
[11]
En plus, d’un point de vue mathématique, la donnée du graphe d’une fonction, c’est-à-dire de l’ensemble des points de l’espace qu’elle met en relation, équivaut formellement à la donnée de la fonction, puisque le graphe en est la représentation ensembliste (cf. Halmos, [14]).
[12]
Valeur de f en x à peu près égale à y.
[13]
En continu, il va être difficile de connaître la pesée d’un nouvel exemple dans le modèle à créer. Et si sa contribution, mal dosée, conduisait au fur et à mesure à du sur-apprentissage, impliquant une dérive progressive du modèle, alors même que son contrôle est, dans le cas d’espèce, malaisé ?
[14]
Cette fois, par « modélisation », on entend « structure de modélisation », typiquement un RN de même nature dont on importe les poids déterminés lors d’un premier apprentissage. Lorsque la nature de la modélisation est différente, on parlera plutôt de multi-task learning, où des traitements parallèles se renforcent et se complètent mutuellement.
[15]
Par exemple le GDPR, qui impose un certain nombre de limitations, en particulier sur la durée de conservation.
[16]
La distinction entre ces deux ensembles de couches est empirique.
[17]
Symboliquement : sans transfer learning, on aurait eu f = f₂ peu performante, alors qu’avec le transfert : f = f₂ ◦ f₁, bien meilleure.
[18]
Rassurons notre lecteur : cette idée stupide n’a pour vocation que de choquer afin d’illustrer plus loin la notion de transparence des algorithmes. Cela dit, elle pourrait ne pas paraître incongrue à ceux qui s’adonnent à cette pseudo-science inepte qu’est la morphopsychologie, ainsi qu’à tous les charlatans scientistes férus de ML.
[19]
Cette fois, on peut expliquer en quoi : si l’on peut justifier, à la rigueur, que des jeux de données D₁ et D₂ sont comparables (ex : photographies d’animaux et de personnes dans des décors similaires), comment expliquer le lien entre la fonction créée par RN₁ et celle que doit accomplir RN₂ ?
[20]
Voir aussi le chapitre XV à ce sujet.
[21]
Rappelons que le modèle f condense les liens appris sur les exemples de la base d’apprentissage – les couples (x, y) où y est la cible. L’estimation ŷ se calcule alors comme la valeur f(x) pour un nouvel individu x.
[22]
Faire du clustering n’est pas la seule chose réalisable par le non supervisé. Ces techniques sont également employées pour faire ce que l’on nomme de l’« estimation de densité », terme technique pour signifier construction d’un modèle probabiliste. Passons.
[23]
Matt Turck, « Frontier AI : How far are we from artificial “general” intelligence, really ? »
[24]
Et encore, cette typologie de modèles n’est-elle pas en fait supervisée par la simulation de l’environnement ?
[25]
Titre de la diapo : DCGAN : “reverse” ConvNet maps random vectors to images – Radford, Metz, Chintala, 2015.
[26]
Rappelons qu’il s’agit d’étiqueter chaque éléments de la base pour indiquer sa nature, ou plus prosaïquement, « cible ? : oui ou non ».
[27]
Vous ne me croyez pas ? Eh bien allez voir là : https://quest.mit.edu/ ! La bonne nouvelle, c’est qu’ils se casseront les dents avant que de casser le « code » de l’intelligence ; mais ils auront potentiellement déjà fait pas mal de dégâts, même s’ils n’atteignent pas leur but. Tous ces gens ne rêvent que de débrouiller le fonctionnement du cerveau, dussent-ils vous l’ôter de la tête à la petite cuillère. Souvenons-nous de la fable de La Fontaine, La Poule aux œufs d’or : on termine avec un pauvre... et une morte !
[28]
Traduction : Le transfer learning sera la clef d’acquisition de savoir conceptuel détaché des détails liés à la perception qui l’ont porté à notre connaissance.
[29]
La réduction mathématico-informatique. Premier indice...
[30]
Une bijection est une relation biunivoque entre deux ensembles, c’est-à-dire un lien qui associe un individu de l’ensemble de gauche à un et un seul individu de l’ensemble de droite.
[31]
Jeu de mot et second indice.
[32]
Le LU est en fait l’algorithme ascensionnel (voir chapitre XV) permettant d’appréhender mécaniquement un concept, entité abstraite du Monde des Idées.
[33]
Nous renvoyons le lecteur à [15] de Jean-Yves Girard, Le Fantôme de la transparence, à la mention du « pravdamètre ». Les passages sont si éclairants qu’il faudrait les reproduire dans leur intégralité...
[34]
Cette fonction de codage universelle ne vient pas au poignet du nouveau-né, contrairement à l’étiquette qui le dénomme.
[35]
Formule de l’apprentissage par renforcement : But = max Critère.
{Commandes}
[36]
AI playing Super Mario World with Deep Reinforcement Learning, visible à la page : https://www.youtube.com/watch?v=L4KBBAwF_bE
[37]
C’est cette quasi-unicité de la méthode qui fait qu’un algorithme n’est pas foncièrement meilleur ou moins bon qu’un autre de la même classe. Selon le contexte, les données en jeu, bien sûr un algorithme se révélera plus adapté qu’un autre, mais la performance obtenue ne variera pas du simple au double. Réciproquement, si, avec un type d’algorithme, vous ne parvenez pas à un résultat décent, un autre ne devrait pas améliorer franchement cet état de fait. Votre salut se trouvera dans les données (quantité, qualité) plus que dans la quête spirituelle d’un nouvel algorithme.
[38]
Rappelons que les cours de bourse en sont ; et que d’aucuns aimeraient beaucoup en extraire ce qu’ils ne contiennent plus qu’en résumé.
[39]
Un algorithme d’apprentissage statistique particulièrement performant dans les problématiques de classification et de régression.

Nous continuons ici l’exploration des différentes méthodes proposées par l’IA. Après nous être précédemment concentrés sur l’apprentissage machine supervisé, nous évoquerons les autres classes actuellement disponibles.
Comme il ne s’agit pas, pour nous, de faire un cours de datascience, nous ne rentrerons pas dans les détails techniques de ces algorithmes, pas plus que dans leur mise en œuvre opérationnelle, préférant plutôt prendre du recul sur leurs implications, ayant en tête que faire, c’est bien, mais savoir ce que l’on fait, c’est mieux !
Ainsi, nous nous attellerons à définir l’activité même du datascientist : la modélisation. Question délicate, cruciale dans tous les problèmes impliquant des données, et qui nous mettra sur la piste pour comprendre ce qu’est l’IA des grands noms d’internet. Et comme nous aurons à peu près cerné ses fondamentaux, nous nous octroierons le luxe d’entrevoir quelques unes des illusions perdues qui peuplent les chapitres traitant des limitations de l’IA.Modéliser une situation, c’est choisir un paradigme de représentation mathématique du réel dans lequel on peut transcrire ce que l’on souhaite effectuer.
Un modèle est une représentation d’une réalité en vue de la comprendre et éventuellement d’agir sur elle. Pour prendre une illustration, quoiqu’encore assez théorique : Pierre-Noël Giraud rappelle, dans [13], p. 55, la démarche de l’économie, qui consiste en l’« analyse d’une “question”, à l’aide d’un “modèle”, qui, une fois confronté à la réalité, permet de formuler des “théories” et en particulier de prévoir ce qui va se passer si rien ne change…

Date de mise en ligne : 01/07/2024

Ce chapitre est en accès conditionnel

Acheter ce chapitre

5,00 €

37 pages format électronique (HTML, PDF et feuilletage)

Membre d'une institution cliente ?

Compte personnel

IV. L’apprentissage machine^[T]

Notes

Citer ce chapitre

Notes

Ce chapitre est en accès conditionnel

Acheter ce chapitre

Accès institutions

Toutes les institutions