VIII. Les petits théorèmes de limitation[L]

Axel Cypel

Au cœur de l'intelligence artificielle 2020

Chapitre d’ouvrage

VIII. Les petits théorèmes de limitation^[L]

Par Axel Cypel

Pages 183 à 204

CYPEL, Axel,

2020. VIII. Les petits théorèmes de limitation[L] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.183-204. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-183?lang=fr.

Cypel, Axel.

« VIII. Les petits théorèmes de limitation[L] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.183-204. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-183?lang=fr.

Cypel, A.

(2020). VIII. Les petits théorèmes de limitation[L] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 183-204). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-183?lang=fr.

Notes

[1]
Comme expliqué au chapitre IV (théorie de Vapnik, p. 109), la fonction ϕ qui minimise l’écart entre y et ϕ(x) sur les données d’apprentissage est la meilleure candidate, selon ce critère, pour prétendre au titre de modèle du phénomène étudié.
[2]
Voir la note de bas de page 3, p. 102.
[3]
Et entre les deux, à augmenter le niveau d’expressivité de la famille de modèles retenue.
[4]
Nombre d’itérations d’apprentissage pendant lesquelles l’algorithme du RN calibre les poids sur les données d’apprentissage.
[5]
Pour deux raisons, au moins : (1) mieux vaut effectuer le travail à faire pour traiter en toute légalité les données à caractère personnel ; (2) une véritable anonymisation appauvrira tellement votre jeu de données que la modélisation big data confinera à des résultats peu pertinents : trop d’information aura été perdue.
[6]
Pour faire simple : afin de garantir un effectif constant de k individus par croisements de données, quand p double il ne suffit pas de doubler le nombre d’enregistrements n, il faut plutôt le multiplier par 10 !
[7]
Dans un souci de simplification, j’ai modifié à la marge les citations originales.
[8]
Qui prédit la valeur d’une propriété d’un individu x qui n’était pas dans la base d’apprentissage en lui attribuant la propriété de son voisin le plus proche (qui faisait, lui, partie de la base d’apprentissage).
[9]
Ce qui signifie, rappelons-le, la détermination fine du graphe de cette fonction, permettant ensuite de réaliser une bonne prédiction sur de nouveaux points.
[10]
Soit le fait de labéliser une photographie, c’est-à-dire la reconnaître à l’œil nu, sélectionner le bon fichier, le classer dans le bon dossier, et cela des millions de fois.
[11]
En d’autres termes : le ratio entre le nombre de boules bleues et celui de boules blanches tend-il vers une quantité fixe après que l’on ait réitéré l’expérience à maintes reprises ?
[12]
Par exemple, on procédera à des mesures dites de « co-intégration ».
[13]
En chimie, on dirait la « concentration ».
[14]
C’est plus l’objet du chapitre XVII.
[15]
Intitulé « Deluge of Spurious Correlations in Big Data », accessible là : https://www.di.ens.fr/.../longo/files/BigData-Calude-LongoAug21.pdf
[16]
En français dans le texte : « plus il y a de données et plus s’y trouveront de corrélations arbitraires, dénuées de sens et inutiles (pour une future action) ».
[17]
Traduction : « Pire encore, ces dernières corrélations (du type Ramsey) ne peuvent être distinguées algorithmiquement des autres ».
[18]
Dépendance au chemin...
[19]
Et nous reviendrons encore dessus au chapitre XVII.

Citer ce chapitre

Cypel, A.

(2020). VIII. Les petits théorèmes de limitation[L] Au cœur de l'intelligence artificielle : Des algorithmes à l'IA forte (p. 183-204). De Boeck Supérieur. https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-183?lang=fr.

Cypel, Axel.

« VIII. Les petits théorèmes de limitation[L] ». Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte, De Boeck Supérieur, 2020. p.183-204. CAIRN.INFO, stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-183?lang=fr.

CYPEL, Axel,

2020. VIII. Les petits théorèmes de limitation[L] In : Au cœur de l'intelligence artificielle Des algorithmes à l'IA forte. Louvain-la-Neuve : De Boeck Supérieur. Hors collection Sciences, p.183-204. URL : https://stm.cairn.info/au-coeur-de-l-intelligence-artificielle--9782807331846-page-183?lang=fr.

Notes

[1]
Comme expliqué au chapitre IV (théorie de Vapnik, p. 109), la fonction ϕ qui minimise l’écart entre y et ϕ(x) sur les données d’apprentissage est la meilleure candidate, selon ce critère, pour prétendre au titre de modèle du phénomène étudié.
[2]
Voir la note de bas de page 3, p. 102.
[3]
Et entre les deux, à augmenter le niveau d’expressivité de la famille de modèles retenue.
[4]
Nombre d’itérations d’apprentissage pendant lesquelles l’algorithme du RN calibre les poids sur les données d’apprentissage.
[5]
Pour deux raisons, au moins : (1) mieux vaut effectuer le travail à faire pour traiter en toute légalité les données à caractère personnel ; (2) une véritable anonymisation appauvrira tellement votre jeu de données que la modélisation big data confinera à des résultats peu pertinents : trop d’information aura été perdue.
[6]
Pour faire simple : afin de garantir un effectif constant de k individus par croisements de données, quand p double il ne suffit pas de doubler le nombre d’enregistrements n, il faut plutôt le multiplier par 10 !
[7]
Dans un souci de simplification, j’ai modifié à la marge les citations originales.
[8]
Qui prédit la valeur d’une propriété d’un individu x qui n’était pas dans la base d’apprentissage en lui attribuant la propriété de son voisin le plus proche (qui faisait, lui, partie de la base d’apprentissage).
[9]
Ce qui signifie, rappelons-le, la détermination fine du graphe de cette fonction, permettant ensuite de réaliser une bonne prédiction sur de nouveaux points.
[10]
Soit le fait de labéliser une photographie, c’est-à-dire la reconnaître à l’œil nu, sélectionner le bon fichier, le classer dans le bon dossier, et cela des millions de fois.
[11]
En d’autres termes : le ratio entre le nombre de boules bleues et celui de boules blanches tend-il vers une quantité fixe après que l’on ait réitéré l’expérience à maintes reprises ?
[12]
Par exemple, on procédera à des mesures dites de « co-intégration ».
[13]
En chimie, on dirait la « concentration ».
[14]
C’est plus l’objet du chapitre XVII.
[15]
Intitulé « Deluge of Spurious Correlations in Big Data », accessible là : https://www.di.ens.fr/.../longo/files/BigData-Calude-LongoAug21.pdf
[16]
En français dans le texte : « plus il y a de données et plus s’y trouveront de corrélations arbitraires, dénuées de sens et inutiles (pour une future action) ».
[17]
Traduction : « Pire encore, ces dernières corrélations (du type Ramsey) ne peuvent être distinguées algorithmiquement des autres ».
[18]
Dépendance au chemin...
[19]
Et nous reviendrons encore dessus au chapitre XVII.

Petits mais costauds...
Ça se corse ? Pour l’IA, assurément, mais pas pour nous, puisque la plupart des notions dont nous allons discuter dans ce chapitre ont déjà été évoquées : sur-apprentissage, régressions fallacieuses, causalité...
Le but est ici de les approfondir pour voir de quoi il retourne précisément, en ne rompant pas avec notre mode de présentation qui situe toujours un résultat théorique dans son contexte, avec des exemples à la clef, et sans oublier l’étude de ses conséquences quant à l’usage de nos outils de ML.
Autant le nommer immédiatement : le sur-apprentissage, c’est l’ennemi. D’ailleurs, cette expression dénote un signe assez évident de placage maladroit d’un vocable caractéristique de l’humain (l’apprentissage) sur une de nos créations (l’ordinateur). En effet, un être humain n’apprend jamais trop et sa vie reflète son expérience, i.e. l’ensemble des connaissances qu’il a assimilées. Différence de taille avec la machine, donc, pour qui l’apprentissage peut conduire à une overdose, fatale à l’IA.
Nous avons parlé à plusieurs reprises de la faculté de généralisation en tant que caractéristique d’un bon modèle. Le sur-apprentissage est à l’opposé de la généralisation. Que l’on se rassure, il n’est que l’un des ennemis de la généralisation ! Nous allons tenter de mieux cerner cette dernière notion.
A cette fin, considérons un algorithme de ML supervisé utilisé pour apprendre la relation f liant l’entrée x à la sortie y [par exemple pour modéliser la température d’un endroit…

Date de mise en ligne : 01/07/2024

Ce chapitre est en accès conditionnel

Acheter ce chapitre

5,00 €

22 pages format électronique (HTML, PDF et feuilletage)

Membre d'une institution cliente ?

Compte personnel

VIII. Les petits théorèmes de limitation^[L]

Notes

Citer ce chapitre

Notes

Ce chapitre est en accès conditionnel

Acheter ce chapitre

Accès institutions

Toutes les institutions