VIII. Les petits théorèmes de limitation[L]
- Par Axel Cypel
Pages 183 à 204
Citer ce chapitre
- CYPEL, Axel,
- Cypel, Axel.
- Cypel, A.
Citer ce chapitre
- Cypel, A.
- Cypel, Axel.
- CYPEL, Axel,
Notes
-
[1]
Comme expliqué au chapitre IV (théorie de Vapnik, p. 109), la fonction ϕ qui minimise l’écart entre y et ϕ(x) sur les données d’apprentissage est la meilleure candidate, selon ce critère, pour prétendre au titre de modèle du phénomène étudié.
-
[2]
Voir la note de bas de page 3, p. 102.
-
[3]
Et entre les deux, à augmenter le niveau d’expressivité de la famille de modèles retenue.
-
[4]
Nombre d’itérations d’apprentissage pendant lesquelles l’algorithme du RN calibre les poids sur les données d’apprentissage.
-
[5]
Pour deux raisons, au moins : (1) mieux vaut effectuer le travail à faire pour traiter en toute légalité les données à caractère personnel ; (2) une véritable anonymisation appauvrira tellement votre jeu de données que la modélisation big data confinera à des résultats peu pertinents : trop d’information aura été perdue.
-
[6]
Pour faire simple : afin de garantir un effectif constant de k individus par croisements de données, quand p double il ne suffit pas de doubler le nombre d’enregistrements n, il faut plutôt le multiplier par 10 !
-
[7]
Dans un souci de simplification, j’ai modifié à la marge les citations originales.
-
[8]
Qui prédit la valeur d’une propriété d’un individu x qui n’était pas dans la base d’apprentissage en lui attribuant la propriété de son voisin le plus proche (qui faisait, lui, partie de la base d’apprentissage).
-
[9]
Ce qui signifie, rappelons-le, la détermination fine du graphe de cette fonction, permettant ensuite de réaliser une bonne prédiction sur de nouveaux points.
-
[10]
Soit le fait de labéliser une photographie, c’est-à-dire la reconnaître à l’œil nu, sélectionner le bon fichier, le classer dans le bon dossier, et cela des millions de fois.
-
[11]
En d’autres termes : le ratio entre le nombre de boules bleues et celui de boules blanches tend-il vers une quantité fixe après que l’on ait réitéré l’expérience à maintes reprises ?
-
[12]
Par exemple, on procédera à des mesures dites de « co-intégration ».
-
[13]
En chimie, on dirait la « concentration ».
-
[14]
C’est plus l’objet du chapitre XVII.
-
[15]
Intitulé « Deluge of Spurious Correlations in Big Data », accessible là : https://www.di.ens.fr/.../longo/files/BigData-Calude-LongoAug21.pdf
-
[16]
En français dans le texte : « plus il y a de données et plus s’y trouveront de corrélations arbitraires, dénuées de sens et inutiles (pour une future action) ».
-
[17]
Traduction : « Pire encore, ces dernières corrélations (du type Ramsey) ne peuvent être distinguées algorithmiquement des autres ».
-
[18]
Dépendance au chemin...
-
[19]
Et nous reviendrons encore dessus au chapitre XVII.
Petits mais costauds...
Ça se corse ? Pour l’IA, assurément, mais pas pour nous, puisque la plupart
des notions dont nous allons discuter dans ce chapitre ont déjà été évoquées :
sur-apprentissage, régressions fallacieuses, causalité...
Le but est ici de les approfondir pour voir de quoi il retourne précisément,
en ne rompant pas avec notre mode de présentation qui situe toujours un
résultat théorique dans son contexte, avec des exemples à la clef, et sans
oublier l’étude de ses conséquences quant à l’usage de nos outils de ML.
Autant le nommer immédiatement : le sur-apprentissage, c’est l’ennemi.
D’ailleurs, cette expression dénote un signe assez évident de placage maladroit
d’un vocable caractéristique de l’humain (l’apprentissage) sur une de nos
créations (l’ordinateur). En effet, un être humain n’apprend jamais trop et sa
vie reflète son expérience, i.e. l’ensemble des connaissances qu’il a assimilées.
Différence de taille avec la machine, donc, pour qui l’apprentissage peut
conduire à une overdose, fatale à l’IA.
Nous avons parlé à plusieurs reprises de la faculté de généralisation en
tant que caractéristique d’un bon modèle. Le sur-apprentissage est à l’opposé
de la généralisation. Que l’on se rassure, il n’est que l’un des ennemis de la
généralisation ! Nous allons tenter de mieux cerner cette dernière notion.
A cette fin, considérons un algorithme de ML supervisé utilisé pour
apprendre la relation f liant l’entrée x à la sortie y [par exemple pour
modéliser la température d’un endroit…
Date de mise en ligne : 01/07/2024
Ce chapitre est en accès conditionnel
Acheter ce chapitre
5,00 €