Les transformers sont une nouvelle génération de réseaux de neurones dont la présentation inaugurale en 2017 a été l’objet d’un article intitulé « Attention is all you need » (Vaswani et al., 2017), rédigé par huit chercheurs de Google et aujourd’hui l’un des plus cités en IA. L’importance prise par les géants du Web et Google en particulier témoigne de la délocalisation, depuis de nombreuses années, d’une large part de la recherche en IA hors des milieux académiques. Cela explique aussi la dépendance croissante des étudiants et des chercheurs aux librairies et outils logiciels que ces géants mettent à leur disposition : leurs données, leurs réseaux de neurones et leur puissance de calcul permise par des milliers de cartes graphiques qu’aucun académique ne pourrait acquérir à titre personnel. On ne doit dès lors pas s’étonner de l’attraction qu’exercent ces méga-entreprises, qui peuvent se permettre de n’engager que les meilleurs, sur les futurs génies de l’IA.
Ces transformers se retrouvent au carrefour de nombreuses idées qui, ces dernières années, ont considérablement enrichi les compétences des réseaux de neurones, notamment dans le traitement du langage : la vectorisation numérique* des mots et des textes, ce cocktail subtil entre similarité et statistique, la succession de nombreuses couches afin d’accompagner la montée en abstraction (le côté « profond » de ces mêmes réseaux déjà mis en valeur pour la perception visuelle) et la capacité, afin de comprendre le sens d’un mot et donc l’éventuelle suite à lui donner, de chercher partout dans un texte, même très loin en amont, tout ce qui permet d’en saisir la signification profonde…
Date de mise en ligne : 29/12/2023