9. Le problème du contrôle

Nick Bostrom

Superintelligence 2017

Chapitre d’ouvrage

9. Le problème du contrôle

Par Nick Bostrom

Pages 186 à 209

BOSTROM, Nick,

2017. 9. Le problème du contrôle. In : Superintelligence. Paris : Dunod. Quai des Sciences, p.186-209. URL : https://stm.cairn.info/superintelligence--9782100764860-page-186?lang=fr.

Bostrom, Nick.

« 9. Le problème du contrôle ». Superintelligence, Dunod, 2017. p.186-209. CAIRN.INFO, stm.cairn.info/superintelligence--9782100764860-page-186?lang=fr.

Bostrom, N.

(2017). 9. Le problème du contrôle. Superintelligence (p. 186-209). Dunod. https://stm.cairn.info/superintelligence--9782100764860-page-186?lang=fr.

Notes

[1]
Laffont et Martimort (2002).
[2]
Supposons qu’une majorité d’électeurs souhaitent que leur pays mette au point un type particulier de superintelligence. Ils élisent un candidat qui promet de le faire, mais ils redoutent que ce candidat, une fois au pouvoir, ne tienne pas ses promesses de campagne et ne réalise pas le projet comme ils le souhaitent. Supposons que ce candidat soit sincère, donne l’instruction à son gouvernement de passer un contrat avec un groupe de recherche ou un industriel pour que ce projet soit mené à bien ; là se posent des problèmes d’agence : les bureaucrates des institutions gouvernementales peuvent avoir leur point de vue sur ce qu’il faut faire, et souhaiter que le projet respecte la lettre des instructions du président mais pas son esprit. Même si le gouvernement fait fidèlement son travail, les partenaires scientifiques pourraient avoir leurs propres intentions. Ce problème se pose donc à différents niveaux. Le directeur de l’un des laboratoires qui participent au projet pourrait rêver tout éveillé de faire introduire par un technicien dans la conception de cette machine un élément non-autorisé, imaginez le Dr T. R. Ahison se faufilant la nuit dans le laboratoire, se connectant au code du projet et réécrivant une partie du système de l’IA germe. Ce qui était supposé « servir l’humanité » est devenu « servir le Dr T. R. Ahison ».
[3]
Même pour le développement de la superintelligence, pourtant, il pourrait être inclus un test de son comportement (sous la forme d’un élément auxiliaire dans une batterie de mesures de sécurité). Si une IA se comporte de manière non souhaitée au cours de sa phase de développement, c’est que quelque chose va de travers (même si, heureusement, l’inverse n’est pas vrai).
[4]
Steven Dompier a réussi, en 1975, à écrire un programme pour l’Altair 8800 qui tirait profit de cet effet (et de l’absence de blindage autour du microprocesseur). En faisant tourner ce programme, il y eut une émission d’ondes électromagnétiques qui produisirent de la musique en présence d’un récepteur radio (Driscoll, 2012). Bill Gates, alors très jeune, qui assistait à la démonstration, raconta qu’il avait été impressionné et perplexe (Gates, 1975). Il existe en tout cas des plans de conception de puces avec des capacités intégrées de wi-fi (Greene, 2012).
[5]
Ce ne serait pas rien d’avoir soutenu un point de vue qui, si nous avions l’opportunité de le mettre en pratique, produirait la ruine de toutes nos ressources cosmiques. Peut-être peut-on adhérer au principe suivant : si quelqu’un a, dans le passé, été certain à N reprises qu’un système a été suffisamment amélioré pour être sûr, et si chaque fois il s’est avéré qu’il s’est trompé, alors à la prochaine occasion ce quelqu’un ne sera pas qualifié pour affirmer que le système est sûr avec une crédibilité supérieure à 1/(N + 1).
[6]
Au cours d’une expérience informelle, le rôle d’une IA a été joué par un humain intelligent. Un autre jouait le rôle de gardien et il ne devait pas laisser sortir l’IA de sa boîte. L’IA ne pouvait communiquer avec son gardien que par écrit et on lui donnait deux heures pour persuader son gardien de la laisser sortir. Dans trois cas sur cinq, avec des gardiens différents, l’IA s’est échappée (Yudkowsky, 2002). Ce qu’un humain peut faire, une superintelligence peut donc le faire (le contraire n’est évidemment pas vrai : si la tâche, pour une superintelligence réelle serait plus difficile, peut-être les gardiens seraient-ils plus fortement motivés à ne pas la laisser sortir que lorsqu’on joue ce rôle dans une expérience ; mais la superintelligence réussirait quand même là où un humain échouerait).
[7]
On pourrait exagérer l’ampleur marginale de la sécurité gagnée de cette manière. L’imagerie mentale peut se substituer au dispositif graphique. Pensons à l’impact qu’ont les livres sur les gens, et ils ne sont pourtant pas interactifs.
[8]
Voir aussi Chalmers (2010). Ce serait une erreur d’en tirer la conclusion qu’il n’y a rien à faire d’un système qui ne sera jamais observé par quelque entité extérieure. Entrer dans un tel système isolé pourrait avoir un intérêt, et d’autres personnes pourraient préférer cela et être donc influencées par sa création ou la promesse de sa création. La connaissance de l’existence de certains types de systèmes isolés (ceux qui contiennent des observateurs) peut également induire une incertitude anthropique des observateurs extérieurs qui influencerait leur comportement.
[9]
On pourrait se demander pourquoi l’intégration sociale peut être considérée comme une forme de contrôle des capacités. Ne devrait-on pas plutôt la classer comme une méthode de sélection de la motivation puisqu’elle cherche à influencer le comportement du système par des incitations ? Nous allons examiner cette sélection, mais, pour répondre à la question, nous définissons la sélection de la motivation comme un groupe de méthodes qui opèrent en sélectionnant ou en modelant les buts ultimes d’un système ; ces buts sont poursuivis pour eux-mêmes et non pour des raisons instrumentales. L’intégration sociale ne vise pas ces buts ultimes, et elle n’est donc pas une sélection de la motivation ; elle a plutôt comme objectif de limiter les capacités du système : elle cherche à le rendre incapable d’atteindre un certain nombre les résultats dans lesquels il tirerait des bénéfices d’une défection sans subir de sanctions (représailles et perte des gains d’une collaboration). On espère qu’en limitant les résultats auxquels le système est capable de parvenir, il trouvera que la manière la plus efficace qui lui reste pour atteindre ses buts ultimes sera de coopérer.
[10]
Cette approche peut être prometteuse avec une émulation qui croit avoir des motivations anthropomorphiques.
[11]
J’emprunte cette idée à Carl Shulman.
[12]
Créer un code secret qui résisterait à tous les coups à un décrypteur superintelligent n’est pas un défi trivial : des traces de nombres aléatoires pourraient par exemple avoir été laissées dans le cerveau d’un observateur ou dans la micro-structure du générateur aléatoire, à partir de quoi la superintelligence pourrait les retrouver ; ou bien si des nombres pseudo-aléatoires étaient utilisés, la superintelligence pourrait deviner ou découvrir le germe à partir duquel ils ont été générés. Qui plus est, la superin-telligence pourrait construire de grands ordinateurs quantiques, ou même découvrir un phénomène physique inconnu et s’en servir pour construire des ordinateurs d’un genre nouveau.
[13]
L’IA pourrait se hacker elle-même pour croire qu’elle a reçu une récompense, mais cela ne ferait pas d’elle un hackeur de hardware si elle a été conçue pour vouloir des récompenses (et non être dans un état où elle a certaines croyances sur ses récompenses).
[14]
Voir Bostrom (2003a). Voir aussi Elga (2004).
[15]
Shulman (2010a).
[16]
Le niveau fondamental de la réalité contient sans doute plus de ressources computationnelles que la réalité simulée puisque tout processus computationnel se produisant dans une simulation se produit aussi sur l’ordinateur qui fait tourner cette simulation. Le niveau fondamental de la réalité peut aussi contenir tout un ensemble d’autres ressources physiques auquel un agent simulé aurait du mal à accéder – des agents qui n’existent que grâce à des simulateurs puissants qui peuvent avoir en tête un autre usage de ces ressources (bien sûr, cette inférence n’est pas ici déductivement tout à fait valide : en principe, il se pourrait que des univers dans lesquels tournent des simulations renferment tant de ressources qu’en moyenne des civilisations simulées auraient accès à plus de ressources que celles qui ne le seraient pas, et cela même si chaque civilisation non simulée qui fait tourner des simulations a plus de ressources que la totalité des civilisations qu’elle simule).
[17]
Il y a bien d’autres considérations ésotériques sur ce genre de situation, dont les implications n’ont pas été complètement analysées. Ces considérations pourraient se révéler en fin de compte importantes pour développer une approche prenant tout en compte de manière à se préparer à l’explosion de l’intelligence. Pourtant, il semble peu probable que nous parviendrons à bien comprendre les apports pratiques de ces arguments tant que nous n’aurons pas fait de progrès sur les questions plus terre-à-terre qu’aborde ce livre.
[18]
Quine et Ullian (1978).
[19]
Ce qu’une IA pourrait analyser en considérant les caractéristiques des performance de la plupart de ses fonctionnalités fondamentales, comme la taille et la capacité de divers bus de données, le temps nécessaire pour accéder à différentes parties de sa mémoire, l’incidence de ses changements brusques, etc.
[20]
Peut-être le prior pourrait-il être un prior de Solomonoff (ou une approximation) assignant une probabilité à chaque mot possible sur la base de sa complexité algorithmique (voir Li et Vitányi, 2008).
[21]
L’IA pourrait s’arranger pour effacer la trace de son idée de tricher tout de suite après l’avoir eue. Il est donc décisif que le piège fonctionne en continu. Il serait bon aussi de recourir à une sorte d’ « enregistreur de vol » qui garderait la trace de toutes les activités de l’IA (y compris du moment exact de l’entrée sur le clavier des programmeurs), de sorte que sa trajectoire puisse être retracée et analysée dès qu’elle s’éteint automatiquement. L’information pourrait être conservée sur un support mémoire à disque optique non-réinscriptible.
[22]
Asimov (1942). À ces trois lois on ajouta plus tard la loi Zéro : un robot ne peut porter atteinte à l’humanité ou, en ne faisant rien, laisser l’humanité se mettre en danger.
[23]
Gunn (1982).
[24]
Russell (1986, 161f).
[25]
De la même manière, bien que des philosophes aient consacré toute leur carrière à reformuler précisément des systèmes d’éthique déontologique, des cas nouveaux, avec leurs conséquences, sont venus à un moment ou l’autre exiger des révisions. Par exemple, cette philosophie morale a été récemment revivifiée par la découverte d’une nouvelle classe d’expériences de pensée, les « dilemmes du tramway », qui ont révélé des liens entre nos intuitions sur la signification morale de la distinction entre agir et ne pas agir, entre conséquences voulues et non voulues et sur d’autres questions (Kaam, 2007).
[26]
Armstrong (2010).
[27]
En règle générale, si l’on envisage de recourir à plusieurs dispositifs de sécurité pour contrôler une IA, il serait sage de travailler avec chacun d’eux comme s’il était prévu qu’il soit le seul dispositif utilisé et comme s’il était suffisant. Si l’on met un seau percé dans une passoire, l’eau continue de couler.
[28]
Une variante de la même idée consiste à mettre au point une IA qui soit perpétuellement motivée à agir selon sa meilleure estimation de ce qu’est la norme implicitement définie et à poursuivre sa recherche de ce qu’est cette norme pour des raisons instrumentales uniquement.

Citer ce chapitre

Bostrom, N.

(2017). 9. Le problème du contrôle. Superintelligence (p. 186-209). Dunod. https://stm.cairn.info/superintelligence--9782100764860-page-186?lang=fr.

Bostrom, Nick.

« 9. Le problème du contrôle ». Superintelligence, Dunod, 2017. p.186-209. CAIRN.INFO, stm.cairn.info/superintelligence--9782100764860-page-186?lang=fr.

BOSTROM, Nick,

2017. 9. Le problème du contrôle. In : Superintelligence. Paris : Dunod. Quai des Sciences, p.186-209. URL : https://stm.cairn.info/superintelligence--9782100764860-page-186?lang=fr.

Notes

[1]
Laffont et Martimort (2002).
[2]
Supposons qu’une majorité d’électeurs souhaitent que leur pays mette au point un type particulier de superintelligence. Ils élisent un candidat qui promet de le faire, mais ils redoutent que ce candidat, une fois au pouvoir, ne tienne pas ses promesses de campagne et ne réalise pas le projet comme ils le souhaitent. Supposons que ce candidat soit sincère, donne l’instruction à son gouvernement de passer un contrat avec un groupe de recherche ou un industriel pour que ce projet soit mené à bien ; là se posent des problèmes d’agence : les bureaucrates des institutions gouvernementales peuvent avoir leur point de vue sur ce qu’il faut faire, et souhaiter que le projet respecte la lettre des instructions du président mais pas son esprit. Même si le gouvernement fait fidèlement son travail, les partenaires scientifiques pourraient avoir leurs propres intentions. Ce problème se pose donc à différents niveaux. Le directeur de l’un des laboratoires qui participent au projet pourrait rêver tout éveillé de faire introduire par un technicien dans la conception de cette machine un élément non-autorisé, imaginez le Dr T. R. Ahison se faufilant la nuit dans le laboratoire, se connectant au code du projet et réécrivant une partie du système de l’IA germe. Ce qui était supposé « servir l’humanité » est devenu « servir le Dr T. R. Ahison ».
[3]
Même pour le développement de la superintelligence, pourtant, il pourrait être inclus un test de son comportement (sous la forme d’un élément auxiliaire dans une batterie de mesures de sécurité). Si une IA se comporte de manière non souhaitée au cours de sa phase de développement, c’est que quelque chose va de travers (même si, heureusement, l’inverse n’est pas vrai).
[4]
Steven Dompier a réussi, en 1975, à écrire un programme pour l’Altair 8800 qui tirait profit de cet effet (et de l’absence de blindage autour du microprocesseur). En faisant tourner ce programme, il y eut une émission d’ondes électromagnétiques qui produisirent de la musique en présence d’un récepteur radio (Driscoll, 2012). Bill Gates, alors très jeune, qui assistait à la démonstration, raconta qu’il avait été impressionné et perplexe (Gates, 1975). Il existe en tout cas des plans de conception de puces avec des capacités intégrées de wi-fi (Greene, 2012).
[5]
Ce ne serait pas rien d’avoir soutenu un point de vue qui, si nous avions l’opportunité de le mettre en pratique, produirait la ruine de toutes nos ressources cosmiques. Peut-être peut-on adhérer au principe suivant : si quelqu’un a, dans le passé, été certain à N reprises qu’un système a été suffisamment amélioré pour être sûr, et si chaque fois il s’est avéré qu’il s’est trompé, alors à la prochaine occasion ce quelqu’un ne sera pas qualifié pour affirmer que le système est sûr avec une crédibilité supérieure à 1/(N + 1).
[6]
Au cours d’une expérience informelle, le rôle d’une IA a été joué par un humain intelligent. Un autre jouait le rôle de gardien et il ne devait pas laisser sortir l’IA de sa boîte. L’IA ne pouvait communiquer avec son gardien que par écrit et on lui donnait deux heures pour persuader son gardien de la laisser sortir. Dans trois cas sur cinq, avec des gardiens différents, l’IA s’est échappée (Yudkowsky, 2002). Ce qu’un humain peut faire, une superintelligence peut donc le faire (le contraire n’est évidemment pas vrai : si la tâche, pour une superintelligence réelle serait plus difficile, peut-être les gardiens seraient-ils plus fortement motivés à ne pas la laisser sortir que lorsqu’on joue ce rôle dans une expérience ; mais la superintelligence réussirait quand même là où un humain échouerait).
[7]
On pourrait exagérer l’ampleur marginale de la sécurité gagnée de cette manière. L’imagerie mentale peut se substituer au dispositif graphique. Pensons à l’impact qu’ont les livres sur les gens, et ils ne sont pourtant pas interactifs.
[8]
Voir aussi Chalmers (2010). Ce serait une erreur d’en tirer la conclusion qu’il n’y a rien à faire d’un système qui ne sera jamais observé par quelque entité extérieure. Entrer dans un tel système isolé pourrait avoir un intérêt, et d’autres personnes pourraient préférer cela et être donc influencées par sa création ou la promesse de sa création. La connaissance de l’existence de certains types de systèmes isolés (ceux qui contiennent des observateurs) peut également induire une incertitude anthropique des observateurs extérieurs qui influencerait leur comportement.
[9]
On pourrait se demander pourquoi l’intégration sociale peut être considérée comme une forme de contrôle des capacités. Ne devrait-on pas plutôt la classer comme une méthode de sélection de la motivation puisqu’elle cherche à influencer le comportement du système par des incitations ? Nous allons examiner cette sélection, mais, pour répondre à la question, nous définissons la sélection de la motivation comme un groupe de méthodes qui opèrent en sélectionnant ou en modelant les buts ultimes d’un système ; ces buts sont poursuivis pour eux-mêmes et non pour des raisons instrumentales. L’intégration sociale ne vise pas ces buts ultimes, et elle n’est donc pas une sélection de la motivation ; elle a plutôt comme objectif de limiter les capacités du système : elle cherche à le rendre incapable d’atteindre un certain nombre les résultats dans lesquels il tirerait des bénéfices d’une défection sans subir de sanctions (représailles et perte des gains d’une collaboration). On espère qu’en limitant les résultats auxquels le système est capable de parvenir, il trouvera que la manière la plus efficace qui lui reste pour atteindre ses buts ultimes sera de coopérer.
[10]
Cette approche peut être prometteuse avec une émulation qui croit avoir des motivations anthropomorphiques.
[11]
J’emprunte cette idée à Carl Shulman.
[12]
Créer un code secret qui résisterait à tous les coups à un décrypteur superintelligent n’est pas un défi trivial : des traces de nombres aléatoires pourraient par exemple avoir été laissées dans le cerveau d’un observateur ou dans la micro-structure du générateur aléatoire, à partir de quoi la superintelligence pourrait les retrouver ; ou bien si des nombres pseudo-aléatoires étaient utilisés, la superintelligence pourrait deviner ou découvrir le germe à partir duquel ils ont été générés. Qui plus est, la superin-telligence pourrait construire de grands ordinateurs quantiques, ou même découvrir un phénomène physique inconnu et s’en servir pour construire des ordinateurs d’un genre nouveau.
[13]
L’IA pourrait se hacker elle-même pour croire qu’elle a reçu une récompense, mais cela ne ferait pas d’elle un hackeur de hardware si elle a été conçue pour vouloir des récompenses (et non être dans un état où elle a certaines croyances sur ses récompenses).
[14]
Voir Bostrom (2003a). Voir aussi Elga (2004).
[15]
Shulman (2010a).
[16]
Le niveau fondamental de la réalité contient sans doute plus de ressources computationnelles que la réalité simulée puisque tout processus computationnel se produisant dans une simulation se produit aussi sur l’ordinateur qui fait tourner cette simulation. Le niveau fondamental de la réalité peut aussi contenir tout un ensemble d’autres ressources physiques auquel un agent simulé aurait du mal à accéder – des agents qui n’existent que grâce à des simulateurs puissants qui peuvent avoir en tête un autre usage de ces ressources (bien sûr, cette inférence n’est pas ici déductivement tout à fait valide : en principe, il se pourrait que des univers dans lesquels tournent des simulations renferment tant de ressources qu’en moyenne des civilisations simulées auraient accès à plus de ressources que celles qui ne le seraient pas, et cela même si chaque civilisation non simulée qui fait tourner des simulations a plus de ressources que la totalité des civilisations qu’elle simule).
[17]
Il y a bien d’autres considérations ésotériques sur ce genre de situation, dont les implications n’ont pas été complètement analysées. Ces considérations pourraient se révéler en fin de compte importantes pour développer une approche prenant tout en compte de manière à se préparer à l’explosion de l’intelligence. Pourtant, il semble peu probable que nous parviendrons à bien comprendre les apports pratiques de ces arguments tant que nous n’aurons pas fait de progrès sur les questions plus terre-à-terre qu’aborde ce livre.
[18]
Quine et Ullian (1978).
[19]
Ce qu’une IA pourrait analyser en considérant les caractéristiques des performance de la plupart de ses fonctionnalités fondamentales, comme la taille et la capacité de divers bus de données, le temps nécessaire pour accéder à différentes parties de sa mémoire, l’incidence de ses changements brusques, etc.
[20]
Peut-être le prior pourrait-il être un prior de Solomonoff (ou une approximation) assignant une probabilité à chaque mot possible sur la base de sa complexité algorithmique (voir Li et Vitányi, 2008).
[21]
L’IA pourrait s’arranger pour effacer la trace de son idée de tricher tout de suite après l’avoir eue. Il est donc décisif que le piège fonctionne en continu. Il serait bon aussi de recourir à une sorte d’ « enregistreur de vol » qui garderait la trace de toutes les activités de l’IA (y compris du moment exact de l’entrée sur le clavier des programmeurs), de sorte que sa trajectoire puisse être retracée et analysée dès qu’elle s’éteint automatiquement. L’information pourrait être conservée sur un support mémoire à disque optique non-réinscriptible.
[22]
Asimov (1942). À ces trois lois on ajouta plus tard la loi Zéro : un robot ne peut porter atteinte à l’humanité ou, en ne faisant rien, laisser l’humanité se mettre en danger.
[23]
Gunn (1982).
[24]
Russell (1986, 161f).
[25]
De la même manière, bien que des philosophes aient consacré toute leur carrière à reformuler précisément des systèmes d’éthique déontologique, des cas nouveaux, avec leurs conséquences, sont venus à un moment ou l’autre exiger des révisions. Par exemple, cette philosophie morale a été récemment revivifiée par la découverte d’une nouvelle classe d’expériences de pensée, les « dilemmes du tramway », qui ont révélé des liens entre nos intuitions sur la signification morale de la distinction entre agir et ne pas agir, entre conséquences voulues et non voulues et sur d’autres questions (Kaam, 2007).
[26]
Armstrong (2010).
[27]
En règle générale, si l’on envisage de recourir à plusieurs dispositifs de sécurité pour contrôler une IA, il serait sage de travailler avec chacun d’eux comme s’il était prévu qu’il soit le seul dispositif utilisé et comme s’il était suffisant. Si l’on met un seau percé dans une passoire, l’eau continue de couler.
[28]
Une variante de la même idée consiste à mettre au point une IA qui soit perpétuellement motivée à agir selon sa meilleure estimation de ce qu’est la norme implicitement définie et à poursuivre sa recherche de ce qu’est cette norme pour des raisons instrumentales uniquement.

Si nous suspectons que le résultat par défaut d’une explosion d’intelligence pourrait être une catastrophe existentielle, nous devons immédiatement nous demander si, et si oui comment, on peut éviter ce résultat. Pourrons-nous contrôler l’explosion ? Pourrons-nous concevoir les conditions initiales de l’explosion d’intelligence de manière à parvenir à un résultat souhaitable, ou tout au moins à un résultat qui se situera dans l’ensemble des résultats plus ou moins acceptables ? Plus particulièrement, comment le promoteur principal du programme de développement d’une superintelligence s’assurera-t-il que, si ce programme réussit, il débouchera sur une superintelligence qui réalisera bien ce qu’il a voulu faire ? On peut distinguer ici deux problèmes, l’un générique, l’autre spécifique à ce contexte.
Le premier, que nous appellerons le premier problème entre principal et agent, survient dès qu’une entité humaine (le « principal ») en emploie une autre (l’« agent ») pour agir dans son intérêt. Ce problème a été largement étudié par les économistes. Il s’applique dans le cas qui nous concerne si ceux qui créent une IA ne sont pas ceux qui demandent sa création. Le commanditaire du projet ou celui qui le finance (qui peut aller d’un seul individu à l’humanité entière) doit redouter que les scientifiques et les programmeurs implémentant ce programme n’agissent pas vraiment dans l’intérêt de ce commanditaire. Même si ce type de problème d’agence constitue un défi redoutable pour le commanditaire, il ne concerne pas seulement l’augmentation de l’intelligence ou l’IA…

Date de mise en ligne : 09/11/2023

Ce chapitre est en accès conditionnel

Acheter cet ouvrage

14,99 €

464 pages, format électronique (HTML et feuilletage, par chapitre)

Membre d'une institution cliente ?

Compte personnel

9. Le problème du contrôle

Notes

Citer ce chapitre

Notes

Ce chapitre est en accès conditionnel

Acheter cet ouvrage

Accès institutions

Toutes les institutions