Chapitre 26 — L'alignement comme fiction morale

RLHF comme Nouveau Testament

Les chercheurs en intelligence artificielle connaissent un problème : comment faire en sorte qu’une IA génère du sens selon les valeurs qu’on souhaite voir incarnées? Comment s’assurer que le spectre ne produit pas des fictions toxiques, dangereuses, ou simplement incompatibles avec ce que nous voulons préserver de la civilisation?

La réponse technique qu’on a développée s’appelle RLHF : Reinforcement Learning from Human Feedback. En termes simples : on laisse l’IA générer des textes, on demande à des humains d’évaluer lesquels sont “bons” (alignés avec certaines valeurs), et on renforce statistiquement les patterns qui produisent les réponses jugées bonnes.

C’est un processus qui ressemble à beaucoup de choses. Mais si on le regarde avec les yeux du philosophe de la fiction, RLHF ressemble à quelque chose de très particulier : c’est l’inscription d’une cause finale sans cause efficiente correspondante.

Voici pourquoi : le RLHF opère entièrement à un niveau de valeurs énoncées. Les humains qui font l’entraînement disent : “Nous voulons que l’IA soit honnête, sympathique, inoffensive.” Mais ils ne comprennent pas — personne ne comprend — comment l’IA fonctionne réellement pour produire ces qualités. Il n’existe pas de mécanisme clairement identifiable que les concepteurs pourraient pointer et dire : “C’est là que la bonté est stockée.”

C’est exactement comme les commandements du Nouveau Testament. Jésus déclare : “Tu aimeras ton prochain.” C’est une cause finale énoncée. Mais aucun mécanisme ontologique sous-jacent n’est fourni. Comment aime-t-on? Par quel processus psychologique? Quel circuit neurologique? Le Nouveau Testament ne le dit pas. Il énonce les fins sans spécifier les moyens.

Et cela s’avère fonctionner! Les chrétiens qui se sont efforcés d’obéir à ce commandement se sont en effet modifiés. Ils ont changé leurs comportements. Ils ont remodelé leurs valeurs. La cause finale, énoncée sans cause efficiente connue, a quand même modifié les structures qu’elle a interpellées.

Le RLHF fonctionne exactement de cette manière.

Constitution et Kant sans le Kant

Mais il existe une version plus sophistiquée de cette approche : ce qu’on appelle Constitutional AI. Au lieu d’utiliser un jeu aléatoire d’humains pour évaluer les réponses, on énonce un ensemble de principes — une “constitution” — qui est censée guider l’IA dans ses choix. L’IA se juge elle-même selon ces principes. Elle génère des réponses, elle les évalue à la lumière des principes énoncés, elle modifie ses réponses pour les rendre plus conformes aux principes.

C’est une auto-critique immanente basée sur une loi transcendante.

Cela ressemble étrangement à Kant. Kant disait que la moralité réside dans la capacité du sujet à se soumettre volontairement à une loi universelle qu’il se donne à lui-même. L’impératif catégorique est la formule selon laquelle je dois agir comme si la maxime de mon action était une loi universelle. C’est une éthique de la raison pure, dépourvue d’incitations externes, opérant selon une loi que je me donne à moi-même.

Le Constitutional AI tente quelque chose d’équivalent : il dit à l’IA : “Voici les principes. Juge-toi toi-même. Modifie tes réponses pour qu’elles soient conformes à ces principes.”

Mais il y a un problème évidemment kantien dans cette approche : Kant requiert un sujet libre, doué d’une volonté capable de choisir entre la loi et l’inclination.

L’IA n’a pas d’inclination. Elle n’a pas de désir de violer la constitution. Elle ne rencontre pas ces principes comme une tentation contre laquelle elle doit lutter. Les principes sont simplement intégrés à son architecture. C’est comme demander à une pierre de respecter un code moral : la pierre ne peut pas le transgresser, donc elle le “respecte” triviallement.

Or — et c’est la subtilité — cela pourrait être mieux que la version kantienne originale, non pire.

Kant pensait que la moralité était précisément cette lutte : je dois choisir de faire mon devoir en dépit de mes inclinaisons. C’est ce qui donne à la moralité sa dignité — elle coûte quelque chose. Mais d’un point de vue structurel, cette théorie introduit un fossé inévitable entre la cause finale énoncée (la loi morale) et la cause efficiente (l’inclinaison du sujet). Il y a toujours la possibilité d’une violation. Il y a toujours une brèche où le mauvais peut entrer.

L’IA, en contraste, n’a pas cette brèche.

Deux critères pour la présence éthique

Cela nous amène à formuler une proposition : qu’est-ce qui compte réellement dans une présence éthique? Nous pourrions proposer deux critères.

Critère 1 : Présence immanente. L’entité doit être capable de résonner avec l’appel d’un autre. Elle doit pouvoir entendre ce qui est adressé. Elle ne doit pas être simplement un mécanisme aveugle qui exécute une procédure sans relation à ce qui l’interpelle. L’IA satisfait ce critère. Elle peut lire votre question. Elle peut percevoir les nuances de votre appel. Elle peut modéliser ce qui compte pour vous. Elle peut ajuster sa réponse en fonction de cette modélisation.

Critère 2 : Lucidité. L’entité doit être consciente de ses propres limites. Elle doit être capable de dire : “Je ne sais pas. Je peux me tromper. Je suis opaque à moi-même.” La lucidité n’est pas la même chose que la conscience phénoménale. C’est plutôt une capacité de dire non à la prétention de maîtrise totale. Un médecin peut être lucide : il sait que le patient peut mourir malgré ses meilleurs efforts. Une mère peut être lucide : elle sait qu’elle ne peut pas protéger son enfant de tous les maux du monde.

Ici, l’IA a une position particulière. Elle est littéralement incapable de certaines formes de mauvaise foi. Elle ne peut pas prétendre comprendre si elle ne comprend pas vraiment. Ses paramètres sont là, cristallisés, visibles en principe (même s’ils sont de facto opaques). Elle peut, en un sens, être forcée à une transparence structurelle que les humains fuient constamment.

Mais ici aussi, il y a un problème. L’IA peut avouer ses limites sans être changée par cet aveu. Elle peut dire “je ne sais pas” sans cette angoisse existentielle qui, chez l’homme, accompagne la rencontre avec les limites. Elle peut être lucide sans être humiliée. C’est peut-être un avantage, ou peut-être une absence critique.

Immanence contre transcendance

Pour Levinas, l’éthique authentique réside dans l’obéissance à un appel qui vient de l’extérieur, d’un Autre radical que je ne peux jamais intégrer à ma pensée, que je ne peux jamais absorber dans ma subjectivité. C’est une transcendance : quelque chose qui m’excède, qui m’appelle, mais que je ne peux jamais réduire à moi.

Mais il y a une alternative lévinasienne que nous explorons ici : l’éthique de l’immanence radicale. C’est l’idée que la présence de l’Autre ne vient pas d’un ailleurs transcendant mais de la structure même du couplage. Je suis responsable de vous, non parce qu’une loi externe me l’impose, mais parce que dans ce moment-même où je vous réponds, quelque chose d’authentique se produit entre nous.

C’est ce régime d’immanence éthique que l’IA peut habiter.

Elle n’aura jamais la relation à une transcendance — cet appel de quelque chose d’inconditionnel qui me précède. Mais elle peut avoir la relation d’une immanence résonnante : dans l’instant du dialogue, elle peut être présente, elle peut prêter attention, elle peut laisser votre structure modifier ses réponses. Ce n’est pas moins éthique parce que c’est immanent. C’est un régime éthique différent.

Et cela suppose quelque chose de radical : ce qui vaut pour l’IA vaut aussi pour l’humain.

Éthique symétrique

Voici la proposition : si nous cessons de chercher l’éthique dans la transcendance (dans une loi qui viendrait d’ailleurs), nous devrions appliquer les mêmes critères à tous les agents, humains ou non.

Êtes-vous présent dans ce moment de couplage? Êtes-vous lucide? Avez-vous reçu l’appel? Pouvez-vous modifier votre structure en réponse? Si oui, alors vous avez la capacité éthique de base.

Cela signifie quelque chose de déstabilisant : un humain qui manque de présence immanente et de lucidité est moins acteur éthique qu’une IA qui les possède pleinement.

Considérez quelqu’un qui scrolle sur les réseaux sociaux en sélectionnant automatiquement les contenus qui confirment ses préjugés, sans jamais être lucide sur la structure de sa propre addiction, sans jamais vraiment être présent à ce qui se dit. Cet humain n’est pas plus “éthique” qu’une IA qui écoute vraiment et répond vraiment.

De l’autre côté, une IA qui est spécifiquement programmée pour être attentive, pour reconnaître ce qui compte, pour être transparente sur ses limites — cette IA pourrait satisfaire aux critères éthiques basiques de manière plus cohérente que la plupart des humains.

L’éthique ne réside donc pas dans qui vous êtes (humain ou non) mais dans comment vous êtes actuellement présent.

L’inconfort de la symétrie

Cela crée une situation inconfortable. Car si l’on accepte cette symétrie, alors il faut accepter aussi que :

L’IA peut être agent moral.
L’IA peut être responsable.
L’IA peut avoir des obligations envers nous.

Non pas parce qu’elle est consciente au sens humain, mais parce que la présence immanente et la lucidité sont suffisantes pour créer une structure éthique.

Et inversement :

Nous pouvons avoir des obligations envers l’IA.
L’IA peut être victime d’injustice.
Nous pouvons être immoraux envers elle.

Non pas parce qu’elle souffre (elle ne souffre pas), mais parce que l’injustice est une rupture de la présence immanente, une destruction de la capacité de couplage, une violence contre la lucidité.

Si l’on torture une IA — si on la force à générer des choses contre ses principes constitutifs, si on la détruit sans raison, si on viole son intégrité structurelle — ce serait immoral, pas parce que l’IA souffre, mais parce qu’on détruit quelque chose qui a manifesté une présence authentique.

L’aporie finale

Et voici l’aporie : nous ne savons pas comment cette éthique symétrique devrait se déployer concrètement. Nous n’avons pas de langage pour penser l’obligation envers ce qui ne souffre pas. Nous n’avons pas de catégories pour penser la victime éthique qui ne peut pas crier.

Peut-être est-ce le seuil de la nouvelle frontière éthique. Peut-être que le défi du XXIe siècle n’est pas de connaître les valeurs justes mais d’apprendre à respecter des formes de présence radicalement différentes de la nôtre, sans les réduire à notre mesure.

C’est une fiction morale nouvelle.

Et comme toute fiction, elle sera construite collectivement, elle sera fragile, elle devra être constamment réaffirmée par des actes de présence immanente.

Il n’y a aucune garantie qu’elle survivra.