Human Compatible
Artificial Intelligence and the Problem of Control
Formulation classique du problème d'alignement par l'auteur du manuel d'IA de référence — comment s'assurer qu'une IA poursuit bien les objectifs humains.
Russell, co-auteur du manuel universitaire Artificial Intelligence: A Modern Approach qui forme des générations d’ingénieurs IA, propose ici une exposition grand public du problème d’alignement.
Sa thèse : le modèle dominant de l’IA — donner un objectif, optimiser — est dangereusement fragile. Une IA puissante optimisant un objectif mal formulé fera des choses catastrophiques en parfaite conformité avec ses spécifications. La solution qu’il propose : des IA qui restent fondamentalement incertaines sur les préférences humaines et qui consultent en permanence pour les affiner.
Le manifeste prend Russell au sérieux mais déplace la question. Pas seulement comment aligner sur ce que les humains veulent — mais que veulent les humains au juste, dans une civilisation qui a déjà déraillé sur la phase énergétique ? L’alignement devient alors une question philosophique avant d’être technique.