Alors que la superintelligence semble loin maintenant, nous pensons qu'elle pourrait arriver cette décennie. La gestion de ces risques nécessitera, entre autres, de nouvelles institutions de gouvernance et la résolution du problème de l'alignement des superintelligences :
Comment s'assurer que les systèmes d'IA beaucoup plus intelligents que les humains suivent l'intention humaine ?
Actuellement, nous n'avons pas de solution pour diriger ou contrôler une IA potentiellement super intelligente et l'empêcher de devenir malveillante. Nos techniques actuelles d'alignement de l'IA, telles que l'apprentissage par renforcement à partir de la rétroaction humaine, reposent sur la capacité des humains à superviser l'IA. Mais les humains ne seront pas en mesure de superviser de manière fiable des systèmes d'IA beaucoup plus intelligents que nous, et nos techniques d'alignement actuelles ne seront donc pas adaptées à la superintelligence. Nous avons besoin de nouvelles percées scientifiques et techniques.
Notre approche
Notre objectif est de construire un chercheur d'alignement automatisé à peu près au niveau humain. Nous pouvons ensuite utiliser de grandes quantités de calcul pour faire évoluer nos efforts et aligner de manière itérative la superintelligence.
Pour aligner le premier chercheur en alignement automatisé, nous devrons 1) développer une méthode de formation évolutive, 2) valider le modèle résultant et 3) tester sous contrainte l'ensemble de notre pipeline d'alignement :
- Pour fournir un signal de formation sur des tâches difficiles à évaluer pour les humains, nous pouvons tirer parti des systèmes d'IA pour aider à l'évaluation d'autres systèmes d'IA (supervision évolutive). De plus, nous voulons comprendre et contrôler comment nos modèles généralisent notre surveillance à des tâches que nous ne pouvons pas superviser (généralisation).
- Pour valider l'alignement de nos systèmes, nous automatisons la recherche des comportements problématiques (robustesse) et des internes problématiques (interprétabilité automatisée).
- Enfin, nous pouvons tester l'ensemble de notre pipeline en entraînant délibérément des modèles désalignés et en confirmant que nos techniques détectent les pires types de désalignements (tests contradictoires).
Partager