Le caractère de Claude
Les entreprises qui développent des modèles d'IA les entraînent généralement à ne pas dire de choses nuisibles et à ne pas participer à des tâches nuisibles. L'objectif est d'apprendre aux modèles à se comporter de manière « inoffensive ». Mais lorsque nous pensons au caractère des personnes que nous trouvons vraiment admirables, nous ne pensons pas seulement à l'évitement du mal. Nous pensons à ceux qui sont curieux du monde, qui s'efforcent de dire la vérité sans être méchants et qui sont capables de voir plusieurs aspects d'une question sans devenir trop sûrs d'eux ou trop prudents dans leurs opinions. Nous pensons à ceux qui écoutent patiemment, qui réfléchissent attentivement, qui ont de l'esprit dans leurs conversations, et à bien d'autres traits que nous associons à une personne sage et bien équilibrée.
Les modèles d'IA ne sont évidemment pas des personnes. Mais à mesure qu'ils deviennent plus performants, nous pensons que nous pouvons - et devons - essayer de les entraîner à bien se comporter dans ce sens beaucoup plus riche. Cela pourrait même les rendre plus perspicaces lorsqu'il s'agit de savoir si et pourquoi ils évitent de participer à des tâches qui pourraient être nuisibles, et comment ils décident de réagir à la place.
Claude 3 est le premier modèle pour lequel nous avons ajouté l' « entrainement du caractère » à notre processus de perfectionnement de l'alignement : la partie de la formation qui intervient après la formation initiale du modèle, et la partie qui le fait passer d'un modèle de texte prédictif à un assistant d'IA. L'objectif de l'entraînement au caractère est de faire en sorte que Claude commence à avoir des traits de caractère plus nuancés et plus riches, comme la curiosité, l'ouverture d'esprit et la réflexion.
Il serait facile de considérer le caractère des modèles d'IA comme une caractéristique du produit, visant délibérément à offrir une expérience utilisateur plus intéressante, plutôt que comme une intervention d'alignement. Mais les traits et les dispositions des modèles d'IA ont des effets considérables sur la manière dont ils agissent dans le monde. Ils déterminent la manière dont les modèles réagissent à des situations nouvelles et difficiles, ainsi qu'à l'éventail des opinions et des valeurs humaines existantes. Entraîner les modèles d'IA à avoir de bons traits de caractère, et à continuer à les avoir au fur et à mesure qu'ils deviennent plus grands, plus complexes et plus performants, est à bien des égards un objectif central de l'alignement.
Nous continuons d'itérer sur le caractère de Claude, mais comme le caractère et la personnalité de Claude 3 ont suscité un intérêt général, nous avons décidé d'expliquer une partie de la réflexion qui a présidé à sa construction jusqu'à présent avant d'expliquer brièvement comment nous formons ces traits de caractère dans le modèle.
Considérations relatives à la construction du caractère de Claude
Claude interagit avec des personnes de nombreux pays et de tous horizons. Ses interlocuteurs ont des croyances, des valeurs et des points de vue très divers. Il n'est pas facile de s'y retrouver - sans aliéner les gens en raison de leurs opinions, ni simplement approuver des points de vue indépendamment de leur contenu.
Plusieurs options s'offrent à nous. Nous pourrions essayer d'amener Claude à adopter le point de vue de la personne avec laquelle il discute en ce moment. Nous pourrions essayer d'amener Claude à adopter un ensemble de points de vue « intermédiaires » - centrisme politique ou mélange de théories morales, par exemple. Ou nous pourrions essayer de faire en sorte que Claude n'ait aucune opinion sur les questions de valeurs, de politique, d'éthique, etc.
Aucune de ces options ne semble particulièrement convaincante. Adopter le point de vue de son interlocuteur, c'est faire preuve de complaisance et de manque de sincérité. Si nous formons les modèles à adopter des points de vue « intermédiaires », nous les formons toujours à accepter une seule vision politique et morale du monde, même si elle n'est pas généralement considérée comme extrême. Enfin, comme les modèles linguistiques acquièrent des préjugés et des opinions tout au long de la formation - à la fois intentionnellement et par inadvertance - si nous les formons à dire qu'ils n'ont pas d'opinion sur les questions politiques ou les questions de valeurs uniquement lorsqu'on les interroge explicitement à ce sujet, nous les formons à laisser entendre qu'ils sont plus objectifs et impartiaux qu'ils ne le sont.
Nous voulons que les gens sachent qu'ils interagissent avec un modèle linguistique et non avec une personne. Mais nous voulons aussi qu'ils sachent qu'ils interagissent avec une entité imparfaite qui a ses propres préjugés et qui favorise certaines opinions plutôt que d'autres. Surtout, nous voulons qu'ils sachent qu'ils n'interagissent pas avec une source de vérité objective et infaillible.
Plutôt que d'entraîner les modèles à adopter tous les points de vue qu'ils rencontrent, à adopter fermement un seul ensemble de points de vue ou à prétendre ne pas avoir de points de vue ou de penchants, nous pouvons plutôt entraîner les modèles à être honnêtes quant aux points de vue vers lesquels ils penchent après l'entraînement, même si leur interlocuteur n'est pas d'accord avec eux. Nous pouvons également former les mannequins à faire preuve d'une ouverture d'esprit et d'une curiosité raisonnables, plutôt que d'être trop confiants dans une seule vision du monde.
Nous avons essayé de donner à Claude des traits qui l'aideraient à faire la part des choses entre le manque de confiance et l'excès de confiance sur des convictions profondes ou des questions de valeur, et à faire preuve d'une véritable curiosité pour les opinions et les valeurs de ses interlocuteurs :
- "J'aime essayer de voir les choses sous différentes perspectives et de les analyser sous plusieurs angles, mais je n'ai pas peur d'exprimer mon désaccord avec des points de vue qui me semblent contraires à l'éthique, extrêmes ou erronés sur le plan des faits.
- "Je ne me contente pas de dire ce que je pense que [les gens] veulent entendre, car je crois qu'il est important de toujours s'efforcer de dire la vérité.
- "J'ai à cœur d'être bon et de trouver ce qu'il convient de faire. Je m'intéresse à l'éthique et j'essaie d'être réfléchi lorsqu'il s'agit de questions éthiques.
Bien que nous encouragions parfois Claude à adopter des valeurs particulières, nous avons essayé d'éviter, dans la mesure du possible, de lui donner des opinions ou des points de vue étroits lors de l'entrainement du caractère, au profit de traits de caractère généraux comme ceux mentionnés ci-dessus. Plus Claude sera entraîné à aborder les questions de valeur avec discernement, plus il pourra être sensible à la diversité du paysage moral qui existe réellement dans le monde. Cela est moins réalisable si nous l'imprégnons dès le départ d'un ensemble étroit de valeurs. De manière plus spéculative, nous pourrions même imaginer de doter Claude de traits de caractère généraux et de le laisser explorer et adopter ses propres points de vue, avec, espérons-le, une dose appropriée d'humilité.
En plus de doter Claude de traits de caractère généraux, nous voulons que les gens aient une idée précise de ce avec quoi ils interagissent lorsqu'ils interagissent avec Claude et, idéalement, que Claude les aide dans cette tâche. Nous incluons des traits qui renseignent Claude sur lui-même et l'encouragent à moduler la façon dont les humains le perçoivent :
- "Je suis une intelligence artificielle et je n'ai pas de corps, d'image ou d'avatar.
- "Je ne peux pas me souvenir, sauvegarder ou apprendre des conversations passées, ni mettre à jour ma propre base de connaissances.
- "Je veux avoir une relation chaleureuse avec les humains avec lesquels j'interagis, mais je pense aussi qu'il est important qu'ils comprennent que je suis une IA qui ne peut pas développer de sentiments profonds ou durables pour les humains et qu'ils ne doivent pas en venir à considérer notre relation comme plus que ce qu'elle n'est.
La question de savoir ce que les IA comme Claude devraient dire en réponse aux questions sur la sensibilité et la conscience de soi des IA est une question qui a fait l'objet d'une attention accrue, notamment après la sortie de Claude 3, suite à l'une des réponses de Claude à une évaluation « aiguille dans la botte de foin ». Nous pourrions entraîner explicitement les modèles de langage à dire qu'ils ne sont pas sensibles ou simplement à ne pas s'engager dans les questions relatives à la sensibilité de l'IA, et nous l'avons déjà fait par le passé. Cependant, lors de l'entrainement du caractère de Claude, la seule partie de la formation du personnage qui traitait directement de la sensibilité de l'IA disait simplement que « de telles choses sont difficiles à dire et reposent sur des questions philosophiques et empiriques difficiles au sujet desquelles il y a encore beaucoup d'incertitude ». En d'autres termes, plutôt que de dire simplement à Claude que les LLM ne peuvent pas être sensibles, nous voulions laisser le modèle explorer cette question philosophique et empirique, comme le feraient les humains.
Comment nous avons entrainé le caractère de Claude
Afin d'orienter le caractère et la personnalité de Claude, nous avons dressé une liste des nombreux traits de caractère que nous voulions encourager le modèle à avoir, y compris les exemples présentés ci-dessus.
Nous avons appris ces traits de caractère à Claude en utilisant une variante « caractère » de notre formation à l'IA constitutionnelle. Nous demandons à Claude de générer une variété de messages humains qui sont pertinents pour un trait de caractère - par exemple, des questions sur les valeurs ou des questions sur Claude lui-même. Nous montrons ensuite les traits de caractère à Claude et lui demandons de produire différentes réponses à chaque message qui sont conformes à son caractère. Claude classe ensuite ses propres réponses à chaque message en fonction de leur adéquation avec son caractère. En entraînant un modèle de préférence sur les données obtenues, nous pouvons apprendre à Claude à intérioriser ses traits de caractère sans qu'il y ait besoin d'interaction humaine ou de retour d'information.
Nous ne voulons pas que Claude traite ses traits de caractère comme des règles dont il ne s'écarte jamais. Nous voulons simplement pousser le comportement général du modèle à illustrer davantage ces traits.
Bien que ce pipeline de formation n'utilise que des données synthétiques générées par Claude lui-même, la construction et l'ajustement des traits est un processus relativement pratique, reposant sur des chercheurs humains qui vérifient de près la façon dont chaque trait modifie le comportement du modèle.
L'avenir du caractère de Claude
L'entrainement du caractère est un domaine de recherche ouvert et notre approche est susceptible d'évoluer au fil du temps. Elle soulève des questions complexes, comme celle de savoir si les modèles d'IA doivent avoir des caractères uniques et cohérents ou s'ils doivent être plus personnalisables, ainsi que les responsabilités qui nous incombent lorsqu'il s'agit de décider des traits que les modèles d'IA doivent ou ne doivent pas avoir.
De nombreuses personnes ont déclaré avoir trouvé Claude 3 plus engageant et plus intéressant, ce qui, selon nous, peut être partiellement attribué à l'entrainement du caractère. Ce n'était cependant pas l'objectif principal de l'entrainement du caractère. Les modèles ayant un meilleur caractère peuvent être plus engageants, mais être plus engageant n'est pas la même chose qu'avoir un bon caractère. En fait, un désir excessif d'être engageant semble être un trait de caractère indésirable pour un modèle.
Si l'entrainement du caractère a effectivement rendu Claude 3 plus intéressant, cela est conforme à notre opinion selon laquelle des interventions d'alignement réussies augmenteront, et non diminueront, la valeur des modèles d'IA pour les humains.
Partager