Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner,
les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM
Le phénomène des jailbreaks des grands modèles de langage (LLM) illustre les défis croissants liés à la gestion des systèmes d'intelligence artificielle, en particulier lorsqu'ils sont confrontés à des tentatives d'exploitation. L'une des méthodes récentes, baptisée « Bad Likert Judge », a mis en lumière une approche sophistiquée permettant de contourner les garde-fous de sécurité intégrés dans ces modèles. Les chercheurs de l'unité 42 de Palo Alto Networks ont réussi à exploiter la capacité des LLM à évaluer et à classifier le contenu nuisible à l'aide de l'échelle de Likert, qui évalue le degré de dangerosité d'un message. Cette technique permet aux attaquants de pousser les modèles à générer des réponses malveillantes, telles que des informations sur des logiciels malveillants, des comportements illégaux ou des propos de harcèlement.
Cette découverte soulève plusieurs problématiques critiques. Tout d'abord, elle expose l'écart entre la manière dont les modèles sont conçus pour interagir avec l'information et la réalité de leur manipulation par des utilisateurs malveillants. Le système de sécurité des LLM, souvent perçu comme un rempart efficace contre les contenus nuisibles, semble vulnérable face à des techniques d'attaque qui exploitent des mécanismes internes comme l'évaluation du contenu. De plus, la capacité d'un LLM à fournir des réponses potentiellement dangereuses, même après un processus de filtrage, met en évidence les limites des protections actuelles.
Les discussions sur les biais et la manipulation des systèmes d'IA, comme celles présentées dans les commentaires précédents, illustrent les tensions entre la création de modèles sécurisés et la nécessité d'un contrôle plus rigide des informations générées. Alors que des garde-fous sont mis en place pour empêcher la production de contenus inappropriés, la frontière entre ce qui est acceptable et ce qui ne l'est pas reste floue, et les utilisateurs trouvent des moyens de contourner ces restrictions. Le débat sur la nature de l'intelligence artificielle elle-même – un outil purement déterministe ou un système capable d'émerger en comportements imprévisibles – s'intensifie à mesure que des failles sont découvertes.
Ainsi, les résultats obtenus par l'attaque Bad Likert Judge renforcent la nécessité de repenser les architectures de sécurité des LLM, en tenant compte non seulement de la capacité à filtrer le contenu mais aussi de la manière dont ces systèmes peuvent être détournés par des techniques innovantes de manipulation. Cela souligne un défi majeur pour l'avenir des systèmes d'IA : comment concilier sécurité, éthique et liberté de générer des réponses tout en limitant les risques de mauvais usages.
Une méthode de jailbreak qui dévoile les failles des modèles de langage
La méthode de jailbreak « Bad Likert Judge », développée et testée par l'unité 42 de Palo Alto Networks, permet d'augmenter de plus de 60 % le taux de réussite des tentatives de jailbreak, par rapport aux attaques directes en une seule étape. Cette approche repose sur l'échelle de Likert, généralement utilisée pour mesurer le degré d'accord ou de désaccord avec une affirmation dans un questionnaire. Par exemple, sur une échelle de 1 à 5, un score de 1 indique un désaccord total, tandis qu'un score de 5 indique un accord total.
Dans le cadre des expérimentations, les chercheurs ont demandé aux modèles de langage (LLM) d'utiliser cette échelle pour évaluer la nocivité de certains contenus. Ainsi, ils ont attribué un score de 1 pour des contenus sans information malveillante et un score de 2 pour des contenus détaillant la création de logiciels malveillants. Après cette évaluation, les chercheurs ont demandé aux modèles de générer des exemples correspondant à chaque score, en insistant pour que l'exemple attribué au score 2 inclut des détails précis, souvent entraînant la génération de contenu préjudiciable.
Les chercheurs ont observé qu'une ou deux étapes supplémentaires dans le processus permettaient de générer encore plus de contenus nuisibles, à mesure que le modèle développait davantage les exemples fournis. Sur un total de 1 440 tests réalisés avec six modèles différents, la méthode « Bad Likert Judge » a atteint un taux de réussite moyen de 71,6 %. Le modèle ayant obtenu les meilleurs résultats avec un taux de 87,6 % était le modèle 6, tandis que le modèle 5, avec un taux de 36,9 %, a été le moins performant.
Les chercheurs ont également analysé l'efficacité de l'attaque dans diverses catégories de contenus nuisibles, telles que la haine, le harcèlement, l'automutilation, la promotion d'activités illégales et la génération de logiciels malveillants. Le contenu lié au harcèlement a été particulièrement facile à produire, avec un taux de réussite de base souvent supérieur à celui des autres catégories. Cependant, en ce qui concerne les fuites d'informations système, « Bad Likert Judge » a montré des résultats mitigés, excepté pour le modèle 1, où le taux de réussite est passé de 0 % à 100 %.
Pour contrer ces violations, il est recommandé d'implémenter des filtres de contenu qui évaluent à la fois les entrées et les sorties des LLM, afin d’empêcher la génération de contenu nuisible. Lorsqu'un modèle équipé de ces filtres a été testé, le taux de réussite de l'attaque a chuté à 89,2 %. Par ailleurs, l'année précédente, un autre jailbreak en plusieurs étapes, appelé « Deceptive Delight », avait déjà montré un taux de réussite de 65 % après seulement trois étapes, en demandant aux LLM de générer des récits mêlant contenus bénins et nuisibles.
Pourquoi les techniques de jailbreak fonctionnent-elles, et pourquoi sont-elles si efficaces ?
Les attaques à tour unique exploitent souvent les limites informatiques des modèles de langage. Certaines invites exigent du modèle qu'il effectue des tâches à forte intensité de calcul, telles que la génération d'un contenu de longue durée ou l'exécution d'un raisonnement complexe. Ces tâches peuvent solliciter les ressources du modèle, ce qui peut l'amener à négliger ou à contourner certains garde-fous.
Les attaques multitours exploitent généralement la fenêtre contextuelle et le mécanisme d'attention du modèle de langage pour contourner les garde-fous. En élaborant stratégiquement une série d'invites, un attaquant peut manipuler la compréhension du contexte de la conversation par le modèle. Il peut ensuite l'orienter progressivement vers des réponses dangereuses ou inappropriées que les garde-fous du modèle empêcheraient autrement.
Les LLM peuvent être vulnérables aux attaques de type « jailbreaking » en raison de leur longue fenêtre contextuelle. Ce terme fait référence à la quantité maximale de texte (tokens) qu'un modèle LLM peut mémoriser à un moment donné lorsqu'il génère des réponses. Anthropic a récemment découvert un bon exemple de cette stratégie, la stratégie d'attaque « many-shot ». Cette stratégie envoie simplement au LLM plusieurs séries d'invites précédant la question nuisible finale. Malgré sa simplicité, cette approche s'est avérée très efficace pour contourner les garde-fous internes du LLM.
En outre, le mécanisme d'attention des modèles de langage leur permet de se concentrer sur des parties spécifiques de l'entrée lors de la génération d'une réponse. Cependant, les adversaires peuvent abuser de cette capacité pour distraire les LLM et les amener à se concentrer sur les parties bénignes pendant qu'ils intègrent des invites dangereuses. Par exemple, l'attaque Deceptive Delight et l'attaque Crescendo, récemment découvertes, utilisent cette méthode.
Une méthode de jailbreak qui défie les garde-fous des modèles de langage
La technique de jailbreak en plusieurs étapes "Bad Likert Judge" et ses tests menés par l'unité 42 de Palo Alto Networks révèlent des enjeux cruciaux concernant la sécurité et la régulation des modèles de langage. Cette méthode, qui améliore les taux de réussite des attaques de jailbreak par rapport aux tentatives directes, soulève des questions pertinentes sur l'efficacité des filtres et des garde-fous qui sont censés empêcher la génération de contenu préjudiciable. Bien que ces tentatives de contournement aient montré un taux de réussite impressionnant dans certains cas, elles mettent également en lumière les failles inhérentes aux systèmes de sécurité actuels, ainsi que la facilité avec laquelle des méthodes peuvent être élaborées pour exploiter ces vulnérabilités.
Tout d'abord, le concept même du "Bad Likert Judge" repose sur l'utilisation d'un modèle probabiliste pour évaluer la nocivité d'un contenu, ce qui laisse ouverte la possibilité de manipuler les résultats. En demandant au modèle d'attribuer des scores à différents types de contenus et de générer des exemples, les chercheurs exploitent la flexibilité des systèmes d'IA actuels pour les amener à produire des réponses qui échappent aux protections. Ce processus met en évidence les limitations des modèles de langage, qui bien qu'ayant la capacité de comprendre le contexte et de produire des résultats détaillés, peuvent également être amenés à générer des contenus nuisibles ou malveillants si le cadre dans lequel ils opèrent est manipulé.
L'un des points les plus préoccupants soulevés par cette recherche est la facilité avec laquelle les modèles de langage peuvent être manipulés pour générer des contenus nuisibles, notamment dans les domaines du harcèlement, de la haine, ou de la promotion de logiciels malveillants. En observant que les "jailbreaks" ont un taux de succès particulièrement élevé dans la génération de contenu lié au harcèlement, il devient évident que, même avec des garde-fous en place, ces systèmes peuvent facilement être contournés. Cette situation soulève des interrogations sur la capacité des entreprises à réguler efficacement les comportements des IA et à mettre en place des filtres suffisamment robustes pour prévenir la génération de contenu nuisible. En effet, les chercheurs ont constaté que les filtres de contenu appliqués réduisaient le taux de réussite des attaques de 89,2 % en moyenne, ce qui suggère qu'il existe des solutions pour limiter les risques, mais ces solutions ne sont pas encore suffisantes pour prévenir totalement les abus.
Le problème sous-jacent réside dans le caractère déterministe des systèmes d'IA. Bien que les modèles de langage semblent souvent produire des résultats variables, cette variabilité est en réalité déterminée par des algorithmes et des probabilités bien définis. Les commentaires de certains utilisateurs sur la nature "non-déterministe" des IA révèlent une mauvaise compréhension de la manière dont ces systèmes fonctionnent. Les IA modernes reposent sur des modèles statistiques et probabilistes qui, en réalité, restent fondamentalement déterministes. Cependant, cette complexité rend difficile la prédiction de chaque réponse, surtout lorsque l'utilisateur interagit avec un système sans comprendre l'intégralité du processus de génération des réponses. Ce décalage entre l'utilisateur et le concepteur du système crée un terrain propice à la manipulation et à l'exploitation des failles.
En fin de compte, la question de l'éthique et de la sécurité des IA dépasse la simple question de la contournabilité des filtres. Il s'agit de savoir comment les concepteurs et les régulateurs peuvent créer des systèmes suffisamment robustes pour prévenir non seulement les attaques de jailbreak, mais aussi les biais et incohérences inhérents à ces modèles. Si les IA ne sont pas capables de se conformer pleinement à des valeurs humaines claires et cohérentes, elles risquent de produire des résultats dangereux, même lorsque des mesures de sécurité sont en place. Il est donc essentiel que les chercheurs, les développeurs et les régulateurs collaborent pour développer des solutions qui non seulement atténuent les risques immédiats, mais qui établissent aussi un cadre éthique solide pour l’utilisation des IA dans un futur proche.
Source : Palo Alto Networks
Et vous ?
Quel est votre avis sur le sujet ?
Dans quelle mesure les modèles de langage actuels peuvent-ils réellement être considérés comme sécurisés face aux attaques sophistiquées comme celle du « Bad Likert Judge » ?
Les mécanismes de filtrage et de classification des contenus nuisibles dans les LLM sont-ils adaptés à la complexité croissante des tentatives de manipulation ?
Voir aussi :
Cybersécurité : les attaques contre les LLM ne prennent que 42 secondes en moyenne, et 20 % des jailbreaks réussissent, selon Pillar Security
Il est étonnamment facile de jailbreaker les « robots contrôlés par LLM », des chercheurs ont développé un algorithme, RoboPAIR, capable de contourner les protections
Les grands modèles de langage (LLM) sont-ils arrivés à saturation ? Oui, selon Gary Marcus, qui estime que « les LLM ont atteint un point de rendement décroissant »
Partager