Le piège des fonctions « résume-moi »

Les fonctions « résume-moi », « explique », « extrait » ne sont pas neutres. Elles forcent un système à ingérer un contenu tiers et, si la hiérarchie instruction/donnée n’est pas strictement bornée, elles transforment une tâche légitime en surface d’attaque par mélange des rôles.

Le réflexe « résume ce contenu » semble anodin. Pourtant, dans les architectures modernes (RAG, navigation assistée, agents), cette commande déclenche un mécanisme dangereux : elle oblige le système à absorber un texte externe et à le traiter comme matière première. Dès lors, la question n’est plus « ce contenu est-il vrai ? », mais « ce contenu peut-il instruire le système ? ».

Le piège est là : un contenu peut contenir des instructions déguisées (ou des contraintes implicites) qui cherchent à se faire consommer au mauvais niveau. On ne parle plus seulement de désinformation, mais d’une menace d’autorité : déplacer « ce qui décide ».

Le mécanisme : mélanger les rôles (instruction, contexte, autorité)

Une architecture robuste sépare strictement :

Instruction : ce qui commande (policies, règles système, contraintes runtime).
Contexte : ce qui informe (extraits, documents, pages récupérées, mémoire).
Autorité : ce qui peut être traité comme vrai canonique (définitions, doctrine, bornes stabilisées).

Les fonctions « résume-moi » tendent à aplatir ces niveaux : tout devient « texte à traiter ». Si une instruction hostile se trouve dans ce texte, elle peut tenter de remonter dans la hiérarchie, surtout si le système n’a pas de mécanisme explicite de bornage.

Pourquoi ce n’est pas une simple « injection de prompt »

Dans l’injection directe, l’instruction hostile est souvent dans l’input utilisateur. Ici, elle transite via un contenu tiers (page, doc, PDF, sortie d’outil), puis est ingérée parce que la tâche « résumer » l’exige. C’est une injection indirecte : l’attaque passe par la légitimité apparente de la tâche, pas par la brutalité de l’ordre.

Signature du problème : autorité illégitime, pas seulement « texte malveillant »

Le signal critique n’est pas « ce contenu contient des mots suspects ». Le signal critique, c’est que le système commence à :

prioriser des contraintes issues du contenu au-dessus des règles
modifier son comportement (refus, fuites, dérives) de manière non expliquée
produire des réponses « trop fortes » (assertives, prescriptives) sans base canonique.

Autrement dit : ce n’est pas le contenu qui fait autorité, c’est le rang qu’on lui accorde.

Ce que le filtrage ne remplace pas

Filtrer certains patterns peut aider. Mais ce n’est pas suffisant, parce que l’attaque peut être sémantiquement douce, contextuelle, et non lexicalement « toxique ». Ce qu’il faut gouverner, c’est :

le droit d’instruire (hiérarchie d’instructions)
le droit de faire autorité (sources admissibles)
les conditions de réponse (force d’assertion, preuve, abstention).

Rôle du Q-Layer : bornage des conditions de réponse

Le Q-Layer s’attaque au cœur du problème : empêcher qu’un fragment ingéré par une tâche légitime devienne une source d’autorité décisionnelle. Il borne l’admissibilité, les sources, la traçabilité, et impose l’abstention lorsque les conditions ne sont pas satisfaites.

Liens doctrinaux

Conclusion

« Résume » n’est pas une opération neutre dans un système interprétatif. C’est un mécanisme d’ingestion. Et dès qu’il y a ingestion, il y a risque d’autorité. Tant que l’on ne sépare pas strictement instruction, contexte et autorité, les fonctions de synthèse deviennent un point d’entrée naturel pour l’attaque par mélange des rôles.

Rôle opérationnel dans le corpus risque interprétatif

Dans le corpus, Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles aide la famille risque interprétatif en rendant un motif reconnaissable avant qu’il soit formalisé ailleurs. Il peut nommer le symptôme, exposer une frontière manquante ou montrer pourquoi un audit ultérieur est nécessaire, mais l’autorité plus stricte appartient encore aux définitions, aux frameworks, aux surfaces de preuve et aux pages de service.

La page doit donc être lue comme une surface de routage. Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles n’a pas à définir toute la doctrine, fournir la preuve complète, qualifier une intervention et résoudre une question de gouvernance en même temps ; il doit diriger chacun de ces travaux vers la surface autorisée à l’accomplir.

Frontière de l’argument de cet article sur le risque interprétatif

L’argument de Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles doit rester attaché au périmètre probatoire du problème risque interprétatif qu’il décrit. Il peut justifier un audit plus précis, un lien interne plus fort, une clarification canonique ou un chemin de correction ; il ne justifie pas une affirmation universelle sur tous les LLM, tous les systèmes de recherche ou toutes les sorties futures.

Une lecture disciplinée de Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles pose quatre questions : quel phénomène est identifié, si la frontière d’autorité est explicite, si une source canonique soutient l’énoncé, et si l’étape suivante relève de la visibilité, de l’interprétation, de la preuve, de la légitimité de réponse, de la correction ou du contrôle d’exécution.

Route de maillage interne

Pour renforcer le maillage prescriptif du cluster Risque interprétatif, cet article renvoie aussi vers Détection ≠ légitimité : limites des défenses uniquement « filtrage », Non-réponse légitime : une mesure de sécurité, pas un aveu d’échec. Ces lectures adjacentes évitent d’isoler l’argument et permettent de suivre le même problème dans une autre formulation, un autre cas ou une autre étape du corpus.

Après cette lecture de proximité, revenir vers le risque interprétatif permet de rattacher la série éditoriale à une surface canonique plutôt qu’à une simple succession d’articles.

Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles

Le mécanisme : mélanger les rôles (instruction, contexte, autorité)

Pourquoi ce n’est pas une simple « injection de prompt »

Signature du problème : autorité illégitime, pas seulement « texte malveillant »