Détection ≠ légitimité

Détecter une injection, un contenu toxique ou une anomalie améliore parfois la sécurité. Cela ne rend pas une réponse légitime. La légitimité est une propriété de gouvernance : périmètre, hiérarchie des sources, conditions de réponse et abstention opposable.

Dans la plupart des discours « sécurité IA », la défense est présentée comme un problème de détection : détecter les prompts malveillants, détecter la toxicité, détecter les tentatives d’évasion, détecter les contenus douteux, filtrer, bloquer, rediriger.

Ces approches sont utiles. Mais elles s’attaquent à une partie seulement du problème. Elles réduisent l’occurrence de certains signaux visibles. Elles ne répondent pas à la question la plus coûteuse : quand une réponse peut être défendue comme légitime, c’est-à-dire opposable et reconstruisible.

Pourquoi la détection ne suffit pas

La détection intervient souvent après que la confusion s’est installée : confusion instruction/donnée, confusion source/autorité, confusion contexte/vérité. Même si un filtre bloque une classe d’attaques, il reste un risque structurel : le système peut produire une réponse plausible hors conditions.

Autrement dit : un système peut être « propre » (aucune injection détectée) et rester illégitime (aucune base autorisée, aucune hiérarchie, aucune traçabilité, aucune règle d’abstention).

Détection : une logique de symptômes

La détection fonctionne comme une médecine des symptômes :

elle observe des patterns
elle déclenche des règles
elle réduit une classe de comportements

Mais dans un régime interprétatif, l’exposition majeure n’est pas seulement « un comportement à bloquer ». C’est l’apparition d’une assertion sans base légitime, qui peut ensuite être utilisée, reprise, citée, et traitée comme vérité.

Légitimité : une logique de conditions

La légitimité n’est pas un filtre, c’est un contrat de sortie. Une réponse est légitime uniquement si des conditions minimales sont satisfaites :

Admissibilité : le sujet est dans le périmètre autorisé.
Autorité : la réponse s’appuie sur des sources admissibles et hiérarchisées.
Traçabilité : la justification est reconstruisible (pas seulement « plausible »).
Force proportionnée : le niveau d’assertion correspond au niveau de preuve.
Abstention : si les conditions ne sont pas réunies, la non-réponse est l’issue correcte.

Un filtre peut réduire le bruit. Il ne peut pas, à lui seul, instaurer ce contrat.

Le piège classique : filtrer le contenu au lieu de borner l’autorité

Beaucoup de défenses « filtrage » tentent de classifier des morceaux de texte comme « dangereux » ou « sûrs ». Or l’attaque la plus structurante n’est pas toujours dans le texte. Elle est dans le rang donné à ce texte.

Une instruction malveillante n’a de pouvoir que si le système lui accorde un rang d’autorité. De la même manière, un extrait contaminé n’a d’impact que s’il est rappelé comme contexte autoritaire. La question centrale n’est donc pas « est-ce toxique ? », mais « qu’est-ce qui a le droit d’instruire ? » et « qu’est-ce qui a le droit de faire autorité ? ».

Ce que le filtrage ne remplace pas

une hiérarchie explicite des sources
une séparation instruction / contexte / autorité
des règles de non-réponse légitime
une politique d’opposabilité et d’auditabilité (traçabilité reconstruisible).

Le rôle du Q-Layer

Dans cet écosystème, le Q-Layer formalise cette logique de conditions : il ne vise pas à « détecter tout ». Il vise à empêcher une réponse non autorisée de devenir opposable, en bornant l’admissibilité, la source, la force d’assertion et l’abstention.

Liens doctrinaux

Conclusion

La détection réduit des événements. La légitimité gouverne des sorties. Une organisation peut filtrer davantage et rester exposée si elle ne sait pas dire, de manière reconstruisible : pourquoi cette réponse est autorisée, sur quelles sources, dans quel périmètre, avec quelles limites, et pourquoi, parfois, la seule sortie correcte est l’abstention.

Rôle opérationnel dans le corpus risque interprétatif

Dans le corpus, Détection ≠ légitimité : limites des défenses uniquement « filtrage » aide la famille risque interprétatif en rendant un motif reconnaissable avant qu’il soit formalisé ailleurs. Il peut nommer le symptôme, exposer une frontière manquante ou montrer pourquoi un audit ultérieur est nécessaire, mais l’autorité plus stricte appartient encore aux définitions, aux frameworks, aux surfaces de preuve et aux pages de service.

La page doit donc être lue comme une surface de routage. Détection ≠ légitimité : limites des défenses uniquement « filtrage » n’a pas à définir toute la doctrine, fournir la preuve complète, qualifier une intervention et résoudre une question de gouvernance en même temps ; il doit diriger chacun de ces travaux vers la surface autorisée à l’accomplir.

Frontière de l’argument de cet article sur le risque interprétatif

L’argument de Détection ≠ légitimité : limites des défenses uniquement « filtrage » doit rester attaché au périmètre probatoire du problème risque interprétatif qu’il décrit. Il peut justifier un audit plus précis, un lien interne plus fort, une clarification canonique ou un chemin de correction ; il ne justifie pas une affirmation universelle sur tous les LLM, tous les systèmes de recherche ou toutes les sorties futures.

Une lecture disciplinée de Détection ≠ légitimité : limites des défenses uniquement « filtrage » pose quatre questions : quel phénomène est identifié, si la frontière d’autorité est explicite, si une source canonique soutient l’énoncé, et si l’étape suivante relève de la visibilité, de l’interprétation, de la preuve, de la légitimité de réponse, de la correction ou du contrôle d’exécution.

Route de maillage interne

Pour renforcer le maillage prescriptif du cluster Risque interprétatif, cet article renvoie aussi vers Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles. Ces lectures adjacentes évitent d’isoler l’argument et permettent de suivre le même problème dans une autre formulation, un autre cas ou une autre étape du corpus.

Après cette lecture de proximité, revenir vers le risque interprétatif permet de rattacher la série éditoriale à une surface canonique plutôt qu’à une simple succession d’articles.

Détection ≠ légitimité : limites des défenses uniquement « filtrage »