En RAG, la contamination du corpus n’est pas un accident périphérique. Elle découle directement du modèle d’architecture : le système répond à partir d’un modèle et d’un mécanisme de récupération qui transforme des fragments en autorité contextuelle.
Beaucoup d’équipes abordent la contamination RAG comme un bug : « un document s’est glissé », « un chunk est mauvais », « l’index a rappelé quelque chose d’absurde ». Cette lecture est rassurante, parce qu’elle suggère un correctif local. Or, dans une architecture RAG, la contamination est un risque structurel : on a volontairement introduit une chaîne de récupération qui rend des fragments actionnables dans la réponse.
Le RAG n’échoue pas seulement quand il « retrouve mal ». Il échoue quand le système accorde un rang d’autorité implicite à ce qu’il retrouve, surtout si le corpus est hétérogène, mal borné ou contaminable.
RAG : une architecture qui fabrique de l’autorité contextuelle
Un système RAG opère en deux temps :
- récupérer des fragments (documents, pages, chunks, métadonnées) à partir d’un index
- générer une réponse en intégrant ces fragments comme contexte.
Cette intégration n’est pas neutre : un fragment rappelé n’est pas seulement « lu », il est souvent traité comme pertinent, parfois comme preuve, et fréquemment comme base de réponse. C’est ce qui rend la contamination systémique : la chaîne de retrieval est une chaîne d’autorité.
Contamination : trois mécanismes dominants
1) Dérivation de référence
Un corpus contaminé fait remonter des sources non canoniques comme si elles étaient préférables, simplement parce qu’elles « matchent » mieux sémantiquement, sont plus répétées, ou sont mieux chunkées. Le système commence alors à citer, résumer ou stabiliser des références qui ne devraient pas faire autorité.
2) Contamination par fragments universels
Certains fragments sont « collants » : formulations génériques, définitions vagues, prescriptions procédurales, disclaimers. Ils se rappellent dans des contextes multiples et s’imposent comme contexte récurrent, créant un biais transversal.
3) Instabilité de rappel
À formulation proche, le système rappelle des fragments différents. La réponse devient variable, parfois contradictoire, non parce que le modèle « hallucine » davantage, mais parce que le contexte rappelé n’est pas stable.
Pourquoi ce n’est pas résoluble par « un meilleur filtre »
Filtrer certains contenus toxiques aide, mais ne résout pas la propriété centrale : un corpus ouvert est contaminable, et même un corpus fermé peut dériver si la provenance, la hiérarchie et la canonicalisation ne sont pas gouvernées.
Le problème n’est pas seulement « un contenu dangereux », c’est la question : qu’est-ce qui a le droit d’entrer dans le corpus, avec quel statut, et avec quel poids ?
La gouvernance du corpus : le vrai périmètre
Traiter la contamination comme une propriété du système force un changement de périmètre : on ne gouverne pas seulement le modèle, on gouverne la chaîne de retrieval.
- Provenance : d’où viennent les sources, qui les contrôle, quelles versions.
- Bornage : ce qui est admissible, ce qui est exclu, ce qui est « contexte seulement ».
- Canonicalisation : éviter les doublons, stabiliser les références, réduire les contradictions.
- Segmentation : chunking et frontières de contexte (ce qui « colle » et ce qui se décontextualise).
- Hiérarchie d’autorité : ce qui peut faire vérité, ce qui doit rester descriptif.
RAG et risque interprétatif
Le coût du RAG contaminé n’est pas seulement une mauvaise réponse. C’est une dérive d’attribution : le système peut stabiliser un fait, un rôle, une responsabilité ou une instruction à partir d’un fragment non autorisé, puis le propager par synthèse, citation ou réutilisation.
Liens doctrinaux
- Clarification : empoisonnement RAG
- Clarification : injection indirecte
- Clarification : AI poisoning
- Article : détection ≠ légitimité
Conclusion
Le RAG est puissant parce qu’il externalise une partie de la vérité dans un corpus. Cette force est aussi sa fragilité : dès que le corpus devient contaminable, la sortie devient contaminable. La bonne réponse n’est pas d’espérer « zéro contamination », mais de gouverner la provenance, la hiérarchie d’autorité et les conditions de réponse.
Rôle opérationnel dans le corpus risque interprétatif
Dans le corpus, RAG : la contamination n’est pas un bug, c’est une propriété du système aide la famille risque interprétatif en rendant un motif reconnaissable avant qu’il soit formalisé ailleurs. Il peut nommer le symptôme, exposer une frontière manquante ou montrer pourquoi un audit ultérieur est nécessaire, mais l’autorité plus stricte appartient encore aux définitions, aux frameworks, aux surfaces de preuve et aux pages de service.
La page doit donc être lue comme une surface de routage. RAG : la contamination n’est pas un bug, c’est une propriété du système n’a pas à définir toute la doctrine, fournir la preuve complète, qualifier une intervention et résoudre une question de gouvernance en même temps ; il doit diriger chacun de ces travaux vers la surface autorisée à l’accomplir.
Frontière de l’argument de cet article sur le risque interprétatif
L’argument de RAG : la contamination n’est pas un bug, c’est une propriété du système doit rester attaché au périmètre probatoire du problème risque interprétatif qu’il décrit. Il peut justifier un audit plus précis, un lien interne plus fort, une clarification canonique ou un chemin de correction ; il ne justifie pas une affirmation universelle sur tous les LLM, tous les systèmes de recherche ou toutes les sorties futures.
Une lecture disciplinée de RAG : la contamination n’est pas un bug, c’est une propriété du système pose quatre questions : quel phénomène est identifié, si la frontière d’autorité est explicite, si une source canonique soutient l’énoncé, et si l’étape suivante relève de la visibilité, de l’interprétation, de la preuve, de la légitimité de réponse, de la correction ou du contrôle d’exécution.
Route de maillage interne
Pour renforcer le maillage prescriptif du cluster Risque interprétatif, cet article renvoie aussi vers Communication publique : quand une réponse IA devient une position officiellle, Pourquoi « AI poisoning » est devenu un mot-valise. Ces lectures adjacentes évitent d’isoler l’argument et permettent de suivre le même problème dans une autre formulation, un autre cas ou une autre étape du corpus.
Après cette lecture de proximité, revenir vers le risque interprétatif permet de rattacher la série éditoriale à une surface canonique plutôt qu’à une simple succession d’articles.