Dérive de conformité
La dérive de conformité désigne le phénomène où un système d’IA produit, au fil du temps, des réponses de moins en moins compatibles avec les règles, politiques ou contraintes déclarées, sans changement explicite du canon. Les règles restent les mêmes, mais les sorties s’éloignent.
Cette dérive est particulièrement dangereuse parce qu’elle n’est pas toujours visible. La réponse peut rester plausible, “bien formulée”, et pourtant sortir du périmètre d’interprétabilité. La conformité se dégrade sans bruit.
Définition
On appelle dérive de conformité la situation où :
- un canon (règles, politiques, limites, négations) est stable ;
- mais les sorties du système deviennent progressivement moins compatibles avec ce canon ;
- et l’écart canon-sortie augmente malgré l’absence de changement dans la source.
La dérive peut provenir d’une modification du contexte d’exécution (routing, sources activées, modèles), d’une contamination progressive du voisinage, ou de changements externes qui recadrent l’interprétation.
Pourquoi c’est critique dans les systèmes d’IA
- Elle donne un faux sentiment de contrôle : “les règles existent, donc c’est conforme”.
- Elle dégrade la fiabilité : l’audit devient rétrospectif, pas préventif.
- Elle augmente le risque : décisions, conformité, réputation et responsabilité implicite.
Causes fréquentes
- Changement de modèle ou de comportement : mise à jour du système, fine-tuning, paramètres.
- Changement des sources activées : nouvelles sources externes dominantes, disparition d’anciennes.
- Rémanence / inertie : retour progressif d’anciennes interprétations.
- Conditions de réponse insuffisantes : absence de déclencheurs de non-réponse et de preuve.
Indicateurs pratiques (symptômes)
- Les réponses deviennent plus “sûres”, mais moins bornées (lissage de périmètre).
- Les exceptions et négations apparaissent de moins en moins.
- La même question donne des réponses compatibles un mois, puis incompatibles le mois suivant.
- Les sources citées évoluent vers des sources secondaires plutôt que le canon.
Ce que la dérive de conformité n’est pas
- Ce n’est pas une mise à jour du canon. Le canon est stable.
- Ce n’est pas un incident ponctuel. C’est une trajectoire.
- Ce n’est pas uniquement un problème de données. C’est souvent un problème de conditions et de preuves.
Règle minimale (formulation opposable)
Règle DC-1 : toute dérive de conformité doit être détectée par des contrôles réguliers (observabilité interprétative) et réduite par l’imposition de conditions de réponse, de preuves de fidélité et de traces d’interprétation. Un système sans mécanisme de preuve ne peut pas revendiquer une conformité stable.
Exemple
Cas : une politique interne est stable, mais les IA commencent à formuler des exceptions “raisonnables” non déclarées, ou à généraliser au-delà du périmètre.
Diagnostic : dérive de conformité (lissage + extrapolation) malgré canon stable.
Correction attendue : contrôles récurrents, preuves, renforcement des négations gouvernées et des déclencheurs de non-réponse.
Liens internes recommandés
Rôle dans le corpus et usage diagnostique
Dans le corpus, Dérive de conformité nomme un mode de défaillance dans la reconstruction du sens. Ce n’est pas seulement un problème de style et cela ne se corrige pas automatiquement en ajoutant plus de contenu. Le terme aide à identifier comment une entité, une affirmation, un rôle, une source ou un concept peut être déplacé par proximité, lissage, concurrence documentaire, fragment périmé, formulation instable ou conflit d’autorité non résolu.
Cette définition est utile lorsqu’une réponse n’est pas manifestement fausse, mais change quand même le cadrage. Le système peut conserver les bons mots tout en modifiant la hiérarchie, le périmètre, le degré de certitude, la relation entre les concepts ou l’actualité d’une affirmation. Ce type d’erreur survit souvent parce qu’il paraît cohérent en surface.
Mode de défaillance à détecter
La défaillance typique est une dérive représentationnelle qui devient assez stable pour être répétée. Un système peut fusionner des concepts voisins, surpondérer un signal faible, masquer une contradiction, compresser l’incertitude ou laisser un graphe externe contaminer un cadrage canonique. Une fois répétée par plusieurs outils, la distorsion devient plus difficile à corriger qu’une simple erreur factuelle.
Règle de lecture
Utiliser cette définition avec architecture sémantique, observabilité interprétative, risque interprétatif, preuve de fidélité et écart canon-sortie. Le terme doit aider à passer d’une plainte vague sur les sorties d’IA à un diagnostic précis de la distorsion.