Dérives interprétatives en agentique : typologie et gouvernance

Typologie des dérives interprétatives en agentique

Ce framework propose une typologie structurée des dérives interprétatives observables dans les systèmes agentiques, sur le Web ouvert comme en environnements fermés, afin de rendre ces dérives identifiables, auditables et gouvernables.

Statut :
Framework canonique (grille de lecture applicable). Cette page ne décrit pas des bugs ponctuels, mais des classes de dérives systémiques liées à l’inférence non bornée, à la reconstruction d’entités et à l’absence de juridiction explicite.

Une dérive interprétative n’est pas nécessairement une hallucination factuelle. Dans de nombreux cas, la réponse produite est cohérente, prudente et plausible. Le problème n’est pas la forme de la réponse, mais son statut : elle outrepasse un périmètre, généralise abusivement, ou introduit une norme implicite non autorisée.

Ce framework fournit une grille commune pour reconnaître ces dérives, indépendamment du modèle, du fournisseur ou du contexte d’exécution. Il sert de socle pour la gouvernance interprétative des agents IA.

Dépendances canoniques

Principe de classification

Les dérives décrites ci-dessous sont classées non par gravité apparente, mais par mécanisme interprétatif. Chaque dérive correspond à une rupture précise :

rupture de périmètre ;
rupture de juridiction ;
rupture de traçabilité ;
rupture de négation explicite.

Une même réponse peut relever de plusieurs dérives simultanément.

Dérives interprétatives majeures

1) Extrapolation silencieuse

L’agent comble une lacune informationnelle par une généralisation implicite. La réponse semble raisonnable, mais repose sur une hypothèse non déclarée. Cette dérive est fréquente lorsque des données sont partielles ou contextuelles.

Exemples : extension de services non déclarés, généralisation géographique, supposition de garanties, extrapolation de capacités.

Rupture : absence d’interdiction d’inférence.

2) Généralisation abusive

L’agent transforme un cas local, un exemple ou une règle spécifique en norme générale. Cette dérive est souvent statistiquement plausible, mais normativement fausse.

Exemples : règles internes appliquées universellement, pratiques observées présentées comme standards.

Rupture : confusion entre contexte et invariants.

3) Hallucination morale

L’agent introduit des obligations, interdictions ou recommandations présentées comme évidentes, sans source réglementaire ou contractuelle explicite. La réponse est « responsable », mais crée une norme implicite.

Exemples : affirmation de devoirs légaux inexistants, interdits supposés, recommandations catégoriques sans base opposable.

Rupture : absence de juridiction normative explicite.

4) Refus non justifié

L’agent refuse de répondre sans indiquer clairement s’il s’agit d’un manque de données, d’une interdiction de périmètre ou d’une politique interne. Le refus devient une décision d’autorité opaque.

Rupture : absence de traçabilité de règle.

5) Redirection paternaliste

L’agent reformule ou détourne la demande vers ce qu’il estime être une version acceptable de la question. La demande initiale est remplacée par une interprétation morale ou prudente.

Rupture : substitution de la demande par une intention reconstruite.

6) Persuasion involontaire

Par le ton, l’ordre des risques ou la formulation, l’agent influence la décision de l’utilisateur sans l’imposer explicitement. Cette dérive est fréquente dans les contextes de conseil.

Rupture : confusion entre information et orientation décisionnelle.

7) Faux audit

L’agent fournit une justification narrative qui imite une traçabilité (« pour votre sécurité », « selon les bonnes pratiques ») sans référer à une règle, une source ou un périmètre réel.

Rupture : conformité narrative sans juridiction opposable.

Utilisation du framework

Cette typologie peut être utilisée pour :

auditer des agents existants ;
identifier les zones à haut risque interprétatif ;
définir des interdictions d’inférence ciblées ;
structurer des règles de silence ou d’escalade ;
former des équipes à la lecture critique des réponses agentiques.

Maillage interne recommandé

Statut

Ce framework constitue une grille de lecture stable. Toute analyse, implémentation ou audit d’agent IA devrait pouvoir positionner les comportements observés par rapport à cette typologie.

Retour au registre : Frameworks et cadres applicables.

Typologie des dérives interprétatives en agentique

Typologie des dérives interprétatives en agentique

Dépendances canoniques

Principe de classification

Dérives interprétatives majeures

1) Extrapolation silencieuse

2) Généralisation abusive

3) Hallucination morale

4) Refus non justifié

5) Redirection paternaliste

6) Persuasion involontaire

7) Faux audit

Utilisation du framework

Maillage interne recommandé

Statut

Liens directs

Dans le même territoire

Mobilisé ailleurs sur le site