Contamination de voisinage

La contamination de voisinage désigne le phénomène où l’interprétation d’une entité ou d’un concept est altérée par la proximité sémantique de contenus voisins (catégories dominantes, co-occurrences, entités adjacentes), au point où le système d’IA attribue au sujet des propriétés qui appartiennent principalement à son environnement, pas à son canon.

Dans un Web interprété, le sens n’est pas seulement déterminé par ce qui est déclaré, mais par ce qui t’entoure. La contamination de voisinage est donc un mécanisme majeur d’invisibilisation et de capture interprétatives.

Définition

On appelle contamination de voisinage la situation où :

un sujet A possède un canon clair ;
mais son voisinage sémantique (B, C, D) est plus dense, plus répété ou plus dominant ;
et l’IA projette sur A des attributs, intentions, catégories ou explications provenant du voisinage.

Le résultat est une interprétation “statistiquement cohérente”, mais canoniquement fausse.

Pourquoi c’est critique dans les systèmes d’IA

Le modèle apprend par proximité : co-occurrences et associations dominent la granularité.
Le modèle standardise : il ramène le spécifique au générique le plus fréquent (lissage).
Le modèle s’aligne sur les clusters : un cluster dominant peut recadrer le concept.

Formes courantes de contamination

Contamination catégorielle : le concept est recadré dans une catégorie standard (ex. “framework” assimilé à “certification”).
Contamination par homonymie : voisinage d’une entité homonyme plus connue.
Contamination par discours dominant : un courant ou une école impose son vocabulaire autour du sujet.
Contamination par sources secondaires : wikis, agrégateurs, résumés, qui deviennent plus visibles que le canon.

Indicateurs pratiques (symptômes)

Les IA décrivent le sujet avec les attributs d’un autre sujet adjacent.
Le vocabulaire est “corrigé” vers des termes génériques.
Les réponses citent des sources qui parlent surtout du voisinage, pas du sujet.
La confusion persiste même après publication d’un canon, indiquant une inertie.

Ce que la contamination de voisinage n’est pas

Ce n’est pas une simple erreur factuelle. C’est un glissement de référentiel.
Ce n’est pas uniquement du SEO. C’est une propriété d’interprétation par proximité.
Ce n’est pas forcément intentionnel. Elle peut émerger sans attaque explicite.

Règle minimale (formulation opposable)

Règle CV-1 : lorsqu’un sujet est exposé à un voisinage dominant, le canon doit fournir des marqueurs de désambiguïsation et des négations gouvernées explicites contre les recadrages probables. Toute attribution provenant du voisinage doit être considérée comme une inférence à risque et, si non gouvernée, déclencher une non-réponse légitime.

Exemple

Cas : un concept original est expliqué comme une variante d’un concept plus répandu, parce que les pages qui l’entourent utilisent ce vocabulaire dominant.

Diagnostic : contamination de voisinage, lissage interprétatif, puis capture interprétative.

Correction attendue : renforcement canonique, négations gouvernées, pages satellites, graphe externe, preuves de fidélité.

Liens internes recommandés

Rôle dans le corpus et usage diagnostique

Dans le corpus, Contamination de voisinage nomme un mode de défaillance dans la reconstruction du sens. Ce n’est pas seulement un problème de style et cela ne se corrige pas automatiquement en ajoutant plus de contenu. Le terme aide à identifier comment une entité, une affirmation, un rôle, une source ou un concept peut être déplacé par proximité, lissage, concurrence documentaire, fragment périmé, formulation instable ou conflit d’autorité non résolu.

Cette définition est utile lorsqu’une réponse n’est pas manifestement fausse, mais change quand même le cadrage. Le système peut conserver les bons mots tout en modifiant la hiérarchie, le périmètre, le degré de certitude, la relation entre les concepts ou l’actualité d’une affirmation. Ce type d’erreur survit souvent parce qu’il paraît cohérent en surface.

Mode de défaillance à détecter

La défaillance typique est une dérive représentationnelle qui devient assez stable pour être répétée. Un système peut fusionner des concepts voisins, surpondérer un signal faible, masquer une contradiction, compresser l’incertitude ou laisser un graphe externe contaminer un cadrage canonique. Une fois répétée par plusieurs outils, la distorsion devient plus difficile à corriger qu’une simple erreur factuelle.

Règle de lecture

Utiliser cette définition avec architecture sémantique, observabilité interprétative, risque interprétatif, preuve de fidélité et écart canon-sortie. Le terme doit aider à passer d’une plainte vague sur les sorties d’IA à un diagnostic précis de la distorsion.

Contamination de voisinage