Files
anonymisation/tests/synthetic_review/README.md

817 B

Corpus synthétique de revue humaine

Ce corpus ne remplace pas les tests unitaires. Il sert à valider des documents complets, relus par un humain, avec un vrai diff entre :

  • test.txt : document synthétique source
  • expected.txt : anonymisation attendue selon la règle métier
  • actual/ : sortie réellement produite par le moteur

Objectif :

  • détecter les régressions de composition sur des documents réalistes ;
  • rendre visibles les écarts de comportement du moteur ;
  • préparer une validation humaine avant promotion éventuelle en suite bloquante.

Commande :

python3 tools/run_synthetic_review_corpus.py

Chaque exécution écrit :

  • actual.txt
  • actual.audit.json
  • actual.summary.json
  • diff.txt

Sous actual.