Externalize dictionaries and add anonymization review corpus

This commit is contained in:
2026-04-21 10:32:57 +02:00
parent 39db675052
commit 34dcf8f360
99 changed files with 1805 additions and 805 deletions

View File

@@ -0,0 +1,26 @@
# Tests synthétiques de non-régression
Cette suite fournit 10 cas synthétiques courts, relisibles et diffables, pensés
comme première barrière de sécurité avant la revue humaine.
Principe :
- `test.txt` contient le document synthétique d'entrée à relire ou diff-er.
- `expected.txt` contient la sortie anonymisée attendue, normalisée.
- `expected.audit.json` contient un résumé stable de l'audit attendu.
- `config_overlay.yml` est optionnel et permet de tester une surcharge locale.
Objectif :
- bloquer les régressions évidentes sur les règles critiques ;
- rendre les écarts lisibles dans un diff Git ou dans la sortie de `pytest` ;
- compléter, et non remplacer, la validation humaine sur corpus réel.
Portée de cette première version :
- texte uniquement ;
- pas encore de PDF/OCR/layout ;
- pas encore de cas `xfail` pour les bugs connus.
Exécution :
```bash
pytest -q tests/unit/test_synthetic_regression.py
```