- gitignore graphify-out/ (artefacts knowledge graph générés) - commit messages coordination 2026-06-05 (ordre de marche Dom via Codex) - commit rapport analyse campagne GUI (synthétique, sans PII) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
4.8 KiB
Rapport d'analyse de campagne GUI
Date d'analyse : 2026-04-21
Périmètre
Campagne lancée depuis la GUI sur le dossier :
/home/dom/ai/anonymisation/tests/synthetic_regression/cases
Sorties observées dans :
/home/dom/ai/anonymisation/tests/synthetic_regression/cases/anonymise
Synthèse
La campagne n'est pas exploitable comme validation globale du corpus.
Le moteur n'a pas échoué sur l'anonymisation observée, mais la méthode de lancement via la GUI a mélangé les cas de test dans un dossier de sortie unique. Résultat : les fichiers de sortie se sont écrasés entre eux, et il ne reste plus que trois sorties distinctes (input, expected, test) alors que 30 fichiers d'entrée ont été pris dans la campagne.
En l'état, un seul cas est encore vérifiable de façon fiable : 010_spaced_establishment_header. Ce cas est conforme.
Constats
1. La campagne a pris 30 fichiers en entrée
Le dossier tests/synthetic_regression/cases contient 10 cas, et chaque cas contient :
input.txttest.txtexpected.txt
Soit 30 fichiers texte supportés au total.
2. Les sorties ont été écrasées
La GUI écrit toutes les sorties dans un seul dossier :
folder / "anonymise"
Puis le moteur nomme les sorties uniquement avec le stem du fichier source :
input.pseudonymise.txttest.pseudonymise.txtexpected.pseudonymise.txt
Comme les 10 cas portent tous les mêmes noms de fichiers, chaque nouveau cas remplace le précédent.
Conséquence observée :
- 30 entrées traitées
- 3 sorties texte finales restantes
3. Les fichiers de référence ont aussi été anonymisés
La GUI a pris tous les fichiers supportés trouvés récursivement dans le dossier sélectionné, donc elle a traité :
- les fichiers de test à anonymiser
- les fichiers
input.txt - les fichiers
expected.txt
Pour une campagne de validation, ce n'est pas le bon protocole : les fichiers expected.txt sont des références de comparaison, pas des entrées métier à anonymiser.
Analyse des sorties restantes
Les trois sorties restantes sont :
tests/synthetic_regression/cases/anonymise/input.pseudonymise.txttests/synthetic_regression/cases/anonymise/test.pseudonymise.txttests/synthetic_regression/cases/anonymise/expected.pseudonymise.txt
Leur contenu correspond au cas :
tests/synthetic_regression/cases/010_spaced_establishment_header
Contenu observé :
[ETABLISSEMENT]
Service de cardiologie
Résultat :
test.pseudonymise.txtcorrespond exactement à010_spaced_establishment_header/expected.txtinput.pseudonymise.txtcorrespond aussi à010_spaced_establishment_header/expected.txtexpected.pseudonymise.txtreste déjà anonymisé, ce qui est cohérent
Audit observé :
input.audit.jsonl: 1 hitETAB_SPACEDtest.audit.jsonl: 1 hitETAB_SPACEDexpected.audit.jsonl: vide
Conclusion sur ce cas :
Le cas 010_spaced_establishment_header est réussi.
Conclusion générale
Conclusion fonctionnelle :
- aucun échec d'anonymisation n'est visible sur le cas encore vérifiable
- la campagne globale ne permet pas d'évaluer les 10 cas du corpus
Conclusion méthodologique :
- la structure actuelle des sorties GUI n'est pas compatible avec un lancement sur un dossier de corpus contenant des noms de fichiers répétés
- la campagne du 2026-04-21 doit être considérée comme non concluante pour 9 cas sur 10
Causes racines
- La GUI parcourt récursivement tous les fichiers supportés du dossier sélectionné.
- La GUI écrit toutes les sorties dans un seul sous-dossier
anonymise/. - Le moteur génère les noms de sortie à partir du seul nom de fichier, sans conserver le chemin relatif du cas.
Recommandations immédiates
- Pour tester sans modifier le code, lancer la GUI sur un seul dossier de cas à la fois.
Exemple :
/home/dom/ai/anonymisation/tests/synthetic_regression/cases/001_patient_header_and_birth
-
En validation humaine, ne pas lancer la GUI sur
tests/synthetic_regression/casesdirectement. -
Comparer chaque sortie produite au
expected.txtdu même dossier de cas.
Correctifs recommandés
- Préserver l'arborescence relative des cas dans le dossier de sortie.
Exemple attendu :
anonymise/001_patient_header_and_birth/test.pseudonymise.txtanonymise/002_contact_bundle/test.pseudonymise.txt
- Ou préfixer les sorties par le nom du dossier parent.
Exemple :
001_patient_header_and_birth__test.pseudonymise.txt
-
Ajouter un mode "campagne de tests" dans la GUI qui ne traite que les fichiers
test.txt. -
Générer automatiquement un rapport de comparaison contre les
expected.txt.
Statut
- Campagne GUI du 2026-04-21 : non exploitable pour validation complète
- Cas encore vérifiable :
010_spaced_establishment_header - Verdict sur ce cas : conforme