Remplace l'éditeur de masquage encastré dans l'onglet Configuration —
jugé inutilisable par Dom (document trop à l'étroit, non défilable) —
par une fenêtre dédiée où le document est majoritaire et réellement
navigable.
- gui_v6/mask_editor_model.py : couche logique pure (rectangles par
page, conversions écran↔PDF, hit-test, sérialisation template)
testable sans display ; réutilise MaskRect/Template de
pdf_mask_designer → format de template inchangé (compat moteur).
- gui_v6/mask_editor_window.py : MaskEditorWindow (CTkToplevel)
redimensionnable — canvas + scrollbars H+V câblées + molette (le
manque qui rendait l'éditeur inutilisable), zoom + ajuster
largeur/page, navigation pages, rectangles au glisser-déposer,
sélection (clic) + suppression (Suppr / clic-droit), templates
JSON/YAML, mode aperçu d'exemple sans PDF.
- tab_config.py : l'onglet Masquage lance la fenêtre dédiée ; retrait
du canvas encastré et de ~290 lignes de code mort associé.
- tests/unit/test_gui_v6_mask_editor.py : 13 tests logique + 3 smoke
headless (scrollbars, ajout/sélection/suppression, save/load
roundtrip, câblage onglet→fenêtre).
Sans nouvelle dépendance. V5, moteur et app_aivanov non touchés.
221 tests unit OK (0 régression), self-test GUI V6 OK.
Verdict Qwen requis avant push/build/diffusion.
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Retire les 6 fichiers .audit.jsonl/.pseudonymise.txt (NOM/ADRESSE/CP en clair)
de test_doctr_fix/ et tests/phase1_test_output/. Ajoute *.audit.jsonl et
*.pseudonymise.txt au .gitignore (*.pdf déjà ignoré) pour stopper la récidive.
Purge de l'historique git (filter-repo + force-push) traitée séparément.
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Installateur Inno Setup séparé de la GUI (validé GO par Qwen), pour tests
internes et intégration de la brique CLI dans un autre logiciel.
- installer/Anonymisation-CLI.iss : AppId distinct de la GUI
(B2F4A7C1-…), PrivilegesRequired=lowest, DefaultDirName
{localappdata}\Programs\Anonymisation-CLI, source dist\Anonymisation-CLI.exe.
Clés registre HKCU stables (InstallPath/ExePath/Version) + App Paths HKCU
pour résolution tierce, supprimées à la désinstallation (uninsdeletekey).
Pas de PATH système, pas de raccourci bureau. GUI .iss non modifiée.
- installer/Anonymisation-CLI-README.txt : usage, codes retour, lookup registre.
- scripts/build_windows_cli_installer_only.ps1 : build ISCC dédié,
sortie release\Anonymisation-CLI-Setup.exe + SHA-256.
- docs/build-windows-oneclick.md : section « Installateur CLI dédié ».
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Trois détecteurs simples « layout/context-aware » (chantier v11.5 P0),
validés par 2 revues Codex + 10 tests adversariaux Qwen, 0 régression :
- RE_ADRESSE réécrit en grammaire de tokens (_RE_VOIE_TYPE + _RE_VOIE_TOKEN) :
capture initiales (« J. Loeb »), voies commémoratives à chiffres
(« 8 Mai 1945 »), apostrophes ' et ’, bornage à la ligne courante,
arrêt sur point post-mot (anti-débordement clinique).
- _mask_ville_gazetteers : retourne toujours un tuple (texte, liste) même
sans Aho-Corasick ; masque les communes Saint/St/Sainte/Ste multi-mots à
espaces (« St Martin de Hinx ») entièrement, sans exiger de contexte géo.
- DATE_NAISSANCE retiré de la propagation globale + DATE_NAISSANCE_GLOBAL
ajouté aux skip vector/raster : on ne masque plus une date nue sur tout le
document. La DDN reste masquée en contexte fort, page par page. Les dates
cliniques identiques à la DDN hors contexte sont préservées.
tests/unit/test_p0_layout_detectors.py : 38 tests dédiés (matrice adresse
générique, anti-FP, communes Saint, propagation DDN, 10 tests adversariaux
Qwen). Suite tests/unit complète : 147 passed.
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Configure numerical library and torch threading for H1, keep raster threading/timing instrumentation, remove CONCERTATION from forced masks after real PDF FP testing, and record coordination archive state.
- gitignore graphify-out/ (artefacts knowledge graph générés)
- commit messages coordination 2026-06-05 (ordre de marche Dom via Codex)
- commit rapport analyse campagne GUI (synthétique, sans PII)
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Vérif code : modèle custom embarqué dans l'EXE au build, autres modèles
téléchargés au 1er lancement. T-N → pérennité backup (priorité normale).
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Dernière fuite de l'audit_30. Cas Trackare : un nom composé "NOCENT-EJNAINI"
éclaté en colonnes devient "[NOM]-\nEJNAINI" — le 1er composant est masqué
par le NER mais le 2e reste en clair (ni span NER intact ni candidat regex ne
le couvre ; être dans paranames ne suffit pas sans candidat).
Fix : post-passe dans process_pdf (étape 3a-bis), après selective_rescan, qui
masque le token majuscule orphelin suivant immédiatement un "[NOM]-". Couvre
le texte ET le raster (NOM_GLOBAL). Réfute la conclusion de Qwen ("paranames
résoudra EJNAINI").
Validation audit_30 (29 docs) : score 98.3 → 98.5/100, LEAK SCORE 100/100
(0 fuite), 0 régression FP. tests/unit 85 passed. BA127127 : EJNAINI 7→0.
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
## Bannière mode admin
Ajout d'un suffixe "[⚙ MODE ADMIN]" dans le titre de la fenêtre principale
quand `admin_mode.is_admin()` retourne True. Signal visuel clair pour :
- Le bêta-testeur (s'il bidouille, il voit qu'il a déverrouillé quelque chose)
- L'opérateur Dom (pour vérifier d'un coup d'œil que le mode admin est actif
pour ses propres tests)
## Périmètre D-13 partial
Documenté dans `decisions/2026-06-02_dom_d13-partial-scope.md` :
| Protection | Statut |
|---|---|
| VLM Ollama caché en non-admin | ✅ (D-11) |
| Titre fenêtre signalé en admin | ✅ (ce commit) |
| Stopwords personnalisés | ⏭ Reporté v11.5 |
| Profils techniques (regex_overrides, force_terms) | ⏭ Reporté v11.5 |
| Choix moteur NER | ⏭ Reporté v11.5 |
| Sauvegarde configs sensibles | ⏭ Reporté v11.5 |
## Pourquoi le report est OK pour MVP
1. Le risque RGPD critique (envoi externe à Ollama) est résolu par D-11
2. Les autres réglages, bien que visibles, ne déclenchent pas de fuite
3. La transposition customtkinter v6 (v11.5) refondra l'UI — patcher
2874 lignes tkinter aujourd'hui = double travail à refaire en v6
4. Le bêta-testeur n'a pas accès au mode admin (pas de fichier .admin
livré, pas d'env var par défaut)
## Activation manuelle
- Env : `ANON_ADMIN=1 python Pseudonymisation_Gui_V5.py`
- Fichier : créer `.admin` à la racine
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
## Module admin_mode.py
Nouveau module qui détecte si l'application tourne en mode admin :
- Variable d'environnement `ANON_ADMIN=1` (ou `true`/`yes`/`on`)
- OU fichier `.admin` à la racine de l'application
Expose :
- `is_admin()` — retourne bool, caché en module
- `admin_required(feature_name)` — garde qui lève RuntimeError si pas admin
Pas de mot de passe — c'est un verrou "interdit aux distraits" pour ne
pas exposer au bêta-testeur des options sensibles (envoi à Ollama, conf
critique). Le vrai durcissement viendra avec D-13 (mode admin complet).
## GUI — VLM Ollama caché par défaut (D-11)
Dans Pseudonymisation_Gui_V5.py, après l'import classique de VlmManager,
on force VlmManager = None et VlmConfig = None **si le mode admin n'est
pas actif**.
Effet :
- Bêta-testeur lambda : VLM Ollama complètement invisible et inactif
(économise aussi la RAM du modèle CamemBERT-bio + downloads Ollama)
- Mode admin activé : comportement actuel inchangé
Tests manuels :
- import GUI sans env : VlmManager = None ✅
- `ANON_ADMIN=1 python -c "import Pseudonymisation_Gui_V5"` : VlmManager
est <class 'vlm_manager.VlmManager'> ✅
## Reste à faire (D-13)
- Mode admin = mot de passe / fingerprint
- Cacher dans l'UI les widgets liés au VLM (cases à cocher, etc.)
- Cacher d'autres réglages sensibles (stopwords personnalisés,
regex_overrides, force_terms)
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Sur le corpus FC, "DAS" était détecté comme nom de famille INSEE en
contexte fort (suivi de "DR") et compté comme leak audit par le scoring.
En réalité, DAS est un **acronyme PMSI / T2A** :
- DP = Diagnostic Principal
- DR = Diagnostic Relié
- **DAS = Diagnostic Associé Significatif**
Contexte typique :
DR
DAS
Actes
Rappel : un code CIM de DAS suivi d'un astérisque correspond à
une CMA exclue par le DP
Le pipeline pensait "Dr. DAS" = médecin nommé DAS. Ajout de "das" aux
stopwords pour bloquer la détection.
Risque résiduel : si un vrai patient/médecin nommé DAS existe, il ne
sera pas masqué. C'est un trade-off acceptable car le PMSI utilise DAS
partout dans les rapports T2A.
Impact attendu : score qualité FC remonte 99.3 → ~100/100 (1 leak audit
fictif éliminé).
Découverte par Qwen dans son audit du 2026-06-02 14:50.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Intégration de paranames (bltlab/paranames v2024.05.07.0, CC BY 4.0)
pour étendre la couverture du gazetteer aux noms étrangers en France
absents d'INSEE (basques, maghrébins, asiatiques, africains, etc.).
## Citation
Sälevä, J., & Lignos, C. (2024). ParaNames 1.0: Creating an Entity Name
Corpus for 400+ Languages using Wikidata. In Proceedings of LREC-COLING
2024. https://aclanthology.org/2024.lrec-main.1103/
## Fichiers
- scripts/build_paranames_gazetteer.py — script reproductible
- data/paranames/README.md — attribution + procédure
- data/paranames/EXTRACTION.md — workflow reproductible
- data/paranames/noms_famille_world.txt.gz — 1 379 609 noms (4.3 Mo gz, <30 Mo RAM)
- data/paranames/prenoms_world.txt.gz — 502 302 prénoms (1.4 Mo gz)
## Volume final
Réduction significative vs estimation initiale (~80 Mo) grâce à NFKD+A-Z
qui fusionne toutes les translittérations Wikidata (cyrilliques, arabes,
chinoises…) en latin de base. Résultat : 4.3 Mo gz total, ~30 Mo RAM.
## Spot-check
| Nom | Présent ? | Note |
|---|---|---|
| EJNAINI | ✅ | Le cas de fuite résiduelle audit_30 — devrait être fixé |
| OYARZABAL | ✅ | Variante basque |
| OYARCABAL | ❌ | Orthographe franco-espagnole rare, absente Wikidata |
| NGUYEN, SCHMIDT, OBAMA, NAKAMURA, GARCIA, MARTIN, BERNARD | ✅ | OK |
## Intersection INSEE
- ∩ INSEE FR : 130 340 noms (59.5 % de couverture INSEE)
- Gain net : 1 249 269 noms supplémentaires (focus diaspora / DOM-TOM)
## Risque FP identifié
Quelques mots français courants sont présents dans paranames (origine :
noms d'autres langues) : VOIR, ALLO. MIDI déjà filtré par stopwords.
Impact à mesurer sur retraitement audit_30. Si nécessaire, ajout d'un
filtre dictionnaire français à apporter ultérieurement.
## Source
- Dépôt : https://github.com/bltlab/paranames
- Mirror HF (utilisé) : https://huggingface.co/datasets/imvladikon/paranames
- License : CC BY 4.0
- Origine : Wikidata (entités publiques) — pas de PII fuitée
REJETÉ comme alternative : philipperemy/name-dataset (origine = leak
Facebook 2021, RGPD bloquant pour produit médical).
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Préparation à l'intégration du gazetteer paranames (Wikidata CC BY 4.0,
Sälevä & Lignos LREC-COLING 2024) qui couvrira les noms étrangers en
France absents du gazetteer INSEE (basques, maghrébins, asiatiques,
africains, etc.).
## Loader
- `_PARANAMES_NOMS_SET` + `_PARANAMES_LOADED` (cache global)
- `_load_paranames_noms()` : lazy load au 1er besoin
- Fichier cible : `data/paranames/noms_famille_world.txt.gz`
- Si fichier absent : retourne set vide, log INFO, comportement actuel
(INSEE seul) — fallback transparent
- Si erreur de lecture : log WARNING, fallback INSEE
## Intégration cross-validation
Dans `_cross_validate_name_candidates`, `is_in_insee` étendu :
is_in_insee = (tok_upper in insee_noms or tok_upper in insee_prenoms
or tok_upper in _load_paranames_noms())
Effets :
- En contexte "low" + non NER : un token comme OYARCABAL (basque) ou
EJNAINI (maghrébin) sera désormais accepté si présent dans paranames.
- Aucun changement pour noms FR (déjà dans INSEE).
- Aucune régression : si le fichier paranames n'est pas généré, le
comportement est strictement identique.
## Génération du gazetteer
Le script de génération `scripts/build_paranames_gazetteer.py` et le
fichier `data/paranames/noms_famille_world.txt.gz` sont produits par un
agent dédié en cours d'exécution. Commit séparé à venir avec :
- Script de génération
- README + attribution CC BY 4.0
- Fichier gazetteer
## Tests
74 passed sur 75 (1 test happy path Q-1) + 10 xfailed. 5 tests
synthetic_review cassés (non liés à ce commit — issue séparée du
CHCB cleanup à fixer dans un commit dédié).
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
L'agent CHCB cleanup a remplacé CHCB → CHUXX dans le path SOURCE_ROOT
mais le vrai dossier sur le disque Dom s'appelle bien
'II-1 Ctrl_T2A_2025_CHCB_DocJustificatifs (1)'. Ça a cassé toutes
les recherches PDF (29/29 MISSING).
Fix : lecture du path depuis env var ANON_AUDIT30_SOURCE avec fallback
sur le path local réel. Le nom CHCB est dans le path filesystem chez
Dom, pas une référence sémantique à anonymiser.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Complète F3 (qui captait le nom APRÈS "Nom usuel :"). Dans certains
comptes-rendus type BACTERIO, l'identité patient sous forme
"NAME Prenom1 Prenom2" apparaît juste AVANT le label, sans label devant.
Cas typique BACTERIO 23232115 :
10.40
SIMONET Marie lise ← cette ligne, pas attrapée par F3
Nom usuel :
14/03/1985
OYARCABAL ← capturée par F3
Ajout de RE_EXTRACT_NAME_BEFORE_NOM_USUEL qui regarde la ligne
précédant directement le label "Nom usuel :" : si elle ressemble à
"MAJUSCULES Prenom Prenom" (NAME ≥4 chars + 1 à 3 tokens
en suite), on la capture en contexte "high" (champ DPI quasi-certain).
Validation sur exemple synthétique :
- F3 OYARCABAL : ['OYARCABAL'] ✅
- F2 SIMONET : ['SIMONET Marie lise'] ✅
Reste à valider sur retraitement audit_30 complet.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Re-applique les remplacements dans anonymizer_core_refactored_onnx.py
(commentaires reverted par un linter entre les commits) et corrige
docs/coordination/inbox/for-dom/2026-06-02_qwen_owncloud-livraison-procedure.md.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Étend .gitignore pour exclure les répertoires de travail contenant des
données patient réelles (corpus_validation/, regression_tests/baseline/,
tests/ground_truth/, tests/phase1_production_test/, data/silver_annotations/*.bio,
test_chcb_leak/, test_3ogc/, test_anonymise/, test_gui_output/).
Retire ces fichiers du suivi git (git rm --cached) sans les supprimer du
disque local. Conforme à la décision D-12.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Anonymise les références aux entités réelles (CHCB, villes basques,
Saint-Denis, Réunion, etc.) dans la documentation projet, les maquettes
HTML/Python, les notes de coordination et les audits.
Conserve docs/coordination/decisions/2026-06-02_dom_mvp-pivots-strategiques.md
(table de mapping de référence) et docs/coordination/inbox/for-claude/
intacts.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Le pipeline ne reconnaissait pas le label "Nom usuel :" — utilisé dans
certains comptes-rendus type BACTERIO. Ajout d'une regex dédiée
RE_EXTRACT_NOM_USUEL qui :
1. Trouve "Nom usuel :" en début de ligne
2. Skippe les lignes qui ne commencent pas par une lettre majuscule
(date au format DD/MM/YYYY, placeholders entre crochets, lignes vides)
3. Capture le premier token en MAJUSCULES ≥4 chars
Cas couvert : BACTERIO 23232115 contient
SIMONET Marie lise
Nom usuel :
14/03/1985
OYARCABAL
OYARCABAL est ainsi extrait avec contexte "high" (champ DPI structuré
quasi-certain) et masqué.
Test unitaire rapide validé sur l'exemple ci-dessus.
Reste à faire : F2 (SIMONET — pattern NAME+PRENOM+PRENOM sans label) — non
trivial sans label, à implémenter avec heuristique contextuelle (top du doc,
etc.). Reporté.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Petit utilitaire pour re-traiter le corpus audit_30 avec le code courant
et générer un dossier de sortie horodaté.
Usage:
python scripts/reprocess_audit30.py [--out /tmp/.../foo] [--no-ner]
Lit la liste des 29 docs depuis evaluation/baseline_scores.json, retrouve
chaque PDF source dans /home/dom/Téléchargements/.../CHCB_DocJustificatifs,
appelle process_pdf() pour chacun, sortie dans /tmp/reprocess_audit30/
(ou --out).
Permet ensuite de mesurer la qualité avec :
python scripts/evaluate_quality.py --dir <output> --compare
Validé sur audit_30 — 29 docs en ~4 min avec NER ONNX.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
## F1 — Décomposition noms composés (corrige GRAND, EJNAINI)
Quand le NER détecte un nom à trait d'union (ex "Romain BILLON-GRAND",
"Cécilia NOCENT-EJNAINI"), le regex `\bBILLON-GRAND\b` ne traverse pas le
saut de ligne du formatage Trackare en colonnes étroites ("BILLON-\nGRAND").
Solution dans `_apply_extracted_names` : pour chaque nom validé contenant un
`-` (et ≥5 chars), ajouter aussi les sous-tokens (≥4 chars) à `safe_names`.
Les sous-tokens héritent du `bypass_stopwords` du composé (cas Dr/Mme).
Validation sur audit_30 :
- GRAND : 17 → 0 occurrences ✅
- Score global : 97.9 → 98.3 (+0.4)
- leak_audit : 3 → 1
## F4 — Filet rescan résiduel élargi noms INSEE (OPT-IN)
Le rescan post-anonymisation ne couvrait que NIR/EMAIL/IBAN/TEL. Ajout
d'un check sur les tokens uppercase ≥4 chars présents dans le gazetteer
INSEE (`_INSEE_NOMS_FAMILLE`), hors stopwords médicaux, hors placeholders,
hors whitelist utilisateur.
**Désactivé par défaut** (`cfg["rescan"]["check_insee_names"] = False`).
Raison : INSEE contient beaucoup de mots français courants (VOIR, ALLO,
POLYGONE, MIDI, FAURE, …) qui produisent un sur-masquage massif. Sur le
corpus audit_30, F4 activé met 29/29 docs en quarantaine. Inutilisable
en l'état mais utile pour un futur profil "paranoid" avec filtre par
fréquence INSEE rare + dictionnaire français en exclusion.
À activer via :
cfg["rescan"]["check_insee_names"] = True
## Restant
- F2 (SIMONET) : pattern NAME+PRENOM+PRENOM → medium (à implémenter)
- F3 (OYARCABAL) : label "Nom usuel :" → high sur ligne suivante (à implémenter)
- EJNAINI : mystère — fix F1 devrait suffire mais ne suffit pas, à investiguer
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>