anonymisation

Author	SHA1	Message	Date
Domi31tls	c8ac2e356a	chore(scripts): add reprocess_audit30.py for quality regression testing Petit utilitaire pour re-traiter le corpus audit_30 avec le code courant et générer un dossier de sortie horodaté. Usage: python scripts/reprocess_audit30.py [--out /tmp/.../foo] [--no-ner] Lit la liste des 29 docs depuis evaluation/baseline_scores.json, retrouve chaque PDF source dans /home/dom/Téléchargements/.../CHCB_DocJustificatifs, appelle process_pdf() pour chacun, sortie dans /tmp/reprocess_audit30/ (ou --out). Permet ensuite de mesurer la qualité avec : python scripts/evaluate_quality.py --dir <output> --compare Validé sur audit_30 — 29 docs en ~4 min avec NER ONNX. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:26:02 +02:00
Domi31tls	af3fb53772	feat(detect): F1 décomposition noms à trait d'union + F4 filet INSEE opt-in ## F1 — Décomposition noms composés (corrige GRAND, EJNAINI) Quand le NER détecte un nom à trait d'union (ex "Romain BILLON-GRAND", "Cécilia NOCENT-EJNAINI"), le regex `\bBILLON-GRAND\b` ne traverse pas le saut de ligne du formatage Trackare en colonnes étroites ("BILLON-\nGRAND"). Solution dans `_apply_extracted_names` : pour chaque nom validé contenant un `-` (et ≥5 chars), ajouter aussi les sous-tokens (≥4 chars) à `safe_names`. Les sous-tokens héritent du `bypass_stopwords` du composé (cas Dr/Mme). Validation sur audit_30 : - GRAND : 17 → 0 occurrences ✅ - Score global : 97.9 → 98.3 (+0.4) - leak_audit : 3 → 1 ## F4 — Filet rescan résiduel élargi noms INSEE (OPT-IN) Le rescan post-anonymisation ne couvrait que NIR/EMAIL/IBAN/TEL. Ajout d'un check sur les tokens uppercase ≥4 chars présents dans le gazetteer INSEE (`_INSEE_NOMS_FAMILLE`), hors stopwords médicaux, hors placeholders, hors whitelist utilisateur. Désactivé par défaut (`cfg["rescan"]["check_insee_names"] = False`). Raison : INSEE contient beaucoup de mots français courants (VOIR, ALLO, POLYGONE, MIDI, FAURE, …) qui produisent un sur-masquage massif. Sur le corpus audit_30, F4 activé met 29/29 docs en quarantaine. Inutilisable en l'état mais utile pour un futur profil "paranoid" avec filtre par fréquence INSEE rare + dictionnaire français en exclusion. À activer via : cfg["rescan"]["check_insee_names"] = True ## Restant - F2 (SIMONET) : pattern NAME+PRENOM+PRENOM → medium (à implémenter) - F3 (OYARCABAL) : label "Nom usuel :" → high sur ligne suivante (à implémenter) - EJNAINI : mystère — fix F1 devrait suffire mais ne suffit pas, à investiguer Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:25:52 +02:00
Domi31tls	b3c935f30a	chore(archives): move 6 legacy GUI/pipeline files to archives/legacy_gui/ ## Fichiers déplacés (git mv, historique préservé) - Pseudonymisation_Gui_Models_V4.py (V4 obsolète) - pseudonymisation_pipeline_gui_v3.py (V3 obsolète) - Pseudonymisation_Pipeline_Robuste_Patch.py (oct 2025, abandonné) - pseudonymisation_pipeline_robuste.py (oct 2025, abandonné) - test_gui_error.py (test orphelin V4) - test_gui_fixed.py (test orphelin V4) ## Pourquoi Pour éviter toute confusion avec la GUI active (Pseudonymisation_Gui_V5.py) maintenant que le stash WIP 2026-04-27 (profils + masques + build windows) a été appliqué et que Dom va y faire des modifications avant le MVP. ## README ajouté archives/legacy_gui/README.md documente le contenu, les raisons d'archivage, les fichiers actifs en production, et la procédure de restauration. ## Restauration Réversible via : git mv archives/legacy_gui/<file> . Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 11:22:26 +02:00
Domi31tls	380e520013	feat(gui): apply WIP profils+masques+build-windows from stash (2026-04-27) Application du stash@{0} resté en WIP depuis le 27/04 : "On main: wip-gui-profils-masque-manuel-build-windows-2026-04-27" ## Apport - Pseudonymisation_Gui_V5.py (+1208 lignes) : profils, panneau paramètres avancés, éditeur de masques intégré, gestion whitelist/blacklist - launcher.py (+315) : splash natif PyInstaller, single-instance, téléchargement modèles - anonymisation_onefile.spec : config PyInstaller mise à jour - pdf_mask_designer.py (+114) : éditeur de masques amélioré - config_defaults.py (+23) : constantes nouvelles - tests/unit/test_config_externalization.py (+12) : tests config - .gitignore (+5) ## Pourquoi La version courante de la GUI sur la branche feature manquait : - L'éditeur de masques - Les profils - Le panneau paramètres avancés - Le splash natif au démarrage Aucun conflit avec mes 10 commits Q-1 (pas de chevauchement de fichiers). ## Validation 75 passed, 10 xfailed sur pytest tests/unit/. ## Note Le stash reste disponible dans `git stash list` jusqu'à drop explicite. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 11:09:46 +02:00
Domi31tls	5d89eaf8dc	feat(q1): G - B-1 métadonnées sortie (audit.jsonl + XMP PDF) Implémentation de la traçabilité B-1 sur les sorties d'anonymisation. ## .audit.jsonl — entrée metadata en 1ère ligne Chaque .audit.jsonl commence maintenant par une entrée : {"type": "metadata", "app_version": "0.11.0-mvp", "build_date": "...", "build_commit": "...", "build_branch": "...", "processed_at": "<iso>", "document_name": "...", "ocr_used": bool, "extracted_chars": int, "quarantine_flags": []} Permet de prouver a posteriori avec quelle config un document a été anonymisé (audit DPO / CNIL). ## XMP PDF — _apply_pseudo_xmp_metadata() Helper appelé avant doc.save() dans redact_pdf_vector et redact_pdf_raster : 1. doc.set_metadata({}) — efface TOUTES les métadonnées source (CRITIQUE : les PDF source peuvent contenir le nom patient dans /Author, /Title, /Keywords) 2. Pose nos métadonnées : creator/producer "Pseudonymisation v...", title="Document anonymise", author vide, keywords avec commit+ts 3. Garde-fou : log + overwrite si une métadonnée source survit (defense in depth) ## Constantes module-level - APP_VERSION = "0.11.0-mvp" (à incrémenter avant chaque rebuild release) - BUILD_DATE/BUILD_COMMIT/BUILD_BRANCH chargés depuis build_info.py (regénéré à chaque rebuild EXE). Fallback "dev/unknown" en dev. ## Tests 74 passed, 10 xfailed — pas de régression. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §7 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 10:59:58 +02:00
Domi31tls	c4883291d3	test(q1): add test_q1_quarantine.py — 11 tests (1 actif, 10 xfail strict) Squelette de tests TDD pour Q-1 quarantaine différentielle. État au commit : - test_happy_path_no_quarantine_created_if_no_failure ✅ actif (passe) - 10 tests en xfail strict, à dégeler au fur et à mesure : * B-3 préflight (2 tests) * Q-1 quarantine flow (3 tests) * B-1 metadata (2 tests) * B-2 logs (2 tests) * INDEX.md (1 test) Validation : 74 passed, 10 xfailed sur tests/unit/. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 10:45:00 +02:00
Domi31tls	cf78bea910	feat(q1): F+sécurité — rescan inconditionnel + hardening quarantine Suite des étapes Q-1 (F = rescan résiduel) + apport sécurité par Qwen review Codex gpt-5.5 5 rounds (verdict READY FOR MERGE). ## anonymizer_core_refactored_onnx.py - M5 Rescan résiduel inconditionnel : NIR/EMAIL/IBAN/TEL recherchés après TOUT nettoyage. Fail-closed — aucun output livré si > seuil (SEUIL_RESCAN_RESIDUEL = 0) - M3 Return structuré : process_pdf retourne maintenant {"status": "quarantined", "reason": ..., "text": "", "audit": ""} au lieu de {} sur quarantaine — callers compatibles avec outputs["text"]/"audit" - C3+M2 fallback préflight : si quarantine_mgr absent ET préflight rate, copie du PDF source dans out_dir/_preflight_failed/ avec chmod 0o700 (le document n'est jamais perdu silencieusement) - S5 guard double raster : "pdf_raster" not in outputs avant fallback - Retrait import DocLogger (mort, jamais branché) ## quarantine.py - _sanitize_doc_name() — anti path-traversal sur le nom de doc - _escape_markdown_table_cell() — anti injection markdown dans INDEX.md - _secure_quarantine_dir() — mkdir + chmod(0o700) systématique - _append_errors_log() durci : os.open(O_CREAT\|O_APPEND\|O_WRONLY\|O_NOFOLLOW, 0o600) + fcntl.flock(LOCK_EX) + os.fchmod - Retrait DocLogger (code mort identifié en review) - Retrait REASON_CODES (jamais utilisé) ## Limites connues - QuarantineManager pas encore wired dans GUI/server.py — les callers actuels marchent en fallback (quarantine_mgr=None) - finalize() + ProcessPoolExecutor : entries worker-local ne mergent pas automatiquement (à documenter) ## Validation - 73 tests unit existants : OK (non-régression) - 1 test Q-1 happy path : passe (dégelé dans commit suivant) - Codex gpt-5.5 5 rounds review : READY FOR MERGE Co-Authored-By: Qwen Code <noreply@anthropic.com> Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 10:44:52 +02:00
Domi31tls	5216a1518e	feat(q1): E - B-3 preflight text too short, quarantine direct Étape E du sprint Q-1 — B-3 pré-flight. Si extract_text_with_fallback_ocr retourne moins de SEUIL_TEXTE_MINI (=100) caractères : - log.warning systématique - Si quarantine_mgr fourni : flag preflight_text_too_short (severity=full), copie du PDF original dans quarantine_dir/ pour ré-essai manuel - Return {} (pas de sortie texte/audit/PDF pour ce doc) Couvre les cas : scan non-OCRisé, PDF vide, OCR raté. Évite le pire scénario : un opérateur qui croit que son document est anonymisé alors qu'aucune PII n'a même été détectée parce qu'il n'y avait pas de texte à traiter. Rétro-compat préservée : sans quarantine_mgr, le comportement reste "return {}" + log au lieu du silence (toujours strictement meilleur). Risque appelants : un caller qui suppose la présence des clés "text"/ "audit" dans le retour doit gérer le cas dict vide. À voir au runtime. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §8 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 21:39:47 +02:00
Domi31tls	88f268520b	feat(q1): D3a - raster fallback + text copy to quarantine on PDF failure Étape D3 du sprint Q-1 (sous-commit 3/3 pour process_pdf, finalise D). Décision B du consolidé v2 : fallback raster SYSTÉMATIQUE (option 3a validée par Dom). Si redact_pdf_vector rate : 1. Tente redact_pdf_raster avec les mêmes paramètres 2. Si raster OK : - outputs["pdf_raster"] est rempli - flag pdf_vector_fallback_to_raster (severity=partial) → signale au DPO que le PDF livré est en qualité raster (moins précis) 3. Si raster rate aussi : - flag pdf_redaction_failed avec détail des 2 erreurs 4. Décision A finalisée : si quarantine_mgr fourni, le .pseudonymise.txt est copié dans quarantine_dir/ pour autoportance opérateur (un seul dossier à consulter au lieu de naviguer entre 2) Import ajouté : shutil (stdlib). Rétro-compat préservée : si quarantine_mgr is None, le fallback raster est tenté quand même (RGPD-friendly), mais sans flag ni copie texte. Le bloc "also_make_raster_burn" qui suit reste inchangé — un appelant qui veut un raster systématique en plus du vector continue de le forcer via ce flag. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §3 Décisions A+B, §10 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:42:59 +02:00
Domi31tls	32e3bbcadd	feat(q1): D2 - try/flag PDF redaction failure in process_pdf Étape D2 du sprint Q-1 (sous-commit 2/3 pour process_pdf) : Avant : try/except Exception: pass sur redact_pdf_vector → le PDF n'était pas généré mais l'opérateur n'en savait rien. Maintenant : - log.warning systématique de l'échec (rétro-compat : même si quarantine_mgr is None, on log) - Si quarantine_mgr fourni : flag pdf_redaction_failed (severity=partial) - Le texte .pseudonymise.txt est déjà sorti avant ce bloc, donc on ne raise pas — le doc sort en quarantaine partielle propre Le fallback raster + copie texte en quarantaine pour autoportance arrivent en D3. Rétro-compat préservée : les appels actuels sans quarantine_mgr voient seulement une nouvelle ligne de log.warning au lieu du silence. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §1 cas #6, §3 Décision A Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:14:36 +02:00
Domi31tls	8e71e83872	feat(q1): D1 - import quarantine module + add quarantine_mgr param Étape D1 du sprint Q-1 (sous-commit 1/3 pour process_pdf) : - Import try/except de quarantine.py : QuarantineManager, DocLogger, SEUIL_TEXTE_MINI (=100), SEUIL_RESCAN_RESIDUEL (=0) - Si quarantine.py absent, fallback None pour rétro-compat (anciennes installs continuent avec ancien comportement silencieux) - Nouveau param dans process_pdf : quarantine_mgr (Optional, default None) - Aucun changement de comportement à ce stade — D2 branchera l'usage Tests : import OK, process_pdf signature étendue (13 params), SEUIL_TEXTE_MINI accessible depuis le module. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §10 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:12:42 +02:00
Domi31tls	7079b029a7	fix(q1): redact_pdf_vector raise on apply_redactions failure Avant : silence sur apply_redactions échec → PDF sortait sans rédaction (fuite RGPD critique en milieu santé). Maintenant : log.warning + raise → l'exception remonte à process_pdf qui la traitera en étape D (try/flag Q-PDF). Note transitoire : tant que process_pdf:4655 a encore 'except: pass', le comportement net est "PDF non généré silencieusement". C'est strictement meilleur qu'avant (pas de fuite) mais pas encore optimal (pas d'alerte opérateur). L'étape D complète la chaîne avec QuarantineManager.flag(). Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §1 cas #5 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:01:29 +02:00
Domi31tls	9bd4729048	fix(c8): remove 'grand' from stopwords (was filtering INSEE name) Le mot "grand" en stopword filtrait les noms INSEE valides comme GRAND, BILLON-GRAND lors du masquage NER. Sur le corpus audit_30 : 17 fuites du nom "GRAND" dans trackare-05012965-23060770. Fix : suppression de la ligne (pipeline INSEE exige contexte fort pour masquer, "grand" minuscule isolé ne sera pas FP). Tests à venir : tests/unit/test_c8_grand_regression.py (Qwen) Ref: docs/coordination/inbox/for-dom/2026-05-29_qwen_analyse-regression-grand.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 17:58:54 +02:00
Domi31tls	7fc97aa11f	feat(q1): add quarantine.py module — entries, manager, logger Module standalone pour la quarantaine différentielle Q-1 : - QuarantineEntry dataclass (doc_name, reason, detail, severity, flags...) - QuarantineManager (flag, has_full_quarantine, finalize, INDEX.md gen) - DocLogger (B-2 logs par doc, append-only) - Constantes SEUIL_TEXTE_MINI=100, SEUIL_RESCAN_RESIDUEL=0 Smoke test OK : 2 entrées (full + partial), INDEX.md, errors.log, reason.txt générés conformes spec §6 du consolidé v2. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 17:58:46 +02:00
Domi31tls	13730d114b	feat(admin_rules): CLI simulate_admin_rule + fix email avant force_terms - fix(detect): EMAIL masqué avant _apply_overrides pour éviter que les force_terms (ex: CHCB) ne cassent l'adresse — mh.lafitte@chcb.fr → [EMAIL] - fix(corpus): expected 007 mis à jour ([EMAIL] à la place de mh.[NOM]@[MASK].fr) - feat(tools): tools/simulate_admin_rule.py — CLI de simulation et validation isolée d'une règle admin (--text, --file, --corpus, --all) - fix(admin_rules): required_case_ids corrigés dans admin_rules.default.yml (noms des répertoires du corpus synthétique mis à jour) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 12:02:17 +02:00
Domi31tls	e0b526b2c7	fix(detect): établissements multi-ligne, CHCB en fin de phrase, ville après [ETAB] (#3 #4 #5 ) Trois fixes qui font passer 009_multi_etablissements en vert et ferment la liste des fuites identifiées par la couche 2. #3 — `Centre Hospitalier Universitaire de Bordeaux` coupé sur deux lignes Nouveau pattern `RE_ETAB_LINEBREAK` (strict) en pré-passe sur la page entière, juste avant le découpage en lignes. Match `<TYPE>\n<suite>` avec : - TYPE limité (Centre Hospitalier, Hôpital, Clinique, Polyclinique, CHU, CHRU, CHS) ; - un seul `\n` autorisé entre TYPE et suite ; - la suite démarre obligatoirement par un connecteur typique (Universitaire, de, d', du, des, la, le, les) puis UN nom propre. Évite le FP `CENTRE HOSPITALIER COTE BASQUE\nService d'anesthésie` (le `\n` n'est pas immédiat après le type, donc pas de match). #4 — `CHCB` en fin de phrase suivi de ` ;` `_kv_value_only_mask` splittait `transféré au CHCB pour la rééducation ;` sur le `;` du `SPLITTER` (`\s[:\|;\t]\s`), produisant une value vide. La key contenait CHCB mais n'était passée qu'à `_mask_critical_in_key` qui ne couvre pas les force_terms admin_rules. Fix : fallback sur `_mask_line_by_regex(line)` (qui appelle `_apply_overrides` → force_terms) si la value est vide ou la key dépasse 5 mots (heuristique narrative). #5 — `Biarritz` non masqué après `[ETABLISSEMENT] à Biarritz` `_mask_ville_gazetteers` skippait par sécurité toute ville détectée juste après un placeholder établissement précédé de `de/du/d'/à`. Le `à` était inclus pour éviter les FP, mais c'est la préposition de LOCALISATION par excellence : `Clinique Aguilera à Biarritz` perd Biarritz à tort. Restreint le skip à `de/du/d'` (qui sont des parties de nom d'établissement type `CHU de Bordeaux`). `à` reste actif. Couche 2 entièrement verte : 73 passed, 0 xfailed (avant : 72 + 1 xfailed). KNOWN_FAILURES vidé. La gate pytest est désormais le contrat de non-régression sur 10 documents complets. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 11:32:45 +02:00
Domi31tls	c7e71072e7	fix(detect): RPPS avec qualificateur (RPPS prescripteur :, RPPS de garde :…) (#1 ) Étend `RE_RPPS` pour tolérer 0 à 3 mots qualificateurs entre `RPPS` et le séparateur `:` ou `-`. Couvre les variantes observées : - RPPS prescripteur : - RPPS du médecin signataire : - RPPS de garde - - N° RPPS : Si un qualificateur est présent, le séparateur (`:` ou `-`) devient obligatoire pour éviter d'aspirer du narratif (faux positif type "Le RPPS est consulté pour vérifier 12345678901 dans la base"). La lambda `_repl_rpps` reconstruit `RPPS : [RPPS]` en sortie : le qualificateur est consommé mais perdu (pas de fuite, choix cosmétique). Cas 005_bacterio_complete passe désormais (retiré de KNOWN_FAILURES). La fuite `10101010101` derrière `RPPS prescripteur :` est masquée. Cohérent avec le cadrage section 10.1 (règle cœur générique applicable à tout établissement de santé français — pas de spécificité locale). Tests : 72 passed, 1 xfailed (avant : 71 passed, 2 xfailed). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 22:33:01 +02:00
Domi31tls	7242b5350e	fix(detect): labels structurels Nom de jeune fille / Prénom / Ville (#7 #8 #9 ) Trois nouveaux patterns cœur dans `_mask_structured_line` pour des labels génériques qui n'étaient pas couverts par le pipeline kv_value (le split key:value laissait fuir la valeur quand le label dépassait les patterns existants `RE_EXTRACT_NOM_NAISSANCE`, `RE_EXTRACT_PRENOM`, `RE_EXTRACT_VILLE_RESIDENCE`). `RE_LABEL_NOM_VARIANTES` capture : - Nom de jeune fille / de famille / de naissance(.) - Nom d'usage / Nom marital / Nom marié `RE_LABEL_PRENOM` capture : - Prénom : / Prénoms : / Prénom de naissance / utilisé(e) / usuel - Capture jusqu'à fin de ligne pour les énumérations virgulées (Prénoms : Sabine, Marie → tout masqué). `RE_LABEL_VILLE` capture : - Ville : / Ville de résidence : / Ville de naissance : - Capture jusqu'à fin de ligne (gère "Saint-Jean-de-Luz", "Saint-Denis (974)", composés multi-tokens). Effets de bord positifs : - Le bug "Saint-Jean-de-Luz → [ETABLISSEMENT]-de-Luz" est corrigé : le matcher `RE_LABEL_VILLE` masque toute la valeur en `[VILLE]` AVANT que le gazetteer FINESS Aho-Corasick ne grignote "Saint-Jean". Cas 006_trackare_soignants et 008_anesthesie_complete : alignement des expected.txt sur cette amélioration. Choix d'architecture (cf cadrage docs/cadrage-projet-anonymisation.md section 10.1) : ces labels sont des règles cœur génériques applicables à tout établissement de santé français. Légitimes en hardcodé. Les patterns layout-specific (Bordeaux suffixe, CHCB en fin de phrase, email cassé par force_term) seront branchés via admin_rules dans l'étape suivante. Cas 010_fiche_admission_minimale passe désormais (retiré de KNOWN_FAILURES). Le xfail strict aurait signalé xpass. Tests : 9 passed, 2 xfailed (avant : 8 passed, 3 xfailed sur test_synthetic_review). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 22:30:40 +02:00
Domi31tls	c24b7f6f27	fix(detect): quick wins #6 #10 #11 — caractère ñ, numéro adhérent, NIR avant TEL Trois fixes regroupés issus de la session de revue couche 2 : #6 — caractère ñ dans les patterns de noms Étend les classes de caractères pour inclure Ñ/ñ (basque, hispanique). Avant : `Beñat` → `[NOM]ñat` (fuite indirecte du suffixe). Après : `Beñat` → `[NOM]` (capture complète). Justification : usage prévu La Réunion + populations basques/ hispaniques. Si nécessaire on ajoutera Ã/ã, Õ/õ (portugais) plus tard. #10 — règle numéro adhérent mutuelle (nouveau) Ajoute placeholder [ADHERENT] et `RE_NUM_ADHERENT` : `(?:n[°o]?\s\|num[ée]ro\s+(?:d['’]\s)?)adh[ée]rent[e]?\s[:\-]?\s([A-Z0-9]{6,15})` Couvre `n°adhérent`, `n° adhérent:`, `Numéro d'adhérent :`, `Numéro d'adhérente:`, `numero adherent`, alphanumérique 6-15. Faux positif `Le patient est adhérent à la mutuelle.` non matché (préfixe N°/numéro obligatoire). Branché dans `_mask_structured_line` (pour conserver le préfixe au moment du matching, avant le split key:value) et dans `_mask_line_by_regex` (texte non-structuré). #11 — NIR avant TEL pour éviter consommation prématurée Réordonne RE_NIR avant RE_TEL dans `_mask_line_by_regex` et `selective_rescan`. Le NIR au format espacé `2 73 04 65 100 100 88` est testé d'abord (validation modulo 97). Si validé, masqué en [NIR] avant que RE_TEL ne consomme les 10 chiffres centraux. Si la clé échoue (faux positif), TEL reprend la main inchangé. Avant : `2 73 04 65 100 100 68` → `2 73 [TEL] 68`. Après : `2 73 04 65 100 100 68` → `[NIR]`. Cas synthetic_review/010 corrigé : NIR de test mis à clé valide (68 au lieu de 88), expected aligné sur [ADHERENT] et [NIR]. Le case 010 reste en xfail — fuites résiduelles ELIZONDO / Sabine / Bayonne (labels structurels Nom de jeune fille / Prénom / Ville non couverts) à fixer dans le batch suivant. Tests : 70 passed, 3 xfailed (inchangé). Pas de régression. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 21:13:27 +02:00
Domi31tls	cf36357fe5	test(review): étendre couche 2 à 10 cas et brancher gate pytest avec xfail strict Couche 2 (revue humaine sur documents complets) : ajout de 6 cas synthétiques pour atteindre la cible cadrage produit (10 cas). Cas ajoutés : - 005_bacterio_complete : layout BACTERIO N° venue rejeté avant IPP + RPPS prescripteur (pattern qualifié non détecté). - 006_trackare_soignants : export Trackare avec activités HH:MM NOM, Note IDE/médicale, Signé — médicament greedy. - 007_lettre_sortie_complete : courrier médecin→médecin, multi-villes, email institutionnel @chcb.fr (cassé par le force_term CHCB). - 008_anesthesie_complete : protocole anesthésique avec molécules BDPM, prénoms basques rares (Maddi, Pantxoa). - 009_multi_etablissements : 3 établissements distincts (CHCB, CHU Bordeaux, Clinique Aguilera), prénoms basques avec ñ (Beñat). - 010_fiche_admission_minimale : fiche administrative dense, labels variés (Nom de jeune fille :, Prénom :, Ville :, Mutuelle :). Gate pytest (tests/unit/test_synthetic_review.py) : - vérifie l'inventaire (10 cas) et fait passer chaque cas via run_case. - 3 cas marqués xfail(strict=True) pour révéler 9 fuites de PII et 2 patterns partiels que le moteur ne couvre pas aujourd'hui : * 005 — RPPS avec qualificateur (RPPS prescripteur :) * 009 — Bordeaux résiduel après [ETAB], CHCB en fin de phrase, Biarritz sur ligne Ville :, ñ qui casse Beñat → [NOM]ñat * 010 — Nom de jeune fille / Prénom / Ville sans label "Patient :", NIR au format espacé partiellement consommé en TEL, numéro de mutuelle MGEN non couvert - xfail strict force pytest à signaler un xpass quand un fix passe : rappel automatique de retirer l'entrée de KNOWN_FAILURES. Le runner tools/run_synthetic_review_corpus.py reste utilisable en direct (sortie diff/audit/summary) pour la revue humaine. Les sorties actual/ sont gitignorées (régénérées à chaque exécution). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 20:46:22 +02:00
Domi31tls	8f6c462b27	chore(deps): rendre python-doctr requis (OCR systématique) L'OCR est désormais une vraie dépendance et plus une option commentée : chaque page pauvre en texte natif doit pouvoir basculer sur docTR sans avoir à demander une installation manuelle. Cohérent avec la priorité qualité maximale sur la détection PII. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 16:17:41 +02:00
Domi31tls	c3eb50bfbb	fix(detect): masquer artefacts noms de fichiers DPI et variante BACTERIO N° venue - RE_SCAN_FILENAME_ARTIFACT : masque le suffixe numérique des noms de fichiers internes type EXT2-[IPP]-2300249096.TIF qui fuyaient en sortie. - _RE_VENUE_BEFORE_IPP : variante BACTERIO observée en production où le N° venue est rejeté plusieurs lignes après le libellé, juste avant IPP. Détection en phase 0i. - _RE_FINAL_VENUE_BEFORE_IPP : nettoyage final pour le résiduel du même layout BACTERIO si le numéro a survécu jusqu'à process_pdf. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 16:17:36 +02:00
Domi31tls	df5dabf140	Wire admin rules into ONNX anonymizer	2026-04-21 12:10:17 +02:00
Domi31tls	0fc8665ce8	Add human review protocol and admin rules contract	2026-04-21 10:59:02 +02:00
Domi31tls	b58d79f9d7	Add project framing for anonymization	2026-04-21 10:35:00 +02:00
Domi31tls	500ebc28c2	Externalize dictionaries and add anonymization review corpus	2026-04-21 10:32:57 +02:00
Domi31tls	012445755a	fix(splash): étapes de chargement dans le splash NATIF (pas le tkinter) Ma précédente modif affichait les étapes dans un SECOND splash tkinter qui s'ouvrait après le splash natif PyInstaller. L'utilisateur voulait voir les étapes dans la PREMIÈRE fenêtre (splash natif avec logo). Refonte launch_gui() : - Suppression du splash tkinter intermédiaire (pas de fenêtre qui clignote) - Le splash natif PyInstaller reste visible pendant toute la phase d'import - Handler logging installé sur le root logger pour intercepter chaque log.info() du core. Traduction en libellé lisible + pyi_splash.update_text() - Import synchrone (pas besoin de thread puisque le splash natif tourne dans son propre processus bootloader) - À la fin : splash natif fermé + lancement de la GUI principale Résultat : l'utilisateur voit une seule fenêtre (splash natif avec logo) où défilent sous le message "Démarrage…" toutes les étapes de chargement des gazetteers, modèles et index. Quand tout est prêt, le splash disparaît et la GUI apparaît. Plus de fenêtre intermédiaire. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 23:34:40 +02:00
Domi31tls	4b825976bd	feat(splash): afficher les étapes de chargement dans le splash Demande utilisateur : voir défiler les étapes (chargement des dictionnaires, des modèles...) dans le splash au démarrage — effet pro apprécié des clients. Implémentation : - Nouveau handler logging.Handler installé sur le root logger avant l'import du core. Intercepte chaque log.info() et : * Traduit le message technique en libellé "prod" lisible (table de correspondance _LOG_TRANSLATIONS : "Gazetteers INSEE prénoms" → "Chargement des prénoms français (INSEE)…", etc.) * Pousse le libellé dans le splash tkinter (detail_var, label secondaire) * Pousse aussi dans le splash natif PyInstaller via pyi_splash.update_text() - Splash tkinter agrandi 440×200 → 480×240 pour la nouvelle ligne détail - Couleur primaire magenta (#E91E63) pour cohérence avec la GUI principale - Handler retiré quand le splash se ferme (évite impact sur la GUI) L'utilisateur voit maintenant défiler : Chargement des prénoms français (INSEE)… Chargement des noms de famille (INSEE)… Chargement des communes françaises (INSEE)… Chargement des numéros FINESS… Indexation des établissements de santé… Chargement du lexique médical… Chargement de la base médicamenteuse (BDPM)… Chargement des stop-words… Chargement du vocabulaire clinique… Chargement des phrases protégées… Moteur d'anonymisation prêt… Interface prête — finalisation… Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 22:23:57 +02:00
Domi31tls	ab5a24fa68	feat(ui): refonte UI — logo aivanonym + palette magenta/pêche + onglets + v5.5 Intégration du logo "aivanonym" (gradient magenta → rose → pêche → noir) fourni par le propriétaire. Refonte visuelle complète : • APP_VERSION bump v5.4 → v5.5 • Assets (tous générés depuis assets/icons/logo.png) : - assets/icons/app.ico multi-résolution 16→256 (icône EXE Windows) - assets/icons/icon_{16,32,48,64,128,256,512}.png (fallback + taskbar) - assets/logo_header.png (260×61, intégré dans l'en-tête de la GUI) - assets/logo_splash.png (335×80, intégré dans le splash) - assets/splash.png redessiné avec logo + bandeau gradient primary→accent • Palette dérivée du logo (remplace l'ancien bleu) : - CLR_PRIMARY #E91E63 magenta logo (CTA, liens) - CLR_PRIMARY_DARK #C2185B hover / pressed - CLR_PRIMARY_LIGHT #FCE4EC fond doux (tags, cartes) - CLR_ACCENT #FFB74D pêche logo (secondaire) - CLR_ACCENT_LIGHT #FFF3E0 - CLR_TEXT/SECONDARY proches du noir/gris du logo • Pseudonymisation_Gui_V5.py : - Helper _asset(name) : résout sous sys._MEIPASS/assets en mode frozen - _apply_window_icon() : iconbitmap (.ico sur Windows) + iconphoto (PNG) - _load_image_safe() : charge PIL avec ref persistante (évite GC tkinter) - Header fixe hors onglets : logo image + baseline "100% local" - Ligne accent magenta sous le header (inspiration logo) - Onglets custom uniformes (remplace ttk.Notebook dont les tabs avaient des tailles variables selon l'état) : tous les boutons identiques, seule une bordure basse magenta signale l'onglet actif. _switch_tab() gère l'affichage du contenu et la mise à jour des styles. - Onglet 1 "Anonymisation" : workflow principal (choix, lancer, résultats) - Onglet 2 "Paramètres" : 3 listes (whitelist/blacklist/stopwords) + export/import + save. Plus de section repliable — respiration visuelle. - Boutons export/import repensés avec les couleurs de la palette • anonymisation_onefile.spec : - datas : ajout du dossier assets/ entier - EXE(icon=assets/icons/app.ico) : le .exe a maintenant le logo dans l'Explorateur Windows, la barre des tâches, le gestionnaire des tâches Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 22:04:41 +02:00
Domi31tls	6586b89b8f	feat(gui): afficher version + build date + commit dans titre et status bar Demande utilisateur : pouvoir identifier la build au premier coup d'oeil sans confondre ancien/nouveau exe lors des tests. Implémentation : - build_info.py (gitignored, fallback "dev" pour mode développement) régénéré automatiquement par scripts/rebuild_anon.ps1 avec : BUILD_DATE = "2026-04-15 18:15" BUILD_COMMIT = "234137e" BUILD_BRANCH = "main" - Pseudonymisation_Gui_V5.py : fonction _version_long() qui construit "v5.4 · 2026-04-15 18:15 · #234137e" depuis build_info (avec fallback silencieux si module absent en dev). Affichée dans : - Titre fenêtre : "Pseudonymisation de vos documents — v5.4 · ..." - Status bar en bas à droite - anonymisation_onefile.spec : build_info.py ajouté aux datas bundlées. - scripts/rebuild_anon.ps1 : STEP 4a génère build_info.py avant le PyInstaller avec git rev-parse short + branch + date courante. - .gitignore : build_info.py exclu (volatile, regénéré). En mode dev (pas frozen) : affichage "v5.4" seul (fallback). En mode frozen : affichage complet avec date/commit. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 18:40:58 +02:00
Domi31tls	234137ec50	fix(frozen): ajouter optimum aux hiddenimports PyInstaller Message cosmétique sur Windows : "Prêt (NER indisponible : optimum.onnxruntime introuvable. Installez 'optimum' et 'onnxruntime')". Apparaît dans la barre de statut de la GUI quand EDS-Pseudo échoue à charger, et que le fallback ner_manager_onnx.py essaie d'utiliser optimum. Cause : 'optimum' n'était pas dans hiddenimports → PyInstaller ne le bundlait pas → ner_manager_onnx.py mettait ORTModelForTokenClassification = None au niveau module → l'appel à load() levait RuntimeError. Le pipeline principal (CamemBERT-bio ONNX + EDS-Pseudo + GLiNER) ne passe PAS par ner_manager_onnx.py — il utilise camembert_ner_manager.py qui charge directement l'ONNX via onnxruntime sans optimum. Donc le masquage fonctionne correctement malgré ce message. Mais le message inquiète l'utilisateur. Fix : ajouter optimum + sous-modules aux hiddenimports. Impact taille attendu : ~30-80 MB selon les dépendances embarquées. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 18:37:20 +02:00
Domi31tls	003be68ca8	chore(rebuild): script PowerShell robuste — rename + verif timestamp Après deux rebuilds Windows silencieusement échoués (PermissionError WinError 5 lors du os.remove par PyInstaller), amélioration du script : 1. Renommer l'ancien Anonymisation.exe en Anonymisation.old-HHMMSS.exe AVANT le build (au lieu de laisser PyInstaller faire os.remove qui échoue si Defender tient un handle). Move-Item bypass la plupart des scanners antivirus. 2. Exclusions Defender sur dist/ et build/ (Add-MpPreference). 3. Retry Remove-Item avec délai 10s × 5 sur build/ en cas de lock. 4. Vérification timestamp APRÈS/AVANT : si l'exe final a le même LastWriteTime qu'avant le build, exit code 2 "ÉCHEC CRITIQUE — timestamp inchangé". Évite le faux OK quand le build rate mais que l'ancien exe subsiste. 5. Encodage UTF-8 BOM nécessaire pour PowerShell Windows (accents français dans les messages). Validé : rebuild v5d a passé — nouveau exe 17:47:40 (vs ancien 17:09:32), ancien renommé en Anonymisation.old-174023.exe. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 17:48:19 +02:00
Domi31tls	8e43d8d1ae	fix(detect): accepter prénoms 3 chars après Dr/Mme (Ute, Eva, Léo…) Audit manuel après batch QC : 20 occurrences de "Dr Ute" dans trackare-03020576-23175616 non masquées. Audit jsonl confirme : 0 hit pour "Ute" → pas détecté. Cause : _add_candidate (deux implémentations, lignes 1908 et 2225) filtrait len(token) < 4, empêchant la création du NameCandidate pour "Ute" (3 chars) même avec bypass_stopwords=True. La cross-validation écrasait alors all_names avec validated_names (vide pour Ute), et _apply_extracted_names ne recevait donc jamais Ute. Le commit 2f79f7c avait fait le fix uniquement dans _apply_extracted_names. Fix incomplet : le filtre amont _add_candidate rejetait avant. Correctif symétrique sur _add_candidate (×2) + _add_tokens_force_first : accepter 3 chars UNIQUEMENT si bypass=True (contexte Dr/Mme) ET majuscule initiale ET alpha pur. 2 chars reste filtré (initiales ambigues). Validation : - "DR. DURANTEAU Ute" matche bien RE_EXTRACT_DR_DEST et capture "DURANTEAU Ute" - Audit produit "Ute DURANTEAU" en bloc + "DURANTEAU" seul (41 hits total) - PDF redacted : 0 résiduel "Ute" (avant : 38) Cas protégés : - "Ute" accepté : bypass=True, U majuscule, alpha ✓ - "Les" refusé : bypass=True mais stopword (filtré ailleurs) ✓ - "JF" refusé : 2 chars, filtre longueur < 3 ✓ Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 17:21:54 +02:00
Domi31tls	f17438c2ec	ui(splash): retirer ligne statique qui chevauche le texte dynamique L'utilisateur a signalé un chevauchement visuel entre la ligne statique "Premier lancement : 30-60 secondes…" du PNG et la ligne dynamique PyInstaller (qui affiche "Chargement EDS-Pseudo…", etc.) affichée par pyi_splash.update_text(). Correctifs : - PNG redessiné avec 3 lignes statiques seulement (titre, sous-titre, "Démarrage en cours — merci de patienter…") et une ZONE LIBRE y=170-235 pour le texte dynamique. - text_pos du Splash() ajusté à (60, 195) pour centrer dans la zone libre. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 16:15:02 +02:00
Domi31tls	0a377bc001	feat(splash): splash natif PyInstaller — couvre la décompression onefile L'exe --onefile décompresse ~720 Mo dans %TEMP% au lancement. Sur Windows, cela prend 15-30 s AVANT que Python ne démarre. Pendant ce temps : - Aucune fenêtre visible (même le splash tkinter existant n'était pas encore exécuté, car il faut d'abord l'import de Python). - L'utilisateur clique parfois plusieurs fois, croit que l'app est plantée. Solution : Splash natif PyInstaller (Splash() dans le .spec). L'image est affichée PAR LE BOOTLOADER de l'exe, AVANT même le démarrage Python. Le texte sous l'image est actualisable via pyi_splash.update_text(), puis fermé via pyi_splash.close() une fois le splash tkinter visible. Changements : - assets/splash.png (480x240) : titre + sous-titre + indication de durée - anonymisation_onefile.spec : Splash() + splash/splash.binaries dans EXE() - launcher.py : import pyi_splash (fallback silencieux en mode dev), helpers _splash_update / _splash_close, fermeture du splash natif dès que le splash tkinter est à l'écran (évite superposition). - .gitignore : exception !assets/** pour versionner l'image du splash (règle générale *.png exclut tout le reste). Effet utilisateur attendu : fenêtre visible IMMÉDIATEMENT au double-clic, avec message "Démarrage en cours — merci de patienter…". Suppression du trou noir de 15-30 s. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 15:28:45 +02:00
Domi31tls	e2e2a7c8e3	fix(redact): masquer tokens collés à ponctuation ("Douar,nécessitant") Fuite détectée lors du QC batch 22 : le nom "Douar" était dans l'audit (NOM page 6) mais restait visible dans le PDF redacted_vector. Cause : dans get_text('words') le word était 'Douar,nécessitant' (virgule collée sans espace). _search_whole_word faisait un == strict après strip des ponctuations frontières, mais la virgule était au MILIEU — pas stripée. → aucun match → aucun rectangle → fuite. Fix : passe 2 dans _search_whole_word avec regex word-boundary sur le texte complet du word (pattern `(?<![A-Za-zÀ-ÿ])token(?![A-Za-zÀ-ÿ])`) + bbox proportionnelle au ratio chars matched / chars total du word. Approximation exacte sur polices monospace, précision ±pixels sur polices proportionnelles — couverte par le rectangle de redaction. Validation bout-en-bout sur trackare-BA042686-23090597 : "Douar" masqué (0 page résiduelle). QC strict retombe de 1 anomalie à 0. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 14:10:34 +02:00
Domi31tls	ea214db170	chore(yaml): nettoyer force_mask_terms — déléguer aux gazetteers nationaux Suite aux fixes #1-5 (entjur FINESS, mono-mots distinctifs, énumérations ville, RE_HOPITAL_VILLE ALL-CAPS), 11 entrées du YAML sont devenues redondantes avec les détections automatiques. Avant : 14 force_mask_terms + 4 force_mask_regex Après : 4 force_mask_terms + 1 force_mask_regex Retiré (couvert par gazetteers/regex) : - CENTRE HOSPITALIER COTE BASQUE (et variantes) → ETAB via RE_HOPITAL_VILLE - POLYCLINIQUE COTE BASQUE SUD (et variantes accentuées) → ETAB via RE_HOPITAL_VILLE - 640780417 (entjur CHCB) → FINESS_NUMBERS après fix #1 - BAYONNE, BAYONNE CEDEX → VILLE via gazetteer + énumérations + suffixe CEDEX - 64109 → CODE_POSTAL via regex (capture maintenant "64109 BAYONNE CEDEX" en bloc) - LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART → ETAB via AC FINESS (mono-mots distinctifs) - regex Centre Hospitalier / Polyclinique Côte Basque → fix #5 RE_HOPITAL_VILLE - regex [Ee]mbruns → fix #3 mono_mots_distinctifs.txt Conservé (irréductible local ou politique métier) : - CHCB (sigle local non référencé FINESS) - 'Dates du séjour :' (libellé administratif) - CONCERTATION (mention RCP — politique métier) - LABORATOIRE de BIOLOGIE MEDICALE (libellé administratif) - regex adresse 13 Avenue Interne J. LOEB (filet, AC FINESS adresses suffit) Validation sur trackare-18007562 : - Avant : 122 hits (dont 7 force_term/force_regex) - Après : 119 hits — disparition des doublons, capture améliorée (ex: "64109 BAYONNE CEDEX" capturé en bloc CODE_POSTAL au lieu de 3 hits séparés) - Couverture identique : CENTRE HOSPITALIER, COTE BASQUE, BAYONNE, 64109 toujours masqués Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 13:08:41 +02:00
Domi31tls	aa3db69a9b	fix(regex): RE_HOPITAL_VILLE accepte les ALL-CAPS (CENTRE HOSPITALIER) Le pattern type utilisait [Cc]entre\s+[Hh]ospitalier : seule la 1re lettre de chaque mot était ambidextre, la suite devait être en minuscules. "CENTRE HOSPITALIER COTE BASQUE" (tout majuscule) échappait → compensé par regex YAML force_mask_regex "Centre\s+Hospitalier\s+…". Fix : utiliser (?i:…) case-insensitive localement sur les sous-motifs "type d'établissement" et "déterminants" (de, du, la…) tout en gardant le nom propre strict (1re lettre majuscule obligatoire). Évite les FP tout en capturant les majuscules complètes. Cas validés : - "Centre Hospitalier de Bayonne" → match (inchangé) - "CENTRE HOSPITALIER COTE BASQUE" → match (nouveau) - "POLYCLINIQUE CÔTE BASQUE SUD" → match (nouveau) - "CLINIQUE SAINT-JEAN" → match (nouveau) - "examen hôpital de Bordeaux" → pas de match (exclusion préservée) Test YAML stripped : CENTRE HOSPITALIER et COTE BASQUE sont maintenant masqués par ETAB (regex/AC) au lieu de force_term. Après ce fix + Fix #4, on peut retirer les regex "Centre\s+Hospitalier…" et "Polyclinique…" du YAML. Non-régression : 122 hits sur trackare-18007562 avec YAML complet. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:40:08 +02:00
Domi31tls	83769f6e63	feat(ville): énumérations + CP nu + suffixe CEDEX dans règle contextuelle Trois trous de détection identifiés par l'audit de règles : 1. Énumération "Bordeaux et Bayonne" / "Bordeaux, Bayonne, Biarritz" : la règle contextuelle _RE_GEO_BEFORE n'acceptait que des déclencheurs directs (à, de, hôpital de, urgences de…). Dans une énumération, la 2ème ville+ échappait. Nouvelle passe 2 : propagation mutuelle entre hits AC adjacents liés par " et " ou ", ". Itération à point fixe pour chaînes longues. Garde-fou : chaque hit ≥ 5 lettres pour éviter FP sur communes courtes homonymes. 2. Code postal encore en chiffres : _RE_GEO_BEFORE n'acceptait que [CODE_POSTAL] déjà masqué. Ajout de `\b\d{5}\s+` comme déclencheur pour couvrir l'ordre dans lequel _mask_ville_gazetteers est appelée avant le masquage du code postal. 3. Suffixe CEDEX : "BAYONNE CEDEX" capturait BAYONNE seul. Extension automatique de la capture pour inclure " CEDEX" et " CEDEX N" adjacents. Cas validés : - "travaille à Bordeaux et Bayonne" → [VILLE] et [VILLE] - "Régions : Bordeaux, Bayonne, Biarritz" → 3× [VILLE] (chaîne sans ancre) - "64109 BAYONNE CEDEX" → [VILLE] (capture CEDEX inclus) - "charge", "médecin et patient" → aucun FP Non-régression : 122 hits sur trackare-18007562. Après ce fix, on peut retirer BAYONNE, BAYONNE CEDEX du YAML force_mask_terms. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:37:55 +02:00
Domi31tls	e6f3853426	feat(finess): whitelist de mono-mots distinctifs courts (EMBRUNS, etc.) Le matcher Aho-Corasick FINESS rejetait tous les mono-mots < 10 chars pour éviter les faux positifs. Conséquence : EMBRUNS (7 chars), présent dans etablissements_distinctifs.txt, était ignoré et devait être forcé en YAML (LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART, regex [Ee]mbruns). Nouveau fichier data/finess/mono_mots_distinctifs.txt contenant la whitelist curée des mono-mots courts considérés comme distinctifs. Maintenance manuelle (un mot par ligne, commentaires autorisés). Le matcher accepte un mono-mot < 10 chars uniquement s'il est dans cette whitelist. Initialisation : embruns, embrun (documents CHCB "Les Embruns"). Validation : - _FINESS_AC matche maintenant "les embruns quelque part" et "embruns seul" - Pas de régression sur trackare-18007562 (122 hits) Après ce fix + futurs, on pourra retirer LES EMBRUNS / REED LES EMBRUNS / EMBRUNS BIDART et regex [Ee]mbruns de force_mask_terms du YAML. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:35:16 +02:00
Domi31tls	fd95ae5f2a	fix(finess): inclure les entjur + supprimer code mort _FINESS_ETAB_NAMES Deux corrections exploitant mieux les gazetteers FINESS/INSEE pour réduire la dépendance au YAML force_mask_terms. 1. scripts/build_finess_gazetteers.py : ne lisait que col 1 (finess_et) du CSV. Les col 2 (entjur, entité juridique) étaient ignorés. ~48k numéros juridiques manqués, dont 640780417 (CHCB entjur) forcé en YAML à cause de cette lacune. Fix : lecture col 1 + col 2 avec déduplication. Régénération : 101 941 → 150 436 numéros (+48 495). 2. anonymizer_core_refactored_onnx.py : - _FINESS_ETAB_NAMES (122k noms) chargé mais jamais consulté après le refactoring NER-first (le matching passe par l'Aho-Corasick sur etablissements_distinctifs.txt). Suppression → -122k entrées RAM. - _INSEE_PRENOMS (lowercase) et _INSEE_PRENOMS_SET (uppercase sans accents) lisaient deux fois le même fichier prenoms_france.txt. Fusion en une seule passe disque, les deux formes dérivées en mémoire. -36k lectures. Validation : - 640780417 présent dans _FINESS_NUMBERS après rebuild - 122 hits sur trackare-18007562 (non-régression) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:33:07 +02:00
Domi31tls	8e458c16ca	fix(frozen): data/*.txt dans bundle, feedback UI pendant chargement modèles Plantages signalés sous Windows : causes identifiées et corrigées. 1. anonymisation_onefile.spec : les fichiers data/stopwords_manuels.txt, villes_blacklist.txt, dpi_labels_blacklist.txt, companion_blacklist.txt n'étaient PAS inclus dans le bundle PyInstaller (seuls les sous-dossiers data/bdpm, data/finess, data/insee l'étaient). Résultat en frozen : sets vides, qualité dégradée, plus de faux positifs. 2. anonymizer_core_refactored_onnx.py : chargements robustifiés. - Helper _load_txt_set avec try/except et logging WARNING si fichier absent - Fallbacks intégrés (_DPI_LABELS_FALLBACK, _COMPANION_BLACKLIST_FALLBACK) pour continuer à fonctionner si bundle partiel - try/except sur stopwords_manuels.txt, villes_blacklist.txt, BDPM 3. launcher.py : UX repensée pour le chargement des modèles. - SetupWindow (premier lancement) : auto-démarrage (plus de clic nécessaire), progress bar avec étapes visuelles (⏳/✓/✗ par modèle), bouton relance si échec, bouton "continuer malgré tout" pour modèles optionnels. - Splash screen ajouté dans launch_gui() : le chargement des gazetteers (INSEE 200k+ noms, FINESS 100k+ établissements) prend 15-30 s au démarrage normal. Sans feedback, l'utilisateur croyait l'app plantée. Le splash tourne pendant l'import (thread séparé, poll avec splash.after). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 08:50:42 +02:00
Domi31tls	4b5925306e	feat(gui): exposer additional_stopwords dans le panneau Paramètres avancés Troisième liste paramétrable dans la GUI v5.4, après whitelist_phrases et blacklist.force_mask_terms : "Mots à ne jamais identifier comme noms". Cible les sigles, acronymes métier locaux, ou termes ALL-CAPS récurrents qui ressemblent à des noms propres mais n'en sont pas. Différence avec la whitelist : - whitelist_phrases : terme spécifique à protéger même s'il a été masqué par regex/NER (filtre final sur l'audit + sous-mots de hits multi-mots) - additional_stopwords : empêche le terme d'être candidat-nom dès l'amont (intégré à _MEDICAL_STOP_WORDS_SET, filtre toutes les étapes) Wired dans _load_params, _save_params, _export_params, _import_params. La nouvelle clé additional_stopwords est incluse dans le JSON d'échange inter-établissements. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 10:28:11 +02:00
Domi31tls	59acf390f4	refactor: externaliser DPI labels et companion blacklist (modifiables sans recompiler) Suite de l'externalisation des règles. Trois listes étaient codées en dur dans anonymizer_core_refactored_onnx.py et impossibles à modifier par les établissements sans recompiler : - _NEVER_MASK_AS_NAME (12 entrées) — labels DPI structurels - _DPI_LABELS_BLACKLIST (14 entrées, doublon partiel du précédent) - _COMPANION_BLACKLIST (~75 entrées) — spécialités, labos pharma, mots ambigus Les deux premières fusionnées dans data/dpi_labels_blacklist.txt (11 entrées uniques, comparaison case-insensitive). La troisième dans data/companion_blacklist.txt (75 entrées, comparaison uppercase). Ajout de deux clés YAML pour enrichissement par établissement : - additional_dpi_labels (ex: "Service", "Statut") - additional_companion_blacklist (ex: spécialités locales) Les 3 niveaux cumulatifs habituels s'appliquent : code (vide) → fichiers data/ → YAML config. Chargement au démarrage avec log INFO du nombre d'entrées. Test trackare-18007562-23054899 : 122 hits, 0 régression, 0 DPI label masqué comme NOM. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 10:26:18 +02:00
Domi31tls	b5058b9c4b	fix(whitelist): GUI whitelist_phrases enfin lue et appliquée par le core Bug majeur depuis l'externalisation : la GUI v5.4 écrivait whitelist_phrases (clé racine), mais le core ne lisait que whitelist.sections_titres / noms_maj_excepts (imbriqué). _apply_whitelist post-masquage était par ailleurs désactivée (`c157205`) sans remplacement. Correctif : - load_dictionaries() lit whitelist_phrases et alimente deux sets globaux (_WHITELIST_NEVER_MASK_TOKENS, _WHITELIST_NEVER_MASK_PHRASES). Mots-outils (de, du, le...) écartés pour éviter blocages collatéraux. - _apply_extracted_names : check whitelist en pré-masquage, prime sur les force_names (ex: "DUPONT" reste visible même après "Dr DUPONT"). - process_pdf : filtrage final de l'audit avant redact_pdf_vector. Les hits multi-mots dont au moins un sous-token est whitelist sont retirés. - redact_pdf_vector : check whitelist sur les sous-mots cherchés individuellement quand le multi-mots n'est pas trouvé sur la page. Validé sur trackare-18007562-23054899 : - Avec whitelist BELLEAU : 0 hit dans audit, 31 occurrences préservées dans PDF - Sans whitelist : 0 occurrence dans PDF (non-régression OK) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 10:23:09 +02:00
Domi31tls	b23355ed23	docs: scripts de génération des fiches produit et technique DSI/RSSI/DPO Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 10:17:14 +02:00
Domi31tls	51c75558bc	fix: pyzbar FP sur tableaux — carrés noirs sur dates/heures dans les grilles pyzbar interprétait les cellules de tableaux trackare comme des codes-barres et les noircissait. Ajout d'un seuil minimum de surface (2000 px²) pour filtrer les faux positifs sur les petites zones. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 15:27:52 +02:00
Domi31tls	2f19f7c470	fix: DR. Ute (3 chars), SAINT-GERMES composé, SODIUM MACO/BAX pharma - force_names bypass le seuil 4 chars (prénoms courts après Dr/Mme : Ute, Eva) - SAINT seul = bloqué, SAINT-xxx composé = accepté comme nom - Labos pharma ajoutés aux stop-words + companion blacklist : MACO, AGUETTANT, RENAUDIN, ARROW, BIOGARAN, MYLAN, TEVA, ZENTIVA - Score : 99.8/100 (amélioration, "Sie" corrigé) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 15:17:37 +02:00
Domi31tls	c157205751	fix: labels DPI masqués (Date, Note, Type, Heure) + whitelist désactivée - Whitelist post-masquage désactivée : injectait des phrases au mauvais endroit dans le texte anonymisé (bug critique) - Labels DPI "Date", "Note", "Heure", "Type", "Saint", "Page" ajoutés à _NEVER_MASK_AS_NAME et _DPI_LABELS_BLACKLIST pour empêcher leur propagation globale comme noms de personnes - Corrige "Date d'admission → [NOM] d'admission", "Note d'évolution → [NOM] d'évolution", etc. Score évaluation : 99.3/100 (fuites pré-existantes Sie/GRAND inchangées) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 12:07:51 +02:00
Domi31tls	4d33610655	fix: cross-validation respecte bypass_stopwords pour les noms forcés (Dr/Mme) Les noms avec bypass_stopwords=True (contexte Dr/Mme confirmé) sont maintenant toujours acceptés par la cross-validation, même s'ils sont dans les stop-words médicaux (ex: Dr MASSE, Dr GRAND). Note: les fuites "Sie" (3 chars) et "GRAND" (stop-word) existaient déjà avant le refactoring NER-first (score 99.3 identique). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 11:07:59 +02:00

1 2 3

146 Commits