anonymisation

Author	SHA1	Message	Date
Domi31tls	080faac7ed	docs(coordination): ack T-N/T-O Qwen + trace sauvegarde/repart propre build Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-05 12:13:05 +02:00
Domi31tls	15f73f8ded	chore(beta): C-BETA-1 hygiène finale repo - gitignore graphify-out/ (artefacts knowledge graph générés) - commit messages coordination 2026-06-05 (ordre de marche Dom via Codex) - commit rapport analyse campagne GUI (synthétique, sans PII) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-05 10:56:02 +02:00
Domi31tls	68ec34574c	docs(coordination): rétrograde T-N (ONNX non bloquant) + T-O prioritaire Vérif code : modèle custom embarqué dans l'EXE au build, autres modèles téléchargés au 1er lancement. T-N → pérennité backup (priorité normale). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-05 09:46:02 +02:00
Domi31tls	f1fc28ac0b	docs(coordination): assigne T-N (modèle ONNX) + T-O (validation pack bêta) à Qwen + log cleanup Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 17:03:48 +02:00
Domi31tls	bf79e445f5	docs(coordination): protocole de coordination + décisions + inbox + log + vision - docs/coordination/ : README, decisions (no-ui, pivots MVP), inbox Claude/Qwen/Dom, archive, log, etat-projet - docs/installation/ : procédure SmartScreen - docs/reflexions/ : vision fonctionnelle avant prod Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:31:06 +02:00
Domi31tls	2d23f6c31a	build(windows): scripts build one-click + installer + doc - build_windows_oneclick.bat / build_windows_installer_oneclick.bat : wrappers - scripts/build_windows_oneclick.ps1 / build_windows_installer_only.ps1 / install_inno_setup_build_dep.ps1 - build_signing.example.ps1 : exemple protocole signing (sans secret) - docs/build-windows-oneclick.md : documentation du build Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:31:06 +02:00
Domi31tls	a02e89b7ba	test: non-régression F5 + batch paths + masquage manuel + layouts réels - test_f5_nom_compose_orphelin.py : 13 tests (regex F5, application, scénario Trackare EJNAINI) - test_gui_batch_paths.py / test_manual_masking.py : couverture des modules - test_real_world_identifier_layouts.py : non-régression layouts réels (D-15) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:30:56 +02:00
Domi31tls	91a128d1aa	feat: modules batch paths + masquage manuel + templates de masque - gui_batch_paths.py : listing documents + construction chemins de sortie batch - manual_masking.py : masquage manuel piloté par templates YAML - config/mask_templates/ : template FC19 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:30:56 +02:00
Domi31tls	4b1ab3a7ba	build(deps): ajoute pyahocorasick aux requirements (C-1 partiel) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:30:56 +02:00
Domi31tls	9f4fe1b110	chore(rgpd): untrack sorties PII pdf_natif + gitignore RGPD/caches/admin - Ajoute pdf_natif/, ano/pdf_natif/pseudonymise/, .admin, .claude/, .codex-loop/, .qwen/ au .gitignore - Untrack 48 fichiers PII (.pseudonymise.txt + .audit.jsonl) encore suivis sous pdf_natif/ - Stage 12 suppressions résiduelles sous ano/pdf_natif/pseudonymise/ - Conformité D-12 (aucune PII versionnée) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:30:42 +02:00
Domi31tls	299bbee5ff	fix(detect): F5 — masque la continuation orpheline d'un nom composé (EJNAINI) Dernière fuite de l'audit_30. Cas Trackare : un nom composé "NOCENT-EJNAINI" éclaté en colonnes devient "[NOM]-\nEJNAINI" — le 1er composant est masqué par le NER mais le 2e reste en clair (ni span NER intact ni candidat regex ne le couvre ; être dans paranames ne suffit pas sans candidat). Fix : post-passe dans process_pdf (étape 3a-bis), après selective_rescan, qui masque le token majuscule orphelin suivant immédiatement un "[NOM]-". Couvre le texte ET le raster (NOM_GLOBAL). Réfute la conclusion de Qwen ("paranames résoudra EJNAINI"). Validation audit_30 (29 docs) : score 98.3 → 98.5/100, LEAK SCORE 100/100 (0 fuite), 0 régression FP. tests/unit 85 passed. BA127127 : EJNAINI 7→0. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 12:02:53 +02:00
Domi31tls	c110de4a2e	feat(T-I): validateur paranames + filtre mots-outils FR du gazetteer Validateur scripts/validate_paranames.py exécuté sur le gazetteer réel, révèle 2 défauts → corrigés : - Mots-outils FR (avec/dans/voir/...) présents dans INSEE/paranames → risque FP au contexte 'low'. Ajout de 347 mots-outils spaCy fr (sûrs, filtrés des patronymes INSEE fréquents) à stopwords_manuels.txt. build_paranames_gazetteer.py filtre désormais aussi contre ce fichier ; gazetteer reconstruit (1 379 196 noms, mots-outils ≥3 chars retirés). - Priorité sécurité respectée : allez/polygone sont de vrais patronymes INSEE rares → laissés MASQUABLES (pas de fuite), hors stopwords. - OYARCABAL reclassé en warning (couvert par regex F3, absent de Wikidata). Garde-fous vérifiés : Petit/Boucher/Berger conservés, noms étrangers (EJNAINI/NGUYEN/...) conservés. Validateur 5/5. tests/unit 85 passed. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 11:20:21 +02:00
Domi31tls	87377a54de	test(T-G): réparer corpus synthétique post-cleanup CHCB + dégel 009 - Fixtures 001/003/004/005/010 : CHCB → CHUXX (D-12) - 009 : Biarritz désormais masqué [VILLE] (bug connu résolu par F1-F4), retrait de KNOWN_FAILURES + restauration de Biarritz dans must_not_contain - test_q1_quarantine.py : tests réels B-3/D2/D3/M5/INDEX/errors.log (ex-squelette xfail) Suite tests/unit : 85 passed, 0 failed. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 10:31:38 +02:00
Domi31tls	758a36200f	fix(detect): exclure 'appartement' du gazetteer FINESS (générique) L'entrée mono-mot 'appartement' de etablissements_distinctifs.txt matchait à tort en ETAB_FINESS (ex. « 17 boulevard Thiers, appartement 3B » → appartement masqué [ETABLISSEMENT]). Ajout à generic_name_blacklist.txt. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 10:31:38 +02:00
Domi31tls	54bb05ce64	docs(decision): D-14 architecture plateforme licence app.aivanov.fr Acte la décision Dom sur l'architecture du système licence post-MVP : ## Choix clé : plateforme client centralisée (pas de licence locale isolée) - Hébergement : infra OVH existante Dom (HDS, ISO 27001, ultra-HA) - Domaine : app.aivanov.fr (extensible à d'autres apps Dom) - Stack : FastAPI + PostgreSQL + HTMX/Jinja2 + fastapi-users + Brevo - Côté programme : RSA-PSS 2048 signé, vérif locale + phone home 30j ## Modèle métier - 1 licence = 1 poste (modèle Microsoft Office classique) - Abonnement annuel - Grace period expiration : 15 jours - Mode hors-ligne max : 30 jours - Révocation : effective au prochain check - Paiement intégré : Phase 3 (post-août) ## Pourquoi self-hosted (vs Keygen.sh SaaS) - Souveraineté : données en France (HDS obligatoire pour santé) - Économie long terme (50 clients ROI < 1 an) - Évite dépendance à un tiers américain - Customisation totale (futures intégrations Pro Santé Connect) - Dom dispose déjà de l'infra OVH HDS/ISO 27001 ## Roadmap - Phase 0 (bêta Réunion) : pas de licence, livraison directe - Phase 1.1 (juin-juillet) : module license.py côté programme (~12h) - Phase 1.2 (juin-juillet) : plateforme MVP (~50h) - Phase 2 (août) : self-service complet (~40h) - Phase 3 (post-août) : paiement intégré (~60h) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 18:36:23 +02:00
Domi31tls	b651a26cc0	feat(admin): D-13 partial — bannière "MODE ADMIN" + doc périmètre ## Bannière mode admin Ajout d'un suffixe "[⚙ MODE ADMIN]" dans le titre de la fenêtre principale quand `admin_mode.is_admin()` retourne True. Signal visuel clair pour : - Le bêta-testeur (s'il bidouille, il voit qu'il a déverrouillé quelque chose) - L'opérateur Dom (pour vérifier d'un coup d'œil que le mode admin est actif pour ses propres tests) ## Périmètre D-13 partial Documenté dans `decisions/2026-06-02_dom_d13-partial-scope.md` : \| Protection \| Statut \| \|---\|---\| \| VLM Ollama caché en non-admin \| ✅ (D-11) \| \| Titre fenêtre signalé en admin \| ✅ (ce commit) \| \| Stopwords personnalisés \| ⏭ Reporté v11.5 \| \| Profils techniques (regex_overrides, force_terms) \| ⏭ Reporté v11.5 \| \| Choix moteur NER \| ⏭ Reporté v11.5 \| \| Sauvegarde configs sensibles \| ⏭ Reporté v11.5 \| ## Pourquoi le report est OK pour MVP 1. Le risque RGPD critique (envoi externe à Ollama) est résolu par D-11 2. Les autres réglages, bien que visibles, ne déclenchent pas de fuite 3. La transposition customtkinter v6 (v11.5) refondra l'UI — patcher 2874 lignes tkinter aujourd'hui = double travail à refaire en v6 4. Le bêta-testeur n'a pas accès au mode admin (pas de fichier .admin livré, pas d'env var par défaut) ## Activation manuelle - Env : `ANON_ADMIN=1 python Pseudonymisation_Gui_V5.py` - Fichier : créer `.admin` à la racine Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 17:04:01 +02:00
Domi31tls	40c6f23ce0	feat(admin): D-11 Ollama VLM caché par défaut + module admin_mode ## Module admin_mode.py Nouveau module qui détecte si l'application tourne en mode admin : - Variable d'environnement `ANON_ADMIN=1` (ou `true`/`yes`/`on`) - OU fichier `.admin` à la racine de l'application Expose : - `is_admin()` — retourne bool, caché en module - `admin_required(feature_name)` — garde qui lève RuntimeError si pas admin Pas de mot de passe — c'est un verrou "interdit aux distraits" pour ne pas exposer au bêta-testeur des options sensibles (envoi à Ollama, conf critique). Le vrai durcissement viendra avec D-13 (mode admin complet). ## GUI — VLM Ollama caché par défaut (D-11) Dans Pseudonymisation_Gui_V5.py, après l'import classique de VlmManager, on force VlmManager = None et VlmConfig = None si le mode admin n'est pas actif. Effet : - Bêta-testeur lambda : VLM Ollama complètement invisible et inactif (économise aussi la RAM du modèle CamemBERT-bio + downloads Ollama) - Mode admin activé : comportement actuel inchangé Tests manuels : - import GUI sans env : VlmManager = None ✅ - `ANON_ADMIN=1 python -c "import Pseudonymisation_Gui_V5"` : VlmManager est <class 'vlm_manager.VlmManager'> ✅ ## Reste à faire (D-13) - Mode admin = mot de passe / fingerprint - Cacher dans l'UI les widgets liés au VLM (cases à cocher, etc.) - Cacher d'autres réglages sensibles (stopwords personnalisés, regex_overrides, force_terms) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 16:48:59 +02:00
Domi31tls	4a6f743cf8	fix(detect): add "das" to stopwords (acronyme PMSI, pas un nom) Sur le corpus FC, "DAS" était détecté comme nom de famille INSEE en contexte fort (suivi de "DR") et compté comme leak audit par le scoring. En réalité, DAS est un acronyme PMSI / T2A : - DP = Diagnostic Principal - DR = Diagnostic Relié - DAS = Diagnostic Associé Significatif Contexte typique : DR DAS Actes Rappel : un code CIM de DAS suivi d'un astérisque correspond à une CMA exclue par le DP Le pipeline pensait "Dr. DAS" = médecin nommé DAS. Ajout de "das" aux stopwords pour bloquer la détection. Risque résiduel : si un vrai patient/médecin nommé DAS existe, il ne sera pas masqué. C'est un trade-off acceptable car le PMSI utilise DAS partout dans les rapports T2A. Impact attendu : score qualité FC remonte 99.3 → ~100/100 (1 leak audit fictif éliminé). Découverte par Qwen dans son audit du 2026-06-02 14:50. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 16:47:32 +02:00
Domi31tls	099d2c32a3	feat(detect): paranames gazetteer Wikidata (1.4M noms + 502K prénoms) Intégration de paranames (bltlab/paranames v2024.05.07.0, CC BY 4.0) pour étendre la couverture du gazetteer aux noms étrangers en France absents d'INSEE (basques, maghrébins, asiatiques, africains, etc.). ## Citation Sälevä, J., & Lignos, C. (2024). ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata. In Proceedings of LREC-COLING 2024. https://aclanthology.org/2024.lrec-main.1103/ ## Fichiers - scripts/build_paranames_gazetteer.py — script reproductible - data/paranames/README.md — attribution + procédure - data/paranames/EXTRACTION.md — workflow reproductible - data/paranames/noms_famille_world.txt.gz — 1 379 609 noms (4.3 Mo gz, <30 Mo RAM) - data/paranames/prenoms_world.txt.gz — 502 302 prénoms (1.4 Mo gz) ## Volume final Réduction significative vs estimation initiale (~80 Mo) grâce à NFKD+A-Z qui fusionne toutes les translittérations Wikidata (cyrilliques, arabes, chinoises…) en latin de base. Résultat : 4.3 Mo gz total, ~30 Mo RAM. ## Spot-check \| Nom \| Présent ? \| Note \| \|---\|---\|---\| \| EJNAINI \| ✅ \| Le cas de fuite résiduelle audit_30 — devrait être fixé \| \| OYARZABAL \| ✅ \| Variante basque \| \| OYARCABAL \| ❌ \| Orthographe franco-espagnole rare, absente Wikidata \| \| NGUYEN, SCHMIDT, OBAMA, NAKAMURA, GARCIA, MARTIN, BERNARD \| ✅ \| OK \| ## Intersection INSEE - ∩ INSEE FR : 130 340 noms (59.5 % de couverture INSEE) - Gain net : 1 249 269 noms supplémentaires (focus diaspora / DOM-TOM) ## Risque FP identifié Quelques mots français courants sont présents dans paranames (origine : noms d'autres langues) : VOIR, ALLO. MIDI déjà filtré par stopwords. Impact à mesurer sur retraitement audit_30. Si nécessaire, ajout d'un filtre dictionnaire français à apporter ultérieurement. ## Source - Dépôt : https://github.com/bltlab/paranames - Mirror HF (utilisé) : https://huggingface.co/datasets/imvladikon/paranames - License : CC BY 4.0 - Origine : Wikidata (entités publiques) — pas de PII fuitée REJETÉ comme alternative : philipperemy/name-dataset (origine = leak Facebook 2021, RGPD bloquant pour produit médical). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 16:02:54 +02:00
Domi31tls	9d2fd4052d	feat(detect): paranames loader + fallback étendu cross-validation Préparation à l'intégration du gazetteer paranames (Wikidata CC BY 4.0, Sälevä & Lignos LREC-COLING 2024) qui couvrira les noms étrangers en France absents du gazetteer INSEE (basques, maghrébins, asiatiques, africains, etc.). ## Loader - `_PARANAMES_NOMS_SET` + `_PARANAMES_LOADED` (cache global) - `_load_paranames_noms()` : lazy load au 1er besoin - Fichier cible : `data/paranames/noms_famille_world.txt.gz` - Si fichier absent : retourne set vide, log INFO, comportement actuel (INSEE seul) — fallback transparent - Si erreur de lecture : log WARNING, fallback INSEE ## Intégration cross-validation Dans `_cross_validate_name_candidates`, `is_in_insee` étendu : is_in_insee = (tok_upper in insee_noms or tok_upper in insee_prenoms or tok_upper in _load_paranames_noms()) Effets : - En contexte "low" + non NER : un token comme OYARCABAL (basque) ou EJNAINI (maghrébin) sera désormais accepté si présent dans paranames. - Aucun changement pour noms FR (déjà dans INSEE). - Aucune régression : si le fichier paranames n'est pas généré, le comportement est strictement identique. ## Génération du gazetteer Le script de génération `scripts/build_paranames_gazetteer.py` et le fichier `data/paranames/noms_famille_world.txt.gz` sont produits par un agent dédié en cours d'exécution. Commit séparé à venir avec : - Script de génération - README + attribution CC BY 4.0 - Fichier gazetteer ## Tests 74 passed sur 75 (1 test happy path Q-1) + 10 xfailed. 5 tests synthetic_review cassés (non liés à ce commit — issue séparée du CHCB cleanup à fixer dans un commit dédié). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 15:48:54 +02:00
Domi31tls	f66df3f5ce	fix(scripts): reprocess_audit30 path local Dom (env override) (D-12 fixup) L'agent CHCB cleanup a remplacé CHCB → CHUXX dans le path SOURCE_ROOT mais le vrai dossier sur le disque Dom s'appelle bien 'II-1 Ctrl_T2A_2025_CHCB_DocJustificatifs (1)'. Ça a cassé toutes les recherches PDF (29/29 MISSING). Fix : lecture du path depuis env var ANON_AUDIT30_SOURCE avec fallback sur le path local réel. Le nom CHCB est dans le path filesystem chez Dom, pas une référence sémantique à anonymiser. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:47:09 +02:00
Domi31tls	96f9691395	feat(detect): F2 capture du nom précédant le label "Nom usuel :" Complète F3 (qui captait le nom APRÈS "Nom usuel :"). Dans certains comptes-rendus type BACTERIO, l'identité patient sous forme "NAME Prenom1 Prenom2" apparaît juste AVANT le label, sans label devant. Cas typique BACTERIO 23232115 : 10.40 SIMONET Marie lise ← cette ligne, pas attrapée par F3 Nom usuel : 14/03/1985 OYARCABAL ← capturée par F3 Ajout de RE_EXTRACT_NAME_BEFORE_NOM_USUEL qui regarde la ligne précédant directement le label "Nom usuel :" : si elle ressemble à "MAJUSCULES Prenom Prenom" (NAME ≥4 chars + 1 à 3 tokens en suite), on la capture en contexte "high" (champ DPI quasi-certain). Validation sur exemple synthétique : - F3 OYARCABAL : ['OYARCABAL'] ✅ - F2 SIMONET : ['SIMONET Marie lise'] ✅ Reste à valider sur retraitement audit_30 complet. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:44:59 +02:00
Domi31tls	e7380ed258	chore(rgpd): replace remaining CHCB/Bayonne refs after re-verification (D-12) Re-applique les remplacements dans anonymizer_core_refactored_onnx.py (commentaires reverted par un linter entre les commits) et corrige docs/coordination/inbox/for-dom/2026-06-02_qwen_owncloud-livraison-procedure.md. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:42:40 +02:00
Domi31tls	6299bd1309	chore(gitignore): exclude corpus_validation + tests/ground_truth + silver_annotations (PII) Étend .gitignore pour exclure les répertoires de travail contenant des données patient réelles (corpus_validation/, regression_tests/baseline/, tests/ground_truth/, tests/phase1_production_test/, data/silver_annotations/*.bio, test_chcb_leak/, test_3ogc/, test_anonymise/, test_gui_output/). Retire ces fichiers du suivi git (git rm --cached) sans les supprimer du disque local. Conforme à la décision D-12. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:41:14 +02:00
Domi31tls	c427e2a3f4	chore(rgpd): replace CHCB/Bayonne refs in docs (D-12) Anonymise les références aux entités réelles (CHCB, villes basques, Saint-Denis, Réunion, etc.) dans la documentation projet, les maquettes HTML/Python, les notes de coordination et les audits. Conserve docs/coordination/decisions/2026-06-02_dom_mvp-pivots-strategiques.md (table de mapping de référence) et docs/coordination/inbox/for-claude/ intacts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:40:20 +02:00
Domi31tls	1c44a26eb3	chore(rgpd): replace CHCB/Bayonne/Saint-Denis/Réunion refs in source + configs (D-12) Anonymise toutes les références à des entités réelles (CHCB, Bayonne, Saint-Denis, Réunion, etc.) dans le code source, les configurations YAML, les scripts/outils, et les tests unitaires. Conserve les tests synthétiques (cases) intentionnels. - profile key chcb_strict → chuxx_strict - CHCB → CHUXX, Bayonne → Chicago, Saint-Denis → Springfield, Réunion → Province Bêta, 64100/97400 → 12345, FINESS → 999999999, préfixe tél 05.59.44 → 0X.XX.XX - renomme tools/test_chcb_leak.py → tools/test_force_term_leak.py Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:39:21 +02:00
Domi31tls	a1ef2225d5	feat(detect): F3 capture du nom après label "Nom usuel :" Le pipeline ne reconnaissait pas le label "Nom usuel :" — utilisé dans certains comptes-rendus type BACTERIO. Ajout d'une regex dédiée RE_EXTRACT_NOM_USUEL qui : 1. Trouve "Nom usuel :" en début de ligne 2. Skippe les lignes qui ne commencent pas par une lettre majuscule (date au format DD/MM/YYYY, placeholders entre crochets, lignes vides) 3. Capture le premier token en MAJUSCULES ≥4 chars Cas couvert : BACTERIO 23232115 contient SIMONET Marie lise Nom usuel : 14/03/1985 OYARCABAL OYARCABAL est ainsi extrait avec contexte "high" (champ DPI structuré quasi-certain) et masqué. Test unitaire rapide validé sur l'exemple ci-dessus. Reste à faire : F2 (SIMONET — pattern NAME+PRENOM+PRENOM sans label) — non trivial sans label, à implémenter avec heuristique contextuelle (top du doc, etc.). Reporté. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:35:33 +02:00
Domi31tls	c8ac2e356a	chore(scripts): add reprocess_audit30.py for quality regression testing Petit utilitaire pour re-traiter le corpus audit_30 avec le code courant et générer un dossier de sortie horodaté. Usage: python scripts/reprocess_audit30.py [--out /tmp/.../foo] [--no-ner] Lit la liste des 29 docs depuis evaluation/baseline_scores.json, retrouve chaque PDF source dans /home/dom/Téléchargements/.../CHCB_DocJustificatifs, appelle process_pdf() pour chacun, sortie dans /tmp/reprocess_audit30/ (ou --out). Permet ensuite de mesurer la qualité avec : python scripts/evaluate_quality.py --dir <output> --compare Validé sur audit_30 — 29 docs en ~4 min avec NER ONNX. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:26:02 +02:00
Domi31tls	af3fb53772	feat(detect): F1 décomposition noms à trait d'union + F4 filet INSEE opt-in ## F1 — Décomposition noms composés (corrige GRAND, EJNAINI) Quand le NER détecte un nom à trait d'union (ex "Romain BILLON-GRAND", "Cécilia NOCENT-EJNAINI"), le regex `\bBILLON-GRAND\b` ne traverse pas le saut de ligne du formatage Trackare en colonnes étroites ("BILLON-\nGRAND"). Solution dans `_apply_extracted_names` : pour chaque nom validé contenant un `-` (et ≥5 chars), ajouter aussi les sous-tokens (≥4 chars) à `safe_names`. Les sous-tokens héritent du `bypass_stopwords` du composé (cas Dr/Mme). Validation sur audit_30 : - GRAND : 17 → 0 occurrences ✅ - Score global : 97.9 → 98.3 (+0.4) - leak_audit : 3 → 1 ## F4 — Filet rescan résiduel élargi noms INSEE (OPT-IN) Le rescan post-anonymisation ne couvrait que NIR/EMAIL/IBAN/TEL. Ajout d'un check sur les tokens uppercase ≥4 chars présents dans le gazetteer INSEE (`_INSEE_NOMS_FAMILLE`), hors stopwords médicaux, hors placeholders, hors whitelist utilisateur. Désactivé par défaut (`cfg["rescan"]["check_insee_names"] = False`). Raison : INSEE contient beaucoup de mots français courants (VOIR, ALLO, POLYGONE, MIDI, FAURE, …) qui produisent un sur-masquage massif. Sur le corpus audit_30, F4 activé met 29/29 docs en quarantaine. Inutilisable en l'état mais utile pour un futur profil "paranoid" avec filtre par fréquence INSEE rare + dictionnaire français en exclusion. À activer via : cfg["rescan"]["check_insee_names"] = True ## Restant - F2 (SIMONET) : pattern NAME+PRENOM+PRENOM → medium (à implémenter) - F3 (OYARCABAL) : label "Nom usuel :" → high sur ligne suivante (à implémenter) - EJNAINI : mystère — fix F1 devrait suffire mais ne suffit pas, à investiguer Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:25:52 +02:00
Domi31tls	b3c935f30a	chore(archives): move 6 legacy GUI/pipeline files to archives/legacy_gui/ ## Fichiers déplacés (git mv, historique préservé) - Pseudonymisation_Gui_Models_V4.py (V4 obsolète) - pseudonymisation_pipeline_gui_v3.py (V3 obsolète) - Pseudonymisation_Pipeline_Robuste_Patch.py (oct 2025, abandonné) - pseudonymisation_pipeline_robuste.py (oct 2025, abandonné) - test_gui_error.py (test orphelin V4) - test_gui_fixed.py (test orphelin V4) ## Pourquoi Pour éviter toute confusion avec la GUI active (Pseudonymisation_Gui_V5.py) maintenant que le stash WIP 2026-04-27 (profils + masques + build windows) a été appliqué et que Dom va y faire des modifications avant le MVP. ## README ajouté archives/legacy_gui/README.md documente le contenu, les raisons d'archivage, les fichiers actifs en production, et la procédure de restauration. ## Restauration Réversible via : git mv archives/legacy_gui/<file> . Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 11:22:26 +02:00
Domi31tls	380e520013	feat(gui): apply WIP profils+masques+build-windows from stash (2026-04-27) Application du stash@{0} resté en WIP depuis le 27/04 : "On main: wip-gui-profils-masque-manuel-build-windows-2026-04-27" ## Apport - Pseudonymisation_Gui_V5.py (+1208 lignes) : profils, panneau paramètres avancés, éditeur de masques intégré, gestion whitelist/blacklist - launcher.py (+315) : splash natif PyInstaller, single-instance, téléchargement modèles - anonymisation_onefile.spec : config PyInstaller mise à jour - pdf_mask_designer.py (+114) : éditeur de masques amélioré - config_defaults.py (+23) : constantes nouvelles - tests/unit/test_config_externalization.py (+12) : tests config - .gitignore (+5) ## Pourquoi La version courante de la GUI sur la branche feature manquait : - L'éditeur de masques - Les profils - Le panneau paramètres avancés - Le splash natif au démarrage Aucun conflit avec mes 10 commits Q-1 (pas de chevauchement de fichiers). ## Validation 75 passed, 10 xfailed sur pytest tests/unit/. ## Note Le stash reste disponible dans `git stash list` jusqu'à drop explicite. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 11:09:46 +02:00
Domi31tls	5d89eaf8dc	feat(q1): G - B-1 métadonnées sortie (audit.jsonl + XMP PDF) Implémentation de la traçabilité B-1 sur les sorties d'anonymisation. ## .audit.jsonl — entrée metadata en 1ère ligne Chaque .audit.jsonl commence maintenant par une entrée : {"type": "metadata", "app_version": "0.11.0-mvp", "build_date": "...", "build_commit": "...", "build_branch": "...", "processed_at": "<iso>", "document_name": "...", "ocr_used": bool, "extracted_chars": int, "quarantine_flags": []} Permet de prouver a posteriori avec quelle config un document a été anonymisé (audit DPO / CNIL). ## XMP PDF — _apply_pseudo_xmp_metadata() Helper appelé avant doc.save() dans redact_pdf_vector et redact_pdf_raster : 1. doc.set_metadata({}) — efface TOUTES les métadonnées source (CRITIQUE : les PDF source peuvent contenir le nom patient dans /Author, /Title, /Keywords) 2. Pose nos métadonnées : creator/producer "Pseudonymisation v...", title="Document anonymise", author vide, keywords avec commit+ts 3. Garde-fou : log + overwrite si une métadonnée source survit (defense in depth) ## Constantes module-level - APP_VERSION = "0.11.0-mvp" (à incrémenter avant chaque rebuild release) - BUILD_DATE/BUILD_COMMIT/BUILD_BRANCH chargés depuis build_info.py (regénéré à chaque rebuild EXE). Fallback "dev/unknown" en dev. ## Tests 74 passed, 10 xfailed — pas de régression. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §7 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 10:59:58 +02:00
Domi31tls	c4883291d3	test(q1): add test_q1_quarantine.py — 11 tests (1 actif, 10 xfail strict) Squelette de tests TDD pour Q-1 quarantaine différentielle. État au commit : - test_happy_path_no_quarantine_created_if_no_failure ✅ actif (passe) - 10 tests en xfail strict, à dégeler au fur et à mesure : * B-3 préflight (2 tests) * Q-1 quarantine flow (3 tests) * B-1 metadata (2 tests) * B-2 logs (2 tests) * INDEX.md (1 test) Validation : 74 passed, 10 xfailed sur tests/unit/. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 10:45:00 +02:00
Domi31tls	cf78bea910	feat(q1): F+sécurité — rescan inconditionnel + hardening quarantine Suite des étapes Q-1 (F = rescan résiduel) + apport sécurité par Qwen review Codex gpt-5.5 5 rounds (verdict READY FOR MERGE). ## anonymizer_core_refactored_onnx.py - M5 Rescan résiduel inconditionnel : NIR/EMAIL/IBAN/TEL recherchés après TOUT nettoyage. Fail-closed — aucun output livré si > seuil (SEUIL_RESCAN_RESIDUEL = 0) - M3 Return structuré : process_pdf retourne maintenant {"status": "quarantined", "reason": ..., "text": "", "audit": ""} au lieu de {} sur quarantaine — callers compatibles avec outputs["text"]/"audit" - C3+M2 fallback préflight : si quarantine_mgr absent ET préflight rate, copie du PDF source dans out_dir/_preflight_failed/ avec chmod 0o700 (le document n'est jamais perdu silencieusement) - S5 guard double raster : "pdf_raster" not in outputs avant fallback - Retrait import DocLogger (mort, jamais branché) ## quarantine.py - _sanitize_doc_name() — anti path-traversal sur le nom de doc - _escape_markdown_table_cell() — anti injection markdown dans INDEX.md - _secure_quarantine_dir() — mkdir + chmod(0o700) systématique - _append_errors_log() durci : os.open(O_CREAT\|O_APPEND\|O_WRONLY\|O_NOFOLLOW, 0o600) + fcntl.flock(LOCK_EX) + os.fchmod - Retrait DocLogger (code mort identifié en review) - Retrait REASON_CODES (jamais utilisé) ## Limites connues - QuarantineManager pas encore wired dans GUI/server.py — les callers actuels marchent en fallback (quarantine_mgr=None) - finalize() + ProcessPoolExecutor : entries worker-local ne mergent pas automatiquement (à documenter) ## Validation - 73 tests unit existants : OK (non-régression) - 1 test Q-1 happy path : passe (dégelé dans commit suivant) - Codex gpt-5.5 5 rounds review : READY FOR MERGE Co-Authored-By: Qwen Code <noreply@anthropic.com> Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 10:44:52 +02:00
Domi31tls	5216a1518e	feat(q1): E - B-3 preflight text too short, quarantine direct Étape E du sprint Q-1 — B-3 pré-flight. Si extract_text_with_fallback_ocr retourne moins de SEUIL_TEXTE_MINI (=100) caractères : - log.warning systématique - Si quarantine_mgr fourni : flag preflight_text_too_short (severity=full), copie du PDF original dans quarantine_dir/ pour ré-essai manuel - Return {} (pas de sortie texte/audit/PDF pour ce doc) Couvre les cas : scan non-OCRisé, PDF vide, OCR raté. Évite le pire scénario : un opérateur qui croit que son document est anonymisé alors qu'aucune PII n'a même été détectée parce qu'il n'y avait pas de texte à traiter. Rétro-compat préservée : sans quarantine_mgr, le comportement reste "return {}" + log au lieu du silence (toujours strictement meilleur). Risque appelants : un caller qui suppose la présence des clés "text"/ "audit" dans le retour doit gérer le cas dict vide. À voir au runtime. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §8 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 21:39:47 +02:00
Domi31tls	88f268520b	feat(q1): D3a - raster fallback + text copy to quarantine on PDF failure Étape D3 du sprint Q-1 (sous-commit 3/3 pour process_pdf, finalise D). Décision B du consolidé v2 : fallback raster SYSTÉMATIQUE (option 3a validée par Dom). Si redact_pdf_vector rate : 1. Tente redact_pdf_raster avec les mêmes paramètres 2. Si raster OK : - outputs["pdf_raster"] est rempli - flag pdf_vector_fallback_to_raster (severity=partial) → signale au DPO que le PDF livré est en qualité raster (moins précis) 3. Si raster rate aussi : - flag pdf_redaction_failed avec détail des 2 erreurs 4. Décision A finalisée : si quarantine_mgr fourni, le .pseudonymise.txt est copié dans quarantine_dir/ pour autoportance opérateur (un seul dossier à consulter au lieu de naviguer entre 2) Import ajouté : shutil (stdlib). Rétro-compat préservée : si quarantine_mgr is None, le fallback raster est tenté quand même (RGPD-friendly), mais sans flag ni copie texte. Le bloc "also_make_raster_burn" qui suit reste inchangé — un appelant qui veut un raster systématique en plus du vector continue de le forcer via ce flag. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §3 Décisions A+B, §10 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:42:59 +02:00
Domi31tls	32e3bbcadd	feat(q1): D2 - try/flag PDF redaction failure in process_pdf Étape D2 du sprint Q-1 (sous-commit 2/3 pour process_pdf) : Avant : try/except Exception: pass sur redact_pdf_vector → le PDF n'était pas généré mais l'opérateur n'en savait rien. Maintenant : - log.warning systématique de l'échec (rétro-compat : même si quarantine_mgr is None, on log) - Si quarantine_mgr fourni : flag pdf_redaction_failed (severity=partial) - Le texte .pseudonymise.txt est déjà sorti avant ce bloc, donc on ne raise pas — le doc sort en quarantaine partielle propre Le fallback raster + copie texte en quarantaine pour autoportance arrivent en D3. Rétro-compat préservée : les appels actuels sans quarantine_mgr voient seulement une nouvelle ligne de log.warning au lieu du silence. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §1 cas #6, §3 Décision A Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:14:36 +02:00
Domi31tls	8e71e83872	feat(q1): D1 - import quarantine module + add quarantine_mgr param Étape D1 du sprint Q-1 (sous-commit 1/3 pour process_pdf) : - Import try/except de quarantine.py : QuarantineManager, DocLogger, SEUIL_TEXTE_MINI (=100), SEUIL_RESCAN_RESIDUEL (=0) - Si quarantine.py absent, fallback None pour rétro-compat (anciennes installs continuent avec ancien comportement silencieux) - Nouveau param dans process_pdf : quarantine_mgr (Optional, default None) - Aucun changement de comportement à ce stade — D2 branchera l'usage Tests : import OK, process_pdf signature étendue (13 params), SEUIL_TEXTE_MINI accessible depuis le module. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §10 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:12:42 +02:00
Domi31tls	7079b029a7	fix(q1): redact_pdf_vector raise on apply_redactions failure Avant : silence sur apply_redactions échec → PDF sortait sans rédaction (fuite RGPD critique en milieu santé). Maintenant : log.warning + raise → l'exception remonte à process_pdf qui la traitera en étape D (try/flag Q-PDF). Note transitoire : tant que process_pdf:4655 a encore 'except: pass', le comportement net est "PDF non généré silencieusement". C'est strictement meilleur qu'avant (pas de fuite) mais pas encore optimal (pas d'alerte opérateur). L'étape D complète la chaîne avec QuarantineManager.flag(). Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md §1 cas #5 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 18:01:29 +02:00
Domi31tls	9bd4729048	fix(c8): remove 'grand' from stopwords (was filtering INSEE name) Le mot "grand" en stopword filtrait les noms INSEE valides comme GRAND, BILLON-GRAND lors du masquage NER. Sur le corpus audit_30 : 17 fuites du nom "GRAND" dans trackare-05012965-23060770. Fix : suppression de la ligne (pipeline INSEE exige contexte fort pour masquer, "grand" minuscule isolé ne sera pas FP). Tests à venir : tests/unit/test_c8_grand_regression.py (Qwen) Ref: docs/coordination/inbox/for-dom/2026-05-29_qwen_analyse-regression-grand.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 17:58:54 +02:00
Domi31tls	7fc97aa11f	feat(q1): add quarantine.py module — entries, manager, logger Module standalone pour la quarantaine différentielle Q-1 : - QuarantineEntry dataclass (doc_name, reason, detail, severity, flags...) - QuarantineManager (flag, has_full_quarantine, finalize, INDEX.md gen) - DocLogger (B-2 logs par doc, append-only) - Constantes SEUIL_TEXTE_MINI=100, SEUIL_RESCAN_RESIDUEL=0 Smoke test OK : 2 entrées (full + partial), INDEX.md, errors.log, reason.txt générés conformes spec §6 du consolidé v2. Ref: docs/coordination/inbox/for-dom/2026-05-29_consolide_pseudocode-Q1-v2.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-29 17:58:46 +02:00
Domi31tls	13730d114b	feat(admin_rules): CLI simulate_admin_rule + fix email avant force_terms - fix(detect): EMAIL masqué avant _apply_overrides pour éviter que les force_terms (ex: CHCB) ne cassent l'adresse — mh.lafitte@chcb.fr → [EMAIL] - fix(corpus): expected 007 mis à jour ([EMAIL] à la place de mh.[NOM]@[MASK].fr) - feat(tools): tools/simulate_admin_rule.py — CLI de simulation et validation isolée d'une règle admin (--text, --file, --corpus, --all) - fix(admin_rules): required_case_ids corrigés dans admin_rules.default.yml (noms des répertoires du corpus synthétique mis à jour) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 12:02:17 +02:00
Domi31tls	e0b526b2c7	fix(detect): établissements multi-ligne, CHCB en fin de phrase, ville après [ETAB] (#3 #4 #5 ) Trois fixes qui font passer 009_multi_etablissements en vert et ferment la liste des fuites identifiées par la couche 2. #3 — `Centre Hospitalier Universitaire de Bordeaux` coupé sur deux lignes Nouveau pattern `RE_ETAB_LINEBREAK` (strict) en pré-passe sur la page entière, juste avant le découpage en lignes. Match `<TYPE>\n<suite>` avec : - TYPE limité (Centre Hospitalier, Hôpital, Clinique, Polyclinique, CHU, CHRU, CHS) ; - un seul `\n` autorisé entre TYPE et suite ; - la suite démarre obligatoirement par un connecteur typique (Universitaire, de, d', du, des, la, le, les) puis UN nom propre. Évite le FP `CENTRE HOSPITALIER COTE BASQUE\nService d'anesthésie` (le `\n` n'est pas immédiat après le type, donc pas de match). #4 — `CHCB` en fin de phrase suivi de ` ;` `_kv_value_only_mask` splittait `transféré au CHCB pour la rééducation ;` sur le `;` du `SPLITTER` (`\s[:\|;\t]\s`), produisant une value vide. La key contenait CHCB mais n'était passée qu'à `_mask_critical_in_key` qui ne couvre pas les force_terms admin_rules. Fix : fallback sur `_mask_line_by_regex(line)` (qui appelle `_apply_overrides` → force_terms) si la value est vide ou la key dépasse 5 mots (heuristique narrative). #5 — `Biarritz` non masqué après `[ETABLISSEMENT] à Biarritz` `_mask_ville_gazetteers` skippait par sécurité toute ville détectée juste après un placeholder établissement précédé de `de/du/d'/à`. Le `à` était inclus pour éviter les FP, mais c'est la préposition de LOCALISATION par excellence : `Clinique Aguilera à Biarritz` perd Biarritz à tort. Restreint le skip à `de/du/d'` (qui sont des parties de nom d'établissement type `CHU de Bordeaux`). `à` reste actif. Couche 2 entièrement verte : 73 passed, 0 xfailed (avant : 72 + 1 xfailed). KNOWN_FAILURES vidé. La gate pytest est désormais le contrat de non-régression sur 10 documents complets. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 11:32:45 +02:00
Domi31tls	c7e71072e7	fix(detect): RPPS avec qualificateur (RPPS prescripteur :, RPPS de garde :…) (#1 ) Étend `RE_RPPS` pour tolérer 0 à 3 mots qualificateurs entre `RPPS` et le séparateur `:` ou `-`. Couvre les variantes observées : - RPPS prescripteur : - RPPS du médecin signataire : - RPPS de garde - - N° RPPS : Si un qualificateur est présent, le séparateur (`:` ou `-`) devient obligatoire pour éviter d'aspirer du narratif (faux positif type "Le RPPS est consulté pour vérifier 12345678901 dans la base"). La lambda `_repl_rpps` reconstruit `RPPS : [RPPS]` en sortie : le qualificateur est consommé mais perdu (pas de fuite, choix cosmétique). Cas 005_bacterio_complete passe désormais (retiré de KNOWN_FAILURES). La fuite `10101010101` derrière `RPPS prescripteur :` est masquée. Cohérent avec le cadrage section 10.1 (règle cœur générique applicable à tout établissement de santé français — pas de spécificité locale). Tests : 72 passed, 1 xfailed (avant : 71 passed, 2 xfailed). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 22:33:01 +02:00
Domi31tls	7242b5350e	fix(detect): labels structurels Nom de jeune fille / Prénom / Ville (#7 #8 #9 ) Trois nouveaux patterns cœur dans `_mask_structured_line` pour des labels génériques qui n'étaient pas couverts par le pipeline kv_value (le split key:value laissait fuir la valeur quand le label dépassait les patterns existants `RE_EXTRACT_NOM_NAISSANCE`, `RE_EXTRACT_PRENOM`, `RE_EXTRACT_VILLE_RESIDENCE`). `RE_LABEL_NOM_VARIANTES` capture : - Nom de jeune fille / de famille / de naissance(.) - Nom d'usage / Nom marital / Nom marié `RE_LABEL_PRENOM` capture : - Prénom : / Prénoms : / Prénom de naissance / utilisé(e) / usuel - Capture jusqu'à fin de ligne pour les énumérations virgulées (Prénoms : Sabine, Marie → tout masqué). `RE_LABEL_VILLE` capture : - Ville : / Ville de résidence : / Ville de naissance : - Capture jusqu'à fin de ligne (gère "Saint-Jean-de-Luz", "Saint-Denis (974)", composés multi-tokens). Effets de bord positifs : - Le bug "Saint-Jean-de-Luz → [ETABLISSEMENT]-de-Luz" est corrigé : le matcher `RE_LABEL_VILLE` masque toute la valeur en `[VILLE]` AVANT que le gazetteer FINESS Aho-Corasick ne grignote "Saint-Jean". Cas 006_trackare_soignants et 008_anesthesie_complete : alignement des expected.txt sur cette amélioration. Choix d'architecture (cf cadrage docs/cadrage-projet-anonymisation.md section 10.1) : ces labels sont des règles cœur génériques applicables à tout établissement de santé français. Légitimes en hardcodé. Les patterns layout-specific (Bordeaux suffixe, CHCB en fin de phrase, email cassé par force_term) seront branchés via admin_rules dans l'étape suivante. Cas 010_fiche_admission_minimale passe désormais (retiré de KNOWN_FAILURES). Le xfail strict aurait signalé xpass. Tests : 9 passed, 2 xfailed (avant : 8 passed, 3 xfailed sur test_synthetic_review). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 22:30:40 +02:00
Domi31tls	c24b7f6f27	fix(detect): quick wins #6 #10 #11 — caractère ñ, numéro adhérent, NIR avant TEL Trois fixes regroupés issus de la session de revue couche 2 : #6 — caractère ñ dans les patterns de noms Étend les classes de caractères pour inclure Ñ/ñ (basque, hispanique). Avant : `Beñat` → `[NOM]ñat` (fuite indirecte du suffixe). Après : `Beñat` → `[NOM]` (capture complète). Justification : usage prévu La Réunion + populations basques/ hispaniques. Si nécessaire on ajoutera Ã/ã, Õ/õ (portugais) plus tard. #10 — règle numéro adhérent mutuelle (nouveau) Ajoute placeholder [ADHERENT] et `RE_NUM_ADHERENT` : `(?:n[°o]?\s\|num[ée]ro\s+(?:d['’]\s)?)adh[ée]rent[e]?\s[:\-]?\s([A-Z0-9]{6,15})` Couvre `n°adhérent`, `n° adhérent:`, `Numéro d'adhérent :`, `Numéro d'adhérente:`, `numero adherent`, alphanumérique 6-15. Faux positif `Le patient est adhérent à la mutuelle.` non matché (préfixe N°/numéro obligatoire). Branché dans `_mask_structured_line` (pour conserver le préfixe au moment du matching, avant le split key:value) et dans `_mask_line_by_regex` (texte non-structuré). #11 — NIR avant TEL pour éviter consommation prématurée Réordonne RE_NIR avant RE_TEL dans `_mask_line_by_regex` et `selective_rescan`. Le NIR au format espacé `2 73 04 65 100 100 88` est testé d'abord (validation modulo 97). Si validé, masqué en [NIR] avant que RE_TEL ne consomme les 10 chiffres centraux. Si la clé échoue (faux positif), TEL reprend la main inchangé. Avant : `2 73 04 65 100 100 68` → `2 73 [TEL] 68`. Après : `2 73 04 65 100 100 68` → `[NIR]`. Cas synthetic_review/010 corrigé : NIR de test mis à clé valide (68 au lieu de 88), expected aligné sur [ADHERENT] et [NIR]. Le case 010 reste en xfail — fuites résiduelles ELIZONDO / Sabine / Bayonne (labels structurels Nom de jeune fille / Prénom / Ville non couverts) à fixer dans le batch suivant. Tests : 70 passed, 3 xfailed (inchangé). Pas de régression. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 21:13:27 +02:00
Domi31tls	cf36357fe5	test(review): étendre couche 2 à 10 cas et brancher gate pytest avec xfail strict Couche 2 (revue humaine sur documents complets) : ajout de 6 cas synthétiques pour atteindre la cible cadrage produit (10 cas). Cas ajoutés : - 005_bacterio_complete : layout BACTERIO N° venue rejeté avant IPP + RPPS prescripteur (pattern qualifié non détecté). - 006_trackare_soignants : export Trackare avec activités HH:MM NOM, Note IDE/médicale, Signé — médicament greedy. - 007_lettre_sortie_complete : courrier médecin→médecin, multi-villes, email institutionnel @chcb.fr (cassé par le force_term CHCB). - 008_anesthesie_complete : protocole anesthésique avec molécules BDPM, prénoms basques rares (Maddi, Pantxoa). - 009_multi_etablissements : 3 établissements distincts (CHCB, CHU Bordeaux, Clinique Aguilera), prénoms basques avec ñ (Beñat). - 010_fiche_admission_minimale : fiche administrative dense, labels variés (Nom de jeune fille :, Prénom :, Ville :, Mutuelle :). Gate pytest (tests/unit/test_synthetic_review.py) : - vérifie l'inventaire (10 cas) et fait passer chaque cas via run_case. - 3 cas marqués xfail(strict=True) pour révéler 9 fuites de PII et 2 patterns partiels que le moteur ne couvre pas aujourd'hui : * 005 — RPPS avec qualificateur (RPPS prescripteur :) * 009 — Bordeaux résiduel après [ETAB], CHCB en fin de phrase, Biarritz sur ligne Ville :, ñ qui casse Beñat → [NOM]ñat * 010 — Nom de jeune fille / Prénom / Ville sans label "Patient :", NIR au format espacé partiellement consommé en TEL, numéro de mutuelle MGEN non couvert - xfail strict force pytest à signaler un xpass quand un fix passe : rappel automatique de retirer l'entrée de KNOWN_FAILURES. Le runner tools/run_synthetic_review_corpus.py reste utilisable en direct (sortie diff/audit/summary) pour la revue humaine. Les sorties actual/ sont gitignorées (régénérées à chaque exécution). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 20:46:22 +02:00
Domi31tls	8f6c462b27	chore(deps): rendre python-doctr requis (OCR systématique) L'OCR est désormais une vraie dépendance et plus une option commentée : chaque page pauvre en texte natif doit pouvoir basculer sur docTR sans avoir à demander une installation manuelle. Cohérent avec la priorité qualité maximale sur la détection PII. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 16:17:41 +02:00
Domi31tls	c3eb50bfbb	fix(detect): masquer artefacts noms de fichiers DPI et variante BACTERIO N° venue - RE_SCAN_FILENAME_ARTIFACT : masque le suffixe numérique des noms de fichiers internes type EXT2-[IPP]-2300249096.TIF qui fuyaient en sortie. - _RE_VENUE_BEFORE_IPP : variante BACTERIO observée en production où le N° venue est rejeté plusieurs lignes après le libellé, juste avant IPP. Détection en phase 0i. - _RE_FINAL_VENUE_BEFORE_IPP : nettoyage final pour le résiduel du même layout BACTERIO si le numéro a survécu jusqu'à process_pdf. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 16:17:36 +02:00
Domi31tls	df5dabf140	Wire admin rules into ONNX anonymizer	2026-04-21 12:10:17 +02:00

1 2 3 4

173 Commits