anonymisation

Author	SHA1	Message	Date
Domi31tls	ac5c35ae2d	feat: externalisation des listes — stop-words et villes modifiables sans code Toutes les listes de règles sont maintenant modifiables sans toucher au code Python : Fichiers de données (data/) : - stopwords_manuels.txt : 1307 termes médicaux/techniques - villes_blacklist.txt : 117 communes à ne pas matcher - medicaments_stopwords.txt : 7312 médicaments BDPM (existant) - Chargés automatiquement au démarrage Config YAML (dictionnaires.yml) : - additional_stopwords : mots supplémentaires par établissement - additional_villes_blacklist : villes supplémentaires - whitelist_phrases : phrases à ne jamais anonymiser - force_mask_terms : mots à toujours masquer Chaîne de chargement : code dur → fichiers data/ → YAML config Les 3 niveaux se cumulent (union). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 07:45:42 +02:00
Domi31tls	f9fbae1f27	feat: whitelist phrases + panneau paramètres avancés dans la GUI - Nouvelle section whitelist_phrases dans dictionnaires.yml : phrases qui ne doivent jamais être anonymisées (FP récurrents) - Fonction _apply_whitelist : restaure les phrases whitelistées après anonymisation, même si des mots ont été remplacés par des placeholders - GUI : section "Paramètres avancés" repliable avec : - Zone texte whitelist (phrases à exclure) - Zone texte blacklist (mots à toujours masquer) - Bouton sauvegarder → persiste dans le YAML - Phrases initiales : "classification internationale", "prise en charge", "bas de contention", "date de naissance", "code postal", etc. Score évaluation maintenu à 100.0/100 (A+) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 15:03:08 +02:00
Domi31tls	27d19ebed7	fix: corrections retours relecteur — fuites adresses/établissements + FP médicaments Fuites corrigées : - "Le BOURG" : nouveau regex RE_LIEU_DIT_SEUL pour lieux-dits courants - "CABINET ETXEBARNONDOA" : nouveau regex RE_EXTRACT_CABINET - "REED LES EMBRUNS" : ajouté force_mask_terms + force_mask_regex case-insensitive - "au [ETABLISSEMENT] nocturne" : "long cours" exclu des phrases FINESS Faux positifs corrigés : - "OXYGENE LUNETTES" : "lunettes" ajouté aux stop-words - "POTASSIUM CHLORURE" : "chlorure" ajouté aux stop-words - Phrases FINESS génériques étendues (le bourg, le val, les pins...) Score évaluation maintenu à 100.0/100 (A+) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 18:04:08 +01:00
Domi31tls	49ff464e6e	feat: réduction FP + gazetteers adresses FINESS + batch parallèle + corrections multi-axes - Token min length relevé de 2-3 → 4 chars (élimine FP EPO, IRC, SIB...) - Stop-words enrichis : acronymes médicaux 3 lettres, termes pharma, soins infirmiers - BDPM stop-words : ~7300 noms commerciaux + DCI/substances actives - Gazetteers adresses FINESS : 63K patterns Aho-Corasick (position-preserving normalization) - Filtre contextuel anatomique pour FINESS établissements - Nouvelles regex : RE_CIVILITE_COMMA_LIST, RE_EXTRACT_NOM_UTILISE, RE_EXTRACT_PRENOM, RE_NUM_EXAMEN_PATIENT, RE_ADRESSE_LIEU_DIT, RE_CIVILITE_INITIALE, Dr X.NOM - URLs complètes (RE_URL) + détection multiline - N° venue inversé (layout-aware) + EPISODE/NDA dans _CRITICAL_PII_TYPES - HospitalFilter désactivé pour ADRESSE/TEL/VILLE/EPISODE (identifient le patient) - Batch silver export parallélisé (multiprocessing spawn, N workers) - Seuil sur-masquage relevé à 8%, server.py enrichi (source regex/ner) - Blacklist villes : COURANT, PARIS ; contexte villes étendu (UHCD, spécialités) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 09:26:56 +01:00
Domi31tls	8629a0cda0	fix(phase2): Élimination FP cross-line + word boundaries — 0 fuite, 0 FP médical - Remplace \s+ par [ \t]+ dans 11 regex d'extraction de noms (empêche capture cross-line de médicaments) - Ajoute \b word boundaries dans RE_PERSON_CONTEXT (empêche "PDR" de matcher "DR") - Ajoute filtrage _MEDICAL_STOP_WORDS_SET dans selective_rescan._rescan_person - Ajoute stop words : labos pharma (MYL/VTS/ARW/PAN/MSO), dosages (FAIBLE/FORT), anatomie imagerie (CEREBRAL/ABDOMINO-PELVIEN) - Filtre stop words dans _add_name_force et _add_tokens_force_first - Mise à jour baseline regression_tests/ avec 29 fichiers du batch audit 30 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-08 11:24:22 +01:00
Domi31tls	47a71df930	chore: Avant implémentation Phase 1 corrections qualité	2026-03-02 23:34:06 +01:00
Domi31tls	6806aee587	feat: Filtre hospitalier pour éliminer les faux positifs - Ajout config/hospital_stopwords.yml avec adresses/téléphones hôpitaux - Ajout detectors/hospital_filter.py pour filtrer les FP - Intégration dans anonymizer_core_refactored_onnx.py - Test sur document: 40 -> 32 détections (-8 FP) - Élimine: adresses hôpitaux, codes postaux CEDEX, épisodes dans noms de fichiers	2026-03-02 11:21:48 +01:00
Domi31tls	96d55584c7	Fix 62 fuites résiduelles : DATE_NAISSANCE global, CHCB, Centre Hospitalier de la Côte Basque - RE_HOPITAL_VILLE : ajout articles (la/le/l'/les) après prépositions - DATE_NAISSANCE + force_term + force_regex : propagation globale cross-pages - Config : org_gpe_keep=false, CHCB + variantes Centre Hospitalier en force_mask - Audit 130 fichiers : 0 résidu (était 36 DATE_NAISS + 26 ETAB) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-27 12:07:58 +01:00
Domi31tls	8339069c83	Initial commit — Pseudonymisation de PDF v5 - GUI v5 : vue unique épurée (tkinter), 2 étapes visuelles - Core ONNX : anonymisation regex + NER optionnel - Extraction globale des noms depuis champs structurés (Patient, Rédigé par, MME/Madame, DR) - Génération simultanée PDF Image + PDF Anonymisé (structure préservée) - Build Windows via Nuitka (script batch + GitHub Actions CI) - install.sh pour setup/run Linux Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-16 15:03:37 +01:00

9 Commits