anonymisation

Author	SHA1	Message	Date
Domi31tls	003be68ca8	chore(rebuild): script PowerShell robuste — rename + verif timestamp Après deux rebuilds Windows silencieusement échoués (PermissionError WinError 5 lors du os.remove par PyInstaller), amélioration du script : 1. Renommer l'ancien Anonymisation.exe en Anonymisation.old-HHMMSS.exe AVANT le build (au lieu de laisser PyInstaller faire os.remove qui échoue si Defender tient un handle). Move-Item bypass la plupart des scanners antivirus. 2. Exclusions Defender sur dist/ et build/ (Add-MpPreference). 3. Retry Remove-Item avec délai 10s × 5 sur build/ en cas de lock. 4. Vérification timestamp APRÈS/AVANT : si l'exe final a le même LastWriteTime qu'avant le build, exit code 2 "ÉCHEC CRITIQUE — timestamp inchangé". Évite le faux OK quand le build rate mais que l'ancien exe subsiste. 5. Encodage UTF-8 BOM nécessaire pour PowerShell Windows (accents français dans les messages). Validé : rebuild v5d a passé — nouveau exe 17:47:40 (vs ancien 17:09:32), ancien renommé en Anonymisation.old-174023.exe. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 17:48:19 +02:00
Domi31tls	fd95ae5f2a	fix(finess): inclure les entjur + supprimer code mort _FINESS_ETAB_NAMES Deux corrections exploitant mieux les gazetteers FINESS/INSEE pour réduire la dépendance au YAML force_mask_terms. 1. scripts/build_finess_gazetteers.py : ne lisait que col 1 (finess_et) du CSV. Les col 2 (entjur, entité juridique) étaient ignorés. ~48k numéros juridiques manqués, dont 640780417 (CHCB entjur) forcé en YAML à cause de cette lacune. Fix : lecture col 1 + col 2 avec déduplication. Régénération : 101 941 → 150 436 numéros (+48 495). 2. anonymizer_core_refactored_onnx.py : - _FINESS_ETAB_NAMES (122k noms) chargé mais jamais consulté après le refactoring NER-first (le matching passe par l'Aho-Corasick sur etablissements_distinctifs.txt). Suppression → -122k entrées RAM. - _INSEE_PRENOMS (lowercase) et _INSEE_PRENOMS_SET (uppercase sans accents) lisaient deux fois le même fichier prenoms_france.txt. Fusion en une seule passe disque, les deux formes dérivées en mémoire. -36k lectures. Validation : - 640780417 présent dans _FINESS_NUMBERS après rebuild - 122 hits sur trackare-18007562 (non-régression) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:33:07 +02:00
Domi31tls	b23355ed23	docs: scripts de génération des fiches produit et technique DSI/RSSI/DPO Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 10:17:14 +02:00
Domi31tls	898ad9d82d	feat: export/import paramètres par email + script merge côté serveur GUI : - Bouton "Exporter pour envoi" → fichier JSON sur le Bureau avec whitelist + blacklist + version + date, prêt à envoyer par email - Bouton "Importer" → charge un JSON et fusionne (sans doublons) Serveur : - scripts/merge_params.py : fusionne les JSON reçus des établissements dans la config maîtresse dictionnaires.yml Usage : python scripts/merge_params.py export1.json export2.json Workflow : 1. L'établissement ajuste les paramètres dans la GUI 2. Clique "Exporter" → fichier JSON 3. Envoie par email 4. On fusionne avec merge_params.py 5. On reconstruit l'exe avec la config enrichie Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 17:58:47 +02:00
Domi31tls	d957e72aff	feat: vérification ressources GPU/RAM avant exécution + évaluateur 100/100 - Nouveau module scripts/check_resources.py : état GPU/VRAM/RAM/CPU, require_resources() et wait_for_resources() avec polling - Intégré dans finetune_camembert_bio.py (8 Go VRAM + 8 Go RAM) - Intégré dans run_batch_silver_export.py (workers × 4 Go RAM) - Évaluateur : EVA et RAI ajoutés aux termes médicaux (score 100.0/100) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 10:27:33 +01:00
Domi31tls	49ff464e6e	feat: réduction FP + gazetteers adresses FINESS + batch parallèle + corrections multi-axes - Token min length relevé de 2-3 → 4 chars (élimine FP EPO, IRC, SIB...) - Stop-words enrichis : acronymes médicaux 3 lettres, termes pharma, soins infirmiers - BDPM stop-words : ~7300 noms commerciaux + DCI/substances actives - Gazetteers adresses FINESS : 63K patterns Aho-Corasick (position-preserving normalization) - Filtre contextuel anatomique pour FINESS établissements - Nouvelles regex : RE_CIVILITE_COMMA_LIST, RE_EXTRACT_NOM_UTILISE, RE_EXTRACT_PRENOM, RE_NUM_EXAMEN_PATIENT, RE_ADRESSE_LIEU_DIT, RE_CIVILITE_INITIALE, Dr X.NOM - URLs complètes (RE_URL) + détection multiline - N° venue inversé (layout-aware) + EPISODE/NDA dans _CRITICAL_PII_TYPES - HospitalFilter désactivé pour ADRESSE/TEL/VILLE/EPISODE (identifient le patient) - Batch silver export parallélisé (multiprocessing spawn, N workers) - Seuil sur-masquage relevé à 8%, server.py enrichi (source regex/ner) - Blacklist villes : COURANT, PARIS ; contexte villes étendu (UHCD, spécialités) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 09:26:56 +01:00
Domi31tls	eb14cd219d	feat(phase3): CamemBERT v3 + détection villes + initiales + texte espacé + docs réglementaires Intégration du modèle CamemBERT-bio-deid v3 (F1=0.96, Recall=0.97, 1112 docs) et corrections qualité issues de l'audit approfondi sur 29 fichiers. Détection des villes en texte libre : - Automate Aho-Corasick sur 33K communes INSEE + 11.6K villes FINESS - Stratégie contextuelle : exige un contexte géographique (à, de, vers, habite, urgences de, etc.) sauf pour les villes composées (Saint-Palais) - Blacklist de ~80 communes homonymes de mots courants (charge, signes, plan...) - Normalisation SAINT↔ST pour les variantes orthographiques - De 18 fuites de villes à 2 cas résiduels atypiques Masquage des initiales de prénom : - Post-traitement regex : "Dr T. [NOM]" → "Dr [NOM] [NOM]" - Références initiales : "Ref : JF/VA" → "Ref : [NOM]/[NOM]" Détection texte espacé d'en-tête : - "C E N T R E H O S P I T A L I E R" → [ETABLISSEMENT] Autres corrections : - Fix regex RE_EXTRACT_MME_MR (Mr?.? → Mr.?, \s+ → [ \t]+, * → {0,4}) - Stop words médicaux : lever, coucher, services hospitaliers (viscérale, etc.) - CamemBERT NER manager : version tracking, propriété version, log F1/Recall - Script finetune : export ONNX automatique + mise à jour VERSION.json - Évaluateur qualité : exclusion stop words médicaux des alertes INSEE Documentation : - Spécifications techniques CamemBERT-bio-deid v3 - Conformité RGPD + AI Act (caviardage PDF raster) - AIPD (Analyse d'Impact Protection des Données) Score qualité : 97.0/100 (Grade A), Leak score 100/100 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 12:16:13 +01:00
Domi31tls	c9572c383a	feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données - Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85) - Data augmentation : substitution noms INSEE (219K patronymes, x3 copies) - Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux) - Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL) - Export silver avec support multi-répertoires (--extra-dir) - Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO - Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K) - Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-10 02:06:08 +01:00
Domi31tls	7a2af5c905	feat(phase2): Détection établissements par Aho-Corasick sur 108K noms FINESS - Nouveau script build_finess_gazetteers.py : extraction noms distinctifs, villes, numéros depuis CSV open data - Automate Aho-Corasick (pyahocorasick) pour matching multi-pattern en ~1.7ms/page - 108K patterns indexés (noms composés >= 8 chars, mots uniques >= 10 chars) - Blacklist mots génériques (clinique, pharmacie, etc.) et stop words médicaux - Normalisation position-preserving (sans accents, même longueur) - Construction lazy de l'AC (après chargement des stop words) - Intégration dans _mask_line_by_regex et selective_rescan - Nouveau gazetteer villes_finess.txt (11,660 villes) - Résultats : "Girandières" → masqué, "Côte Basque" → masqué, 0 FP sur termes médicaux courants Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-09 22:56:43 +01:00
Domi31tls	26b210607c	feat(phase2): Gazetteers FINESS 102K établissements + fine-tuning CamemBERT-bio F1=89% Gazetteers FINESS (data.gouv.fr open data): - 102K numéros FINESS → détection par lookup exact dans _mask_admin_label + selective_rescan - 122K noms d'établissements, 113K téléphones, 76K adresses (disponibles) - Un nombre 9 chiffres matchant un vrai FINESS est masqué même sans label "FINESS" Fine-tuning CamemBERT-bio (almanach/camembert-bio-base): - Export silver annotations réécrit : alignement original↔pseudonymisé (difflib) → 6862 entités B- (vs 3344 avec l'ancien audit-only) sur 222K tokens - Sliding windows (200 tokens, stride 100) pour documents longs - WeightedNERTrainer avec class weights cappés (max 10x) + label smoothing - Résultat: Precision=88.1%, Recall=89.8%, F1=88.9% (20 epochs, lr=1e-5) - Modèle sauvegardé dans models/camembert-bio-deid/best (non commité) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-09 13:27:37 +01:00
Domi31tls	26ac02b0cb	feat(phase2): Multi-signal NER — BDPM gazetteers, confiance EDS, safe patterns, GLiNER Chantier 1: Intégration BDPM (5737 médicaments officiels) dans medication whitelist Chantier 2: Safe patterns contextuels (dosages mg/mL/cpr, formes pharma, même ligne) Chantier 3: Scores de confiance NER réels (edsnlp 0.20 ner_confidence_score) Chantier 4: GLiNER zero-shot (urchade/gliner_multi_pii-v1) en vote croisé Chantier 5: Scripts export silver annotations + fine-tuning CamemBERT-bio 0 fuite, 0 régression, -18 FP supplémentaires éliminés. Sécurité: GLiNER ne peut rejeter que si confiance NER < 0.70. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-09 12:01:46 +01:00

11 Commits