anonymisation

Author	SHA1	Message	Date
Domi31tls	28da29f521	Perf x56 : parallélisation raster + dédup tokens vector (30min → 32s sur 4 PDFs) - Rasterisation parallèle (ProcessPoolExecutor) : _rasterize_page worker par page - Déduplication tokens dans redact_pdf_vector : 401 hits → 28 tokens uniques par page - Séparation phase search / phase annotate pour éviter dégradation PyMuPDF - Déduplication tokens dans redact_pdf_raster (Phase 1) - Index by_page dict au lieu de filtrage linéaire par page - Ajout process_pdfs_batch() pour batch multi-PDF sans NER - Support OCR word map dans vector et raster (fallback PDFs scannés) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 23:13:20 +01:00
Domi31tls	ac62a722bb	Fix FP résiduels (Glyc, VIDER, FORTE) + rétrécissement rectangles masquage - Ajout glyc, glycosurie, vider, forte aux stop words médicaux - Shrink horizontal de 1.5px sur les rectangles raster pour éviter le débordement sur le texte adjacent (issue rectangles trop larges) - Batch 10 OGC : 21 OK, 0 PII résiduel, 0 FP Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 20:25:13 +01:00
Domi31tls	0eb27343cc	Réduction sur-masquage : stop words trackare/CRH + filtre NOM_GLOBAL court - Ajout ~30 stop words : abréviations soins trackare (SOINS, LIT, JEUN, LEVER, SURV, GGT, VVP, VERIF, NFS...) et mots narratifs CRH capturés par fusion sidebar 2-colonnes (Evolution, Explorations, Cholécystectomie, Paracétamol...) - Filtre NOM_GLOBAL renforcé : mots ALL-CAPS ≤4 chars confirmés par une seule source regex sont rejetés (probables abréviations médicales, pas des noms) - Résultat batch 10 OGC : CRH 23042753 passe de 326 à 284 hits Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 20:09:41 +01:00
Domi31tls	50b6f6b70f	Fix FP : ajout HGT (hémoglucose test) aux stop words médicaux Évite que le sigle HGT/Hgt soit masqué comme [NOM] dans les trackare (23 occurrences sur OGC 316). Validé sur batch 20 OGC (42 OK, 0 PII résiduel, 0 FP). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 19:26:11 +01:00
Domi31tls	6c82def02c	Amélioration qualité anonymisation : dico médicaments auto, noms soignants, garde trackare, validation EDS, QC audit - Track A : chargement automatique de ~4200 noms de médicaments depuis edsnlp/drugs.json dans _MEDICAL_STOP_WORDS_SET (réduit les faux positifs médicaments) - Track B : règles de validation EDS par type (NOM rejeté si contexte dosage, HOPITAL rejeté si < 5 chars ou mot structurel) - Track C : nouveau script qc_audit.py pour contrôle qualité post-anonymisation (scan FN résiduels, densité placeholders, FP/FN candidats, mode batch CSV) - Track D : garde structurelle trackare — NOM_GLOBAL <= 3 chars ignoré dans les documents trackare pour éviter de masquer des codes diagnostics - Track E : détection enrichie des noms soignants (Pr/Professeur, Prescripteur, Prescrit par, Exécuté par, Réalisé par) Testé sur 3 OGC (407, 316, 589) — 4 PDFs, 0 erreur, 0 PII résiduel, 0 faux positif détecté. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 18:58:18 +01:00
Domi31tls	a138b26738	Fix faux positifs PDF (EDS_TEL, EDS_VILLE) + détection noms Notes IDE - Skip EDS_TEL dans PDF (valeurs Pouls détectées comme N° de téléphone) - Ajout EDS_VILLE au whole-word matching (évite "GEL" dans "GELULE") - Filtre stop words étendu à EDS_HOPITAL et EDS_VILLE dans la détection NER - Détection noms soignants dans "Note IDE\nPrenom NOM" (BARGAIN, LACOTE, etc.) - Stop words : semaine, jour, matin, soir, nuit, midi Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 17:22:38 +01:00
Domi31tls	2236fdcd01	Correction majeure des faux positifs et fuites d'anonymisation PDF - Fix fuites critiques trackare : extraction multi-occurrences (re.finditer), noms soignants multi-lignes, N° épisode, tokens GLOBAL sur final_text - Fix faux positifs PDF : whole-word matching pour tokens courts (<5 chars) au lieu de les ignorer (corrige Emma/Lili non masqués + évite substring) - Skip EDS_SECU dans PDF (valeurs vitales PA/Pouls détectées comme N° sécu) - Skip EDS_DATE dans PDF (dates rendaient les tableaux illisibles) - Filtre dosages détectés comme noms (10MG, 300UI, 1 000) - Filtre EDS_NOM multi-mots contenant des stop words (SI DIARRHEES) - Regex CODE_POSTAL : exclure unités médicales (13000 UI ≠ code postal) - Stop words massivement enrichis (~100+ termes médicaux, médicaments, abréviations, en-têtes de colonnes trackare) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 17:01:32 +01:00
Domi31tls	5ed2312d93	Amélioration majeure de l'anonymisation regex : trackare, noms composés, faux positifs - Parseur trackare spécifique (détection par contenu, extraction structurée des PII) - Support format "Dr X. NOM" et "Mme X. NOM" (initiales + noms composés avec tiret) - Détection noms personnel médical (Aide, Cadre Infirmier, etc.) - Masquage RPPS, établissements (EHPAD/SSR/USLD standalone), lieux de naissance - Stop words médicaux enrichis (~270 entrées : DCI, spécialités, termes contextuels) - Détection compagnon (noms adjacents à des noms connus dans le texte brut) - Protection noms composés (JEAN-PIERRE traité comme un tout, pas JEAN + PIERRE) - Nettoyage codes postaux orphelins, téléphones fragmentés/partiels - Désactivation masquage dates génériques, AGE avec contexte obligatoire - GUI : extraction OGC depuis le nom du répertoire parent, incrustation sur les pages Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 00:25:18 +01:00
Domi31tls	8339069c83	Initial commit — Pseudonymisation de PDF v5 - GUI v5 : vue unique épurée (tkinter), 2 étapes visuelles - Core ONNX : anonymisation regex + NER optionnel - Extraction globale des noms depuis champs structurés (Patient, Rédigé par, MME/Madame, DR) - Génération simultanée PDF Image + PDF Anonymisé (structure préservée) - Build Windows via Nuitka (script batch + GitHub Actions CI) - install.sh pour setup/run Linux Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-16 15:03:37 +01:00

9 Commits