Commit Graph

  • aba8e13639 feat(phase2): Intégration CamemBERT-bio ONNX comme 3e signal NER (vote triple) Domi31tls 2026-03-09 13:42:56 +01:00
  • 2abb9afede feat(phase2): Gazetteers FINESS 102K établissements + fine-tuning CamemBERT-bio F1=89% Domi31tls 2026-03-09 13:27:37 +01:00
  • 192c4c034e feat(phase2): Gazetteers INSEE (36K prénoms + 34K communes) + silver annotations Domi31tls 2026-03-09 12:03:17 +01:00
  • 3590099b41 feat(phase2): Multi-signal NER — BDPM gazetteers, confiance EDS, safe patterns, GLiNER Domi31tls 2026-03-09 12:01:46 +01:00
  • bcd8013fa6 fix(phase2): Ajout stop words cliniques — 117 FP en moins (RESPI, NEPHRO, URINE, etc.) Domi31tls 2026-03-09 09:58:58 +01:00
  • 5972a09f9f fix(phase2): Élimination FP cross-line + word boundaries — 0 fuite, 0 FP médical Domi31tls 2026-03-08 11:24:22 +01:00
  • 58cb209e26 feat(phase2): Extraction layout-aware multi-colonnes — 322 fuites → 0, -103 FP Domi31tls 2026-03-06 18:19:08 +01:00
  • a356b63d68 fix: Corrections qualité Phase 1 — 261 fuites en moins, 0 régression Domi31tls 2026-03-06 17:32:28 +01:00
  • 2d6f8c0309 chore: add .gitignore, remove PDFs/models/zips from history Domi31tls 2026-03-05 00:37:19 +01:00
  • f0730b8211 Fix fuites soignants + lieux de naissance : 8/8 noms masqués, 0 lieu en clair Domi31tls 2026-03-04 17:10:18 +01:00
  • a88660f806 docs(phase1): Résumé exécutif Phase 1 pour l'utilisateur Domi31tls 2026-03-02 23:37:42 +01:00
  • 87779982ea docs(phase1): Documentation complète des résultats Phase 1 Domi31tls 2026-03-02 23:37:19 +01:00
  • 5e454d122b feat(phase1): Implémentation corrections qualité Phase 1 Domi31tls 2026-03-02 23:36:29 +01:00
  • 40c34be471 chore: Avant implémentation Phase 1 corrections qualité Domi31tls 2026-03-02 23:34:06 +01:00
  • 00b9a19112 analysis: Analyse complète des causes racines de la régression de qualité Domi31tls 2026-03-02 23:13:30 +01:00
  • 1af28f8659 docs: Analyse complète de la régression de qualité - Causes racines identifiées Domi31tls 2026-03-02 23:09:25 +01:00
  • 9079d17195 analysis: Analyse réelle de la qualité - Identification des faux positifs médicaux Domi31tls 2026-03-02 22:41:14 +01:00
  • 21a9322815 docs: Statut final du projet - Tous objectifs atteints Domi31tls 2026-03-02 22:30:00 +01:00
  • ea23a184e2 docs: Documentation du bouton Arrêter déjà implémenté dans le GUI Domi31tls 2026-03-02 22:05:33 +01:00
  • 5c3b3e1620 feat(gui): Ajout bouton Arrêter pour stopper le traitement en cours Domi31tls 2026-03-02 22:04:00 +01:00
  • 38bab51bc0 test: Vérifier que le GUI fonctionne après correction Domi31tls 2026-03-02 21:54:55 +01:00
  • 1dc3d8a761 fix(gui): Retirer paramètre use_vlm non supporté par process_pdf Domi31tls 2026-03-02 21:53:54 +01:00
  • 9d0232de22 docs: Analyse finale validation corpus - système fonctionnel Domi31tls 2026-03-02 21:38:30 +01:00
  • 5dbedad8f7 gui: Ajout indicateurs qualité (fuites, performances) Domi31tls 2026-03-02 21:34:18 +01:00
  • cfcf2eed4b fix: Corriger bug _DOCTR_AVAILABLE non défini Domi31tls 2026-03-02 21:19:48 +01:00
  • d4adf010d2 feat: Validation corpus complet - 100% qualité confirmée Domi31tls 2026-03-02 19:55:48 +01:00
  • 1a9736cfa0 feat: Optimize EPISODE false positives - filter trackare filename episodes Domi31tls 2026-03-02 15:33:29 +01:00
  • f1a22b58eb test: Validation correction fuites - Rappel 100%, Précision 88.27% maintenue Domi31tls 2026-03-02 15:16:30 +01:00
  • fbdf226039 fix: Propagation globale sélective v2 - Normalisation dates + Multi-pass Domi31tls 2026-03-02 12:22:58 +01:00
  • add595d103 docs: Résumé complet Phase 2 optimisations Domi31tls 2026-03-02 12:00:06 +01:00
  • b360447704 fix: Propagation globale sélective pour corriger fuites dates CRO Domi31tls 2026-03-02 11:59:32 +01:00
  • 368e907ca3 feat: Filtre hospitalier pour éliminer les faux positifs Domi31tls 2026-03-02 11:21:48 +01:00
  • 5ec629bcc3 feat: Désactivation NOM_EXTRACTED et *_GLOBAL - Précision 18.97% → 88.27% (+69.3pts) Domi31tls 2026-03-02 11:15:43 +01:00
  • b4556dfb20 feat: Analyse propagation globale - 100% des *_GLOBAL et NOM_EXTRACTED sont des FP Domi31tls 2026-03-02 11:01:14 +01:00
  • fb56184d24 feat: Analyse baseline - 77.7% FP dus à NOM_EXTRACTED, 19.2% à propagation globale Domi31tls 2026-03-02 10:59:10 +01:00
  • 3bcadb73ef feat: Annotation automatique et évaluation qualité baseline - Rappel 100%, Précision 18.97% Domi31tls 2026-03-02 10:51:38 +01:00
  • 51180089a4 docs: Rapport détaillé des résultats baseline Domi31tls 2026-03-02 10:42:53 +01:00
  • ca57262c6f feat: Benchmark de performance baseline - 2.62s/doc moyen, 92% dans objectif Domi31tls 2026-03-02 10:42:15 +01:00
  • 2497dbbb1f demo: Test d'anonymisation sur document réel Domi31tls 2026-03-02 10:19:55 +01:00
  • b6ddce3af1 demo: Ajout script de démonstration et correction tests Domi31tls 2026-03-02 10:14:56 +01:00
  • 6d01b7c452 feat: Phase 1 - Système d'évaluation de la qualité Domi31tls 2026-03-02 10:07:41 +01:00
  • 0067738df6 spec: Architecture complète avec VLM (5 couches détection) Domi31tls 2026-03-02 09:52:49 +01:00
  • cb84698c2d Stop words +170 : détection automatique FP via dictionnaire français (audit_fp_detector.py) Domi31tls 2026-02-28 10:04:33 +01:00
  • 84be2a5176 Stop words : +15 FP supplémentaires (apyréxie, mode, retraitée, villes, ass, cat) Domi31tls 2026-02-27 16:46:04 +01:00
  • 7991436caa Fix faux positifs NOM : +50 stop words médicaux, blacklist companion, limite RE_EXTRACT_STAFF_ROLE Domi31tls 2026-02-27 14:28:29 +01:00
  • 96d55584c7 Fix 62 fuites résiduelles : DATE_NAISSANCE global, CHCB, Centre Hospitalier de la Côte Basque Domi31tls 2026-02-27 12:07:58 +01:00
  • 0684b77d68 Qualité anonymisation : 10 améliorations (audit 59 OGC, +98% établissements, 0 FP médical) Domi31tls 2026-02-27 10:43:30 +01:00
  • 86274b3b2a Sécurité VLM : format JSON forcé, modèle local uniquement, fix logging critique Domi31tls 2026-02-27 02:38:30 +01:00
  • 125ac82f4f VLM v2 : prompt élargi (19 catégories PII), modèle 235b cloud, masquage total pages manuscrites Domi31tls 2026-02-27 02:08:02 +01:00
  • f206d160f4 Intégration VLM (Ollama) pour anonymisation des PDFs scannés Domi31tls 2026-02-27 01:10:16 +01:00
  • 4583283bd4 Fix 2 fuites PII : prénom REGINA + nom composé NOCENT-EJNAINI cross-line Domi31tls 2026-02-26 23:41:40 +01:00
  • 28da29f521 Perf x56 : parallélisation raster + dédup tokens vector (30min → 32s sur 4 PDFs) Domi31tls 2026-02-26 23:13:20 +01:00
  • ac62a722bb Fix FP résiduels (Glyc, VIDER, FORTE) + rétrécissement rectangles masquage Domi31tls 2026-02-26 20:25:13 +01:00
  • 0eb27343cc Réduction sur-masquage : stop words trackare/CRH + filtre NOM_GLOBAL court Domi31tls 2026-02-26 20:09:41 +01:00
  • 50b6f6b70f Fix FP : ajout HGT (hémoglucose test) aux stop words médicaux Domi31tls 2026-02-26 19:26:11 +01:00
  • 6c82def02c Amélioration qualité anonymisation : dico médicaments auto, noms soignants, garde trackare, validation EDS, QC audit Domi31tls 2026-02-26 18:58:18 +01:00
  • a138b26738 Fix faux positifs PDF (EDS_TEL, EDS_VILLE) + détection noms Notes IDE Domi31tls 2026-02-26 17:22:38 +01:00
  • 2236fdcd01 Correction majeure des faux positifs et fuites d'anonymisation PDF Domi31tls 2026-02-26 17:01:32 +01:00
  • 5ed2312d93 Amélioration majeure de l'anonymisation regex : trackare, noms composés, faux positifs Domi31tls 2026-02-26 00:25:18 +01:00
  • db1508d1c2 Ajout build portable : Python embarqué + lanceur .bat (sans compilation) Domi31tls 2026-02-17 23:27:32 +01:00
  • 2d90bbbce4 Fix build Nuitka : ne compiler que nos modules, copier les packages tels quels Domi31tls 2026-02-17 23:08:29 +01:00
  • 9e06bbfa1d Fix _app_dir() pour Nuitka + crash log visible sans console Domi31tls 2026-02-17 22:11:44 +01:00
  • 801a71a6b4 Fix build Nuitka : retirer --nofollow-import-to qui excluait les modules Domi31tls 2026-02-17 17:44:45 +01:00
  • 67042bc3f1 Build en mode dossier (pas onefile) pour éviter faux positif antivirus Domi31tls 2026-02-17 15:54:06 +01:00
  • 30a9b39367 Fix build : retirer orderedset (incompatible Python 3.12 Windows) Domi31tls 2026-02-17 08:00:36 +01:00
  • 24b6fae5b0 Optimiser le build Nuitka : cache + nofollow-import Domi31tls 2026-02-16 18:37:03 +01:00
  • 2e7e31a1f9 Embarquer modèle NER + chargement auto au démarrage Domi31tls 2026-02-16 15:31:17 +01:00
  • 8339069c83 Initial commit — Pseudonymisation de PDF v5 Domi31tls 2026-02-16 15:03:37 +01:00