anonymisation

Go to file

Domi31tls bc2fe667a0 fix: Corrections qualité Phase 1 — 261 fuites en moins, 0 régression

Audit sur 30 fichiers aléatoires (OGC 12-690) révélant un overfitting
sur les 59 premiers OGC. Corrections appliquées avec test de non-régression
à chaque étape :

- NDA pieds de page Trackare : regex Episode N. (227→0 fuites)
- ONDANSETRON : word boundary \b sur RE_NUMERO_DOSSIER (32→0)
- RPPS isolés : détection 11 chiffres dans docs Trackare (3→0)
- Stop words : retrait noms réels (ute, dogue, cambo, bains), ajout
  termes médicaux (AINS, ponction, hanche, burkitt, ORL, GDS, OAP...)
- Pattern DR. Prénom NOM : capture prénoms médecins (Ute ×19, Tam...)
- force_names : contextes structurés (DR., Signé, Note d'évolution)
  bypassent les stop words pour masquer les vrais noms de soignants
- Phase 2b : PiiHit trackare (EPISODE, RPPS) appliqués au texte .txt
- Framework de non-régression (regression_tests/) + batch audit 30 fichiers

Résultat : 322→61 fuites détectées, 113→109 faux positifs, 0 régression.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-03-06 17:32:28 +01:00

.github/workflows

Ajout build portable : Python embarqué + lanceur .bat (sans compilation)

2026-02-17 23:27:32 +01:00

.kiro/specs/anonymization-quality-optimization

docs(phase1): Résumé exécutif Phase 1 pour l'utilisateur

2026-03-02 23:37:42 +01:00

.snapshots

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

ano

chore: add .gitignore, remove PDFs/models/zips from history

2026-03-05 00:37:19 +01:00

config

chore: Avant implémentation Phase 1 corrections qualité

2026-03-02 23:34:06 +01:00

corpus_validation

gui: Ajout indicateurs qualité (fuites, performances)

2026-03-02 21:34:18 +01:00

corpus_validation_sample

feat: Validation corpus complet - 100% qualité confirmée

2026-03-02 19:55:48 +01:00

detectors

feat: Optimize EPISODE false positives - filter trackare filename episodes

2026-03-02 15:33:29 +01:00

docs

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

evaluation

feat: Optimize EPISODE false positives - filter trackare filename episodes

2026-03-02 15:33:29 +01:00

pdf_natif

chore: add .gitignore, remove PDFs/models/zips from history

2026-03-05 00:37:19 +01:00

regression_tests

fix: Corrections qualité Phase 1 — 261 fuites en moins, 0 régression

2026-03-06 17:32:28 +01:00

test_3ogc

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

test_anonymise

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

test_chcb_leak

docs: Analyse finale validation corpus - système fonctionnel

2026-03-02 21:38:30 +01:00

test_doctr_fix

gui: Ajout indicateurs qualité (fuites, performances)

2026-03-02 21:34:18 +01:00

test_gui_output

fix(gui): Retirer paramètre use_vlm non supporté par process_pdf

2026-03-02 21:53:54 +01:00

tests

feat(phase1): Implémentation corrections qualité Phase 1

2026-03-02 23:36:29 +01:00

tools

feat(phase1): Implémentation corrections qualité Phase 1

2026-03-02 23:36:29 +01:00

.~lock.FONCTIONNEMENT.md#

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

.gitignore

chore: add .gitignore, remove PDFs/models/zips from history

2026-03-05 00:37:19 +01:00

analyze_anonymization_result.py

demo: Test d'anonymisation sur document réel

2026-03-02 10:19:55 +01:00

anonymizer_core_refactored_onnx.py

fix: Corrections qualité Phase 1 — 261 fuites en moins, 0 régression

2026-03-06 17:32:28 +01:00

anonymizer_core_refactored.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

audit_fp_detector.py

Stop words +170 : détection automatique FP via dictionnaire français (audit_fp_detector.py)

2026-02-28 10:04:33 +01:00

build_windows.bat

Fix build Nuitka : ne compiler que nos modules, copier les packages tels quels

2026-02-17 23:08:29 +01:00

corpus_validation_full.log

gui: Ajout indicateurs qualité (fuites, performances)

2026-03-02 21:34:18 +01:00

corpus_validation.log

feat: Validation corpus complet - 100% qualité confirmée

2026-03-02 19:55:48 +01:00

demo_complete_anonymization.py

demo: Test d'anonymisation sur document réel

2026-03-02 10:19:55 +01:00

demo_evaluation.py

demo: Ajout script de démonstration et correction tests

2026-03-02 10:14:56 +01:00

eds_pseudo_manager.py

feat(phase1): Implémentation corrections qualité Phase 1

2026-03-02 23:36:29 +01:00

FONCTIONNEMENT.md

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

install.sh

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

ner_manager_onnx.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

pdf_mask_designer.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

Pseudonymisation_Gui_Models_V4.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

Pseudonymisation_Gui_V5.py

feat(gui): Ajout bouton Arrêter pour stopper le traitement en cours

2026-03-02 22:04:00 +01:00

pseudonymisation_pipeline_gui_v3.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

Pseudonymisation_Pipeline_Robuste_Patch.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

pseudonymisation_pipeline_robuste.py

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

qc_audit.py

Amélioration qualité anonymisation : dico médicaments auto, noms soignants, garde trackare, validation EDS, QC audit

2026-02-26 18:58:18 +01:00

readme.md

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

requirements.txt

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

run_batch_30_audit.py

fix: Corrections qualité Phase 1 — 261 fuites en moins, 0 régression

2026-03-06 17:32:28 +01:00

run_batch_59ogc.py

feat: Phase 1 - Système d'évaluation de la qualité

2026-03-02 10:07:41 +01:00

setup_env_and_build.bat

Initial commit — Pseudonymisation de PDF v5

2026-02-16 15:03:37 +01:00

test_anonymization_example.py

demo: Test d'anonymisation sur document réel

2026-03-02 10:19:55 +01:00

test_gui_error.py

fix(gui): Retirer paramètre use_vlm non supporté par process_pdf

2026-03-02 21:53:54 +01:00

test_gui_fixed.py

test: Vérifier que le GUI fonctionne après correction

2026-03-02 21:54:55 +01:00

test-mini.js

chore: add .gitignore, remove PDFs/models/zips from history

2026-03-05 00:37:19 +01:00

vlm_manager.py

Sécurité VLM : format JSON forcé, modèle local uniquement, fix logging critique

2026-02-27 02:38:30 +01:00

readme.md

placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete

L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.