feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données

- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85)
- Data augmentation : substitution noms INSEE (219K patronymes, x3 copies)
- Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux)
- Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL)
- Export silver avec support multi-répertoires (--extra-dir)
- Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO
- Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K)
- Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-10 02:06:08 +01:00
parent 274e2fa586
commit c9572c383a
38 changed files with 318811 additions and 1406 deletions

View File

@@ -428,9 +428,9 @@ habituellement O
au O
domicile O
avec O
son O
son B-VILLE
époux, O
son O
son B-VILLE
fils O
et O
sa O
@@ -442,7 +442,7 @@ de O
temps, O
autonome O
à O
son O
son B-VILLE
domicile O
mais O
ne O
@@ -503,12 +503,12 @@ PROPOSITION O
DE O
PRISE O
EN O
CHARGE O
CHARGE B-VILLE
Patiente B-AGE
de I-AGE
80 I-AGE
ans I-AGE
vue O
vue B-VILLE
pour O
probable O
carcinome O
@@ -598,7 +598,7 @@ rempli O
ce O
jour. O
Au O
plan O
plan B-VILLE
infirmier O
de O
pratique O