feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données

- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85)
- Data augmentation : substitution noms INSEE (219K patronymes, x3 copies)
- Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux)
- Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL)
- Export silver avec support multi-répertoires (--extra-dir)
- Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO
- Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K)
- Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-10 02:06:08 +01:00
parent 274e2fa586
commit c9572c383a
38 changed files with 318811 additions and 1406 deletions

View File

@@ -135,7 +135,7 @@ chirurgicaux O
. O
Autres/1 O
Tendon O
Tendon B-VILLE
rotulien O
ATCD O
cardio-vasculaires O
@@ -357,7 +357,7 @@ effectuée O
et O
complétée O
avec O
celle O
celle B-VILLE
de O
Saint O
PALAIS O
@@ -409,7 +409,7 @@ carte O
de O
groupe O
perso O
vue O
vue B-VILLE
RAI O
neg O
du O
@@ -617,7 +617,7 @@ S1032021 B-IPP
Patient O
: O
URRUTY B-PER
JOSEPH I-PER
JOSEPH B-DATE_NAISSANCE
né(e) O
le O
: O