feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données
- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85) - Data augmentation : substitution noms INSEE (219K patronymes, x3 copies) - Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux) - Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL) - Export silver avec support multi-répertoires (--extra-dir) - Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO - Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K) - Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
@@ -39,7 +39,7 @@ des B-ZIP
|
||||
augustins I-ZIP
|
||||
64 I-ZIP
|
||||
100 I-ZIP
|
||||
BAYONNE O
|
||||
BAYONNE B-VILLE
|
||||
Monsieur O
|
||||
JEAN B-PER
|
||||
DEAUX I-PER
|
||||
@@ -121,7 +121,7 @@ des O
|
||||
adhérences O
|
||||
sur O
|
||||
le O
|
||||
grand O
|
||||
grand B-VILLE
|
||||
épiploon O
|
||||
et O
|
||||
le O
|
||||
|
||||
Reference in New Issue
Block a user