feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données

- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85)
- Data augmentation : substitution noms INSEE (219K patronymes, x3 copies)
- Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux)
- Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL)
- Export silver avec support multi-répertoires (--extra-dir)
- Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO
- Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K)
- Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-10 02:06:08 +01:00
parent 274e2fa586
commit c9572c383a
38 changed files with 318811 additions and 1406 deletions

View File

@@ -38,7 +38,7 @@ de O
naissance: O
TOMAS B-PER
IPP: O
BA171849 B-IPP
BA171849 B-DATE_NAISSANCE
Nom O
et O
Prénom: O
@@ -181,7 +181,7 @@ Note O
Aucune O
donnée O
renseignée O
Signes O
Signes B-VILLE
vitaux O
Item O
de O
@@ -595,11 +595,11 @@ IDE O
à O
mettre O
en O
place O
place B-VILLE
au O
domicile O
Bilan O
bio O
bio B-VILLE
demain O
avec O
bilan O
@@ -800,15 +800,15 @@ vit O
à O
domicile O
avec O
son O
son B-VILLE
mari. O
Aides O
en O
cours O
cours B-VILLE
de O
mise O
en O
place O
place B-VILLE
Histoire O
de O
la O
@@ -1073,7 +1073,7 @@ sa O
dernière O
consultation: O
- O
son O
son B-VILLE
état O
général O
est O
@@ -1128,7 +1128,7 @@ sous O
de O
Prednisone O
selon O
son O
son B-VILLE
ordonnance O
mais O
la O
@@ -1144,8 +1144,8 @@ lombalgies O
mécaniques, O
augmentées O
à O
la O
marche O
la B-VILLE
marche I-VILLE
et O
station O
debout O
@@ -1332,7 +1332,7 @@ un O
: O
ANCA, O
en O
cours O
cours B-VILLE
bilan O
autoimmun O
un O
@@ -1341,7 +1341,7 @@ hépatites O
auto- O
immune O
en O
cours. O
cours. B-VILLE
Radiologiquement O
: O
- O
@@ -1851,15 +1851,15 @@ vit O
à O
domicile O
avec O
son O
son B-VILLE
mari. O
Aides O
en O
cours O
cours B-VILLE
de O
mise O
en O
place O
place B-VILLE
Histoire O
de O
la O
@@ -1916,7 +1916,7 @@ consultation. O
Elle O
avait O
été O
vue O
vue B-VILLE
dans O
le O
service O
@@ -1933,7 +1933,7 @@ rhumatisme O
inflammatoire O
actif O
donc, O
aucun O
aucun B-VILLE
traitement O
de O
fond O
@@ -2067,7 +2067,7 @@ sa O
dernière O
consultation: O
- O
son O
son B-VILLE
état O
général O
est O
@@ -2122,7 +2122,7 @@ sous O
de O
Prednisone O
selon O
son O
son B-VILLE
ordonnance O
mais O
la O
@@ -2138,8 +2138,8 @@ lombalgies O
mécaniques, O
augmentées O
à O
la O
marche O
la B-VILLE
marche I-VILLE
et O
station O
debout O
@@ -2350,7 +2350,7 @@ voir O
diabéto O
avec O
la O
bio O
bio B-VILLE
de O
demain O
- O
@@ -2482,7 +2482,7 @@ de O
mieux O
en O
mieux O
RHUMATO O
RHUMATO B-PER
a O
eu O
une O
@@ -2524,7 +2524,7 @@ douleurs O
Douleur O
: O
algique O
vers O
vers B-VILLE
3h15 O
=> O
ATG O
@@ -2550,7 +2550,7 @@ la O
lente. O
Vu O
avec O
son O
son B-VILLE
fils O
qu'il O
serait O
@@ -2678,7 +2678,7 @@ conforme O
aux O
habitudes O
cf O
carnet O
carnet B-VILLE
en O
chambre O
Température O
@@ -2784,7 +2784,7 @@ de O
20 O
DIABETO B-PER
A O
son O
son B-VILLE
arrivée, O
elle O
était O
@@ -2830,8 +2830,8 @@ Note O
IDE O
Manon B-PER
CHENU I-PER
13/11/2023 B-DATE_NAISSANCE
13:56 I-DATE_NAISSANCE
13/11/2023 O
13:56 O
Traitements O
médicamenteux O
Prescription O
@@ -2864,8 +2864,8 @@ CPR O
Matin O
[8h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
07:43 O
DR. O
@@ -2882,8 +2882,8 @@ CPR O
Soir O
[19h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
16/11/2023 O
18:53 O
DR. O
@@ -2901,8 +2901,8 @@ CPR O
Soir O
[19h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
16/11/2023 O
18:53 O
DR. O
@@ -2920,8 +2920,8 @@ CPR O
Matin O
[8h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
07:43 O
DR. O
@@ -2938,8 +2938,8 @@ CPR O
Soir O
[19h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
16/11/2023 O
18:53 O
DR. O
@@ -2979,8 +2979,8 @@ unique O
à O
19h O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
16/11/2023 O
19:00 O
DR. O
@@ -2998,8 +2998,8 @@ CPR O
à O
19h O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
16/11/2023 O
18:53 O
DR. O
@@ -3017,8 +3017,8 @@ CPR O
Matin O
[8h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
07:43 O
DR. O
@@ -3036,8 +3036,8 @@ CPR O
Matin O
[8h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
07:43 O
DR. O
@@ -3053,8 +3053,8 @@ Sachet(s) O
SACHET O
- O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
17/11/2023 O
00:30 O
DR. O
@@ -3073,8 +3073,8 @@ SAC O
Matin O
[8h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
07:43 O
DR. O
@@ -3094,8 +3094,8 @@ CPR O
Matin O
[8h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
17/11/2023 O
07:43 O
DR. O
@@ -3113,8 +3113,8 @@ CPR O
Soir O
[19h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
16/11/2023 O
18:53 O
DR. O
@@ -3133,8 +3133,8 @@ CPR O
matin O
soir O
Normal O
13/11/2023 B-DATE_NAISSANCE
17:12 I-DATE_NAISSANCE
13/11/2023 O
17:12 O
17/11/2023 O
07:48 O
DR. O
@@ -3153,8 +3153,8 @@ Matin O
midi O
soir O
Normal O
13/11/2023 B-DATE_NAISSANCE
17:12 I-DATE_NAISSANCE
13/11/2023 O
17:12 O
17/11/2023 O
07:16 O
DR. O
@@ -3180,8 +3180,8 @@ ODRIOZOLA I-PER
GEL O
- O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
04:18 O
SERESTA O
@@ -3195,8 +3195,8 @@ CPR O
Nuit O
[21h] O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
16/11/2023 O
21:00 O
DR. O
@@ -3213,8 +3213,8 @@ LYOPHILISAT(S) O
LYOPHILISAT(S) O
- O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:30 I-DATE_NAISSANCE
13/11/2023 O
12:30 O
17/11/2023 O
04:30 O
DR. O
@@ -3235,8 +3235,8 @@ CPR O
à O
08h O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
15/11/2023 O
07:33 O
DR. O
@@ -3286,8 +3286,8 @@ U O
du O
cycle) O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
08:00 O
La O
@@ -3312,8 +3312,8 @@ U O
du O
cycle) O
Normal O
13/11/2023 B-DATE_NAISSANCE
12:18 I-DATE_NAISSANCE
13/11/2023 O
12:18 O
17/11/2023 O
12:00 O
La O
@@ -3631,7 +3631,7 @@ Page O
8 O
de O
20 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -6110,7 +6110,7 @@ Page O
13 O
de O
20 O
Plan O
Plan B-VILLE
de O
soins O
Jour O