feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données

- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85)
- Data augmentation : substitution noms INSEE (219K patronymes, x3 copies)
- Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux)
- Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL)
- Export silver avec support multi-répertoires (--extra-dir)
- Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO
- Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K)
- Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-10 02:06:08 +01:00
parent 274e2fa586
commit c9572c383a
38 changed files with 318811 additions and 1406 deletions

View File

@@ -60,7 +60,7 @@ Postal: O
64340 B-ZIP
Adresse: O
4 O
RUE O
RUE B-VILLE
DU O
19 O
MARS O
@@ -205,7 +205,7 @@ Motif O
de O
prise O
en O
charge O
charge B-VILLE
Douleur O
thoracique O
douleur O
@@ -259,14 +259,14 @@ Date O
de O
prise O
en O
charge O
charge B-VILLE
médicale O
10/05/2023 O
Heure O
de O
prise O
en O
charge O
charge B-VILLE
médicale O
06:55 O
CCMU O
@@ -423,7 +423,7 @@ Note O
Aucune O
donnée O
renseignée O
Signes O
Signes B-VILLE
vitaux O
Item O
de O
@@ -1154,7 +1154,7 @@ Ancien O
garagiste O
(entretien O
de O
cars). O
cars). B-VILLE
- O
Tabac O
80 O
@@ -1263,7 +1263,7 @@ et O
orienté. O
Pas O
de O
signes O
signes B-VILLE
de O
focalisation. O
Asthénique. O
@@ -1271,7 +1271,7 @@ Hemodynamique O
conservée, O
pas O
de O
signes O
signes B-VILLE
d'hypoperfusion O
périphérique, O
pouls O
@@ -1308,7 +1308,7 @@ de O
sibilants, O
pas O
de O
signes O
signes B-VILLE
de O
lutte, O
pas O
@@ -1333,7 +1333,7 @@ PR O
non O
allongé, O
QRS O
fins, O
fins, B-VILLE
QTc O
non O
allongé, O
@@ -1421,7 +1421,7 @@ charge O
antalgique. O
Sur O
le O
plan O
plan B-VILLE
de O
la O
gravité: O
@@ -1663,7 +1663,7 @@ indéterminée. O
Echographie O
abdominale O
en O
cours. O
cours. B-VILLE
- O
Sevrage O
OH O
@@ -1697,7 +1697,7 @@ le O
scanner O
AP O
visualisé O
Place O
Place B-VILLE
en O
gastro O
possible O
@@ -1810,7 +1810,7 @@ mm O
intérêt O
d'un O
avis O
spécialisé. O
spécialisé. B-HOPITAL
À O
l'étage O
sous-diaphragmatique O
@@ -1882,7 +1882,7 @@ mm O
intérêt O
d'un O
avis O
spécialisé. O
spécialisé. B-HOPITAL
Motif O
d'hospitalisation O
: O
@@ -2106,7 +2106,7 @@ Ancien O
garagiste O
(entretien O
de O
cars). O
cars). B-VILLE
- O
Tabac O
80 O
@@ -2124,7 +2124,7 @@ et O
orienté. O
Pas O
de O
signes O
signes B-VILLE
de O
focalisation. O
Asthénique. O
@@ -2132,7 +2132,7 @@ Hemodynamique O
conservée, O
pas O
de O
signes O
signes B-VILLE
d'hypoperfusion O
périphérique, O
pouls O
@@ -2169,7 +2169,7 @@ de O
sibilants, O
pas O
de O
signes O
signes B-VILLE
de O
lutte, O
pas O
@@ -2194,7 +2194,7 @@ PR O
non O
allongé, O
QRS O
fins, O
fins, B-VILLE
QTc O
non O
allongé, O
@@ -2496,7 +2496,7 @@ GOYTINO I-PER
Note O
IDE O
Tiphaine B-PER
SELLE O
SELLE I-PER
13/05/2023 O
00:03 O
Note O
@@ -2648,7 +2648,7 @@ du O
TDM O
=> O
avec O
son O
son B-VILLE
épouse O
EXAM: B-PER
Scan O
@@ -2701,7 +2701,7 @@ redescendue O
Elimination: O
a O
fait O
son O
son B-VILLE
sondage O
évacuateur O
à O
@@ -2750,13 +2750,13 @@ prochain O
sondage O
a O
faire O
vers O
vers B-VILLE
3h O
TENSION: O
HTA O
18/8 O
a O
son O
son B-VILLE
arrivée, O
puis O
a O
@@ -2782,7 +2782,7 @@ sa O
consommatiion O
OH O
depuis O
son O
son B-VILLE
IDM O
en O
decembre O
@@ -2954,12 +2954,12 @@ ses O
TTT O
appel O
de O
son O
son B-VILLE
épouse O
pour O
l'informer O
de O
son O
son B-VILLE
arrivée O
dans O
service: O
@@ -3051,7 +3051,7 @@ dlr O
post O
prandial O
A O
son O
son B-VILLE
arrivée O
: O
Note O
@@ -3071,7 +3071,7 @@ algique O
ATG1 O
mis O
en O
place O
place B-VILLE
à O
7h30 O
Soins O
@@ -3122,7 +3122,7 @@ Signé O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
4 O
@@ -3216,7 +3216,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
41.666666666666664 O
@@ -3248,8 +3248,8 @@ fois O
Léna I-PER
MELAINE I-PER
SODIUM O
CHL O
MACO O
CHL B-PER
MACO I-PER
0,9% O
INJ O
PP O
@@ -3265,8 +3265,8 @@ Normal O
Capucine I-PER
CHAPPE I-PER
SODIUM O
CHL O
MACO O
CHL B-PER
MACO I-PER
0,9% O
INJ O
PP O
@@ -3608,7 +3608,7 @@ PRESSURISE(S) O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
0 O
@@ -3617,7 +3617,7 @@ par O
1 O
hrs. O
2 O
BOUFFEE B-PER
BOUFFEE O
- O
Matin O
soir O
@@ -3831,7 +3831,7 @@ Page O
9 O
de O
20 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -3866,7 +3866,7 @@ solution O
- O
Dose O
2 O
BOUFFEE B-PER
BOUFFEE O
- O
sur O
1 O
@@ -3901,7 +3901,7 @@ solution O
- O
Dose O
2 O
BOUFFEE B-PER
BOUFFEE O
- O
sur O
1 O
@@ -4255,8 +4255,8 @@ le O
19:00 O
* O
2 O
BOUFFEE B-PER
MELAINE I-PER
BOUFFEE O
MELAINE B-PER
Léna I-PER
Début O
le O
@@ -4276,8 +4276,8 @@ le O
09:10 O
* O
2 O
BOUFFEE B-PER
CHAPPE I-PER
BOUFFEE O
CHAPPE B-PER
Capucine I-PER
Début O
le O
@@ -5590,7 +5590,7 @@ Page O
12 O
de O
20 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -5627,7 +5627,7 @@ solution O
- O
Dose O
2 O
BOUFFEE B-PER
BOUFFEE O
- O
sur O
1 O
@@ -5662,7 +5662,7 @@ solution O
- O
Dose O
2 O
BOUFFEE B-PER
BOUFFEE O
- O
sur O
1 O
@@ -6016,8 +6016,8 @@ le O
08:00 O
* O
2 O
BOUFFEE B-PER
MELAINE I-PER
BOUFFEE O
MELAINE B-PER
Léna I-PER
Début O
le O
@@ -6037,8 +6037,8 @@ le O
19:00 O
* O
2 O
BOUFFEE B-PER
CHAPPE I-PER
BOUFFEE O
CHAPPE B-PER
Capucine I-PER
Début O
le O
@@ -7451,7 +7451,7 @@ rendu O
au O
format O
texte O
Bayonne, O
Bayonne, B-VILLE
le O
10/05/2023 O
Docteur O
@@ -7607,7 +7607,7 @@ mm O
intérêt O
d'un O
avis O
spécialisé. O
spécialisé. B-HOPITAL
À O
l'étage O
sous-diaphragmatique O
@@ -7679,7 +7679,7 @@ mm O
intérêt O
d'un O
avis O
spécialisé. O
spécialisé. B-HOPITAL
CR O
Scanner O
10/05/2023 O
@@ -7790,7 +7790,7 @@ rendu O
au O
format O
texte O
Bayonne, O
Bayonne, B-VILLE
le O
10/05/2023 O
Docteur O
@@ -7897,7 +7897,7 @@ taille O
normale, O
avec O
une O
bonne O
bonne B-VILLE
différenciation O
parenchymo-sinusale, O
cavités O