feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données

- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85)
- Data augmentation : substitution noms INSEE (219K patronymes, x3 copies)
- Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux)
- Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL)
- Export silver avec support multi-répertoires (--extra-dir)
- Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO
- Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K)
- Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-10 02:06:08 +01:00
parent 274e2fa586
commit c9572c383a
38 changed files with 318811 additions and 1406 deletions

View File

@@ -59,7 +59,7 @@ MAISON O
DE O
RETRAITE O
ALBODI B-PER
Ville O
Ville B-VILLE
de O
résidence: O
BARDOS B-VILLE
@@ -223,7 +223,7 @@ Motif O
de O
prise O
en O
charge O
charge B-VILLE
Dyspnée O
dyspnée O
avec O
@@ -280,14 +280,14 @@ Date O
de O
prise O
en O
charge O
charge B-VILLE
médicale O
19/04/2023 O
Heure O
de O
prise O
en O
charge O
charge B-VILLE
médicale O
09:49 O
Médecin O
@@ -452,7 +452,7 @@ Note O
Aucune O
donnée O
renseignée O
Signes O
Signes B-VILLE
vitaux O
Item O
de O
@@ -1042,7 +1042,7 @@ du O
19 O
au O
24 O
avril O
avril B-VILLE
2023 O
pour O
exacerbation O
@@ -1103,7 +1103,7 @@ l'épisode O
aigüe. O
Sur O
le O
plan O
plan B-VILLE
infectieux, O
présence O
de O
@@ -1458,7 +1458,7 @@ aux O
deux O
bases, O
quelques O
corps O
corps B-VILLE
entier O
Pas O
de O
@@ -1533,7 +1533,7 @@ antérieures, O
donc O
disparition O
des O
signes O
signes B-VILLE
d'ischémie. O
Contrôle O
bio O
@@ -1605,7 +1605,7 @@ bdc O
réguliers O
pas O
de O
signes O
signes B-VILLE
d'insuffisance O
cardiaque O
ou O
@@ -1722,7 +1722,7 @@ devant O
souffrance O
myocardique O
au O
cours O
cours B-VILLE
de O
l'infection O
-Bio O
@@ -1730,7 +1730,7 @@ dimanche O
20.04 O
YG O
Apyrétique, O
bonne O
bonne B-VILLE
HD O
sat O
96% O
@@ -1757,7 +1757,7 @@ bi O
basaux O
Abdomen O
sid, O
Bio O
Bio B-VILLE
: O
Hb O
11.4 O
@@ -1810,7 +1810,7 @@ ECG O
: O
négativation O
des O
ondes O
ondes B-VILLE
T O
en O
antérieur O
@@ -2007,7 +2007,7 @@ Créat O
majoré O
à O
94 O
contre O
contre B-VILLE
68 O
Majoration O
CRP O
@@ -2056,7 +2056,7 @@ négatif O
Aspiration O
trachéale O
en O
cours O
cours B-VILLE
Patient: O
CHAMOIS B-PER
CHAMOIS I-PER
@@ -2097,7 +2097,7 @@ Note O
d'évolution O
DR. O
Laurence B-PER
MASSE I-PER
MASSE O
19/04/2023 O
18:15 O
Histoire O
@@ -2186,7 +2186,7 @@ préventive/SCA O
ST- O
a O
la O
place O
place B-VILLE
du O
lovenox O
préventif O
@@ -2793,7 +2793,7 @@ est O
fébrile, O
polypnéique O
avec O
signes O
signes B-VILLE
de O
lutte O
crépitants O
@@ -2846,7 +2846,7 @@ modification O
significative O
Prise O
ne O
charge O
charge B-VILLE
initial O
par O
C3G O
@@ -2856,7 +2856,7 @@ furosémide O
IV, O
aérosols O
Micro O
bio O
bio B-VILLE
: O
- O
Antigénurie O
@@ -2932,7 +2932,7 @@ de O
décalage O
du O
ST, O
ondes O
ondes B-VILLE
T O
plates, O
QTc O
@@ -3178,7 +3178,7 @@ matin O
détresse O
respiratoire O
avec O
signes O
signes B-VILLE
de O
lutte O
et O
@@ -3217,7 +3217,7 @@ dyspnée O
de O
repos O
avec O
signes O
signes B-VILLE
de O
lutte O
(BTA, O
@@ -3421,9 +3421,9 @@ Normal O
Molles O
Absence O
Absence O
Molles O
Molles O
Molles O
Molles B-VILLE
Molles B-VILLE
Molles B-VILLE
Molles O
Molles O
Fréq. O
@@ -3631,7 +3631,7 @@ perfusé O
à O
nouveau O
les O
nuits O
nuits B-VILLE
se O
suivent O
et O
@@ -3954,14 +3954,14 @@ Note O
IDE O
Mathilde B-PER
DOBOSZ I-PER
20/04/2023 O
13:10 O
20/04/2023 B-DATE_NAISSANCE
13:10 I-DATE_NAISSANCE
Note O
IDE O
Myriam B-PER
CRABOS I-PER
20/04/2023 O
01:28 O
20/04/2023 B-DATE_NAISSANCE
01:28 I-DATE_NAISSANCE
Note O
IDE O
Alexia B-PER
@@ -4136,7 +4136,7 @@ préventive/SCA O
ST- O
à O
la O
place O
place B-VILLE
du O
lovenox O
préventif O
@@ -4225,8 +4225,8 @@ vers O
retrouvé O
debout O
dans O
la O
chambre, O
la B-VILLE
chambre, I-VILLE
est O
passé O
par O
@@ -4271,7 +4271,7 @@ aller O
la O
selle O
Arrivé O
vers O
vers B-VILLE
16h30 O
dans O
le O
@@ -4290,7 +4290,7 @@ respi: O
sous O
6L O
a O
son O
son B-VILLE
arrivée O
mais O
décompensation O
@@ -4515,7 +4515,7 @@ un O
contexte O
d'hyperthermie O
A O
son O
son B-VILLE
installation O
, O
encombrement O
@@ -4654,7 +4654,7 @@ Signé O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
4 O
@@ -4725,7 +4725,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
3 O
@@ -4814,7 +4814,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
10 O
@@ -4849,7 +4849,7 @@ Glucose O
- O
eau O
PPI O
PIPER/TAZOB O
PIPER/TAZOB B-PER
MYL O
4G/500MG O
PDR O
@@ -4858,7 +4858,7 @@ PERF O
Flacon(s) O
DR. O
Laurence B-PER
MASSE I-PER
MASSE O
4 O
G O
- O
@@ -4875,7 +4875,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
1 O
@@ -4924,9 +4924,9 @@ ADO O
SOLUDACTONE O
100MG O
PDR O
ET O
SOL O
INJ O
ET B-PER
SOL I-PER
INJ I-PER
[5] O
Ampoule(s) O
100 O
@@ -4975,7 +4975,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
10 O
@@ -4985,7 +4985,7 @@ par O
Notes O
du O
professionel O
PIPER/TAZOB O
PIPER/TAZOB B-PER
MYL O
4G/500MG O
PDR O
@@ -5090,8 +5090,8 @@ DR. O
Pierre B-PER
RIGAUD I-PER
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
[10] O
COMPRIME(S) O
1 O
@@ -5438,8 +5438,8 @@ Sortie O
Yoan I-PER
GUILLAUD I-PER
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
[10] O
COMPRIME(S) O
1 O
@@ -5861,7 +5861,7 @@ Normal O
19:18 O
DR. O
Laurence B-PER
MASSE I-PER
MASSE O
Voie O
d`administration: O
INHALEE O
@@ -6084,7 +6084,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
360000 O
@@ -6493,8 +6493,8 @@ CPR O
[30] O
COMPRIME(S) O
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
[10] O
COMPRIME(S) O
BISOPROLOL O
@@ -7042,7 +7042,7 @@ Page O
16 O
de O
35 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -8377,8 +8377,8 @@ dose: O
Signé O
— O
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
- O
800MG O
+ O
@@ -8405,8 +8405,8 @@ dose: O
Signé O
— O
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
- O
800MG O
+ O
@@ -9985,7 +9985,7 @@ presc.: O
Si O
pas O
de O
selles O
selles B-VILLE
pendant O
3 O
jours O
@@ -10023,7 +10023,7 @@ presc.: O
10:32 O
Pas O
de O
selles O
selles B-VILLE
Signé O
— O
NATISPRAY O
@@ -11477,7 +11477,7 @@ Page O
25 O
de O
35 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -12490,8 +12490,8 @@ dose: O
Signé O
— O
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
- O
800MG O
+ O
@@ -12758,8 +12758,8 @@ de O
Signé O
— O
BACTRIM O
FORTE O
CPR O
FORTE B-PER
CPR I-PER
- O
800MG O
+ O
@@ -14109,7 +14109,7 @@ presc.: O
Si O
pas O
de O
selles O
selles B-VILLE
pendant O
3 O
jours O
@@ -14147,7 +14147,7 @@ presc.: O
10:32 O
Pas O
de O
selles O
selles B-VILLE
Signé O
— O
NATISPRAY O
@@ -15275,7 +15275,7 @@ rendu O
au O
format O
texte O
Bayonne, O
Bayonne, B-VILLE
le O
19/04/2023 O
Docteur O
@@ -15617,7 +15617,7 @@ et O
variations O
de O
la O
masse B-PER
masse O
musculaire O
- O
alimentation O
@@ -15657,7 +15657,7 @@ et O
variations O
de O
la O
masse B-PER
masse O
musculaire O
- O
alimentation O
@@ -15697,7 +15697,7 @@ et O
variations O
de O
la O
masse B-PER
masse O
musculaire O
- O
alimentation O