feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données

- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85)
- Data augmentation : substitution noms INSEE (219K patronymes, x3 copies)
- Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux)
- Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL)
- Export silver avec support multi-répertoires (--extra-dir)
- Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO
- Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K)
- Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-10 02:06:08 +01:00
parent 274e2fa586
commit c9572c383a
38 changed files with 318811 additions and 1406 deletions

View File

@@ -59,7 +59,7 @@ Adresse: O
AVENUE I-ADRESSE
DES I-ADRESSE
OYATS I-ADRESSE
Ville O
Ville B-VILLE
de O
résidence: O
MESSANGES B-VILLE
@@ -169,7 +169,7 @@ Note O
Aucune O
donnée O
renseignée O
Signes O
Signes B-VILLE
vitaux O
Item O
de O
@@ -814,8 +814,8 @@ traitée O
par O
corticothérapie O
au O
long O
cours. O
long B-VILLE
cours. B-VILLE
Bactrim O
débuté O
hier O
@@ -853,7 +853,7 @@ d'Enhertu, O
à O
surveiller. O
Contrôle O
bio O
bio B-VILLE
dimanche O
02/07. O
appel O
@@ -1019,7 +1019,7 @@ plus O
à O
visée O
de O
confort O
confort B-VILLE
que O
réelle O
désaturation. O
@@ -1064,7 +1064,7 @@ SSR O
Grancher. O
Vit O
avec O
son O
son B-VILLE
mari O
de O
81ans O
@@ -1114,7 +1114,7 @@ retour O
Annie O
Enia. O
Patiente O
vue O
vue B-VILLE
au O
retour O
de O
@@ -1135,7 +1135,7 @@ geste O
avec O
toux, O
attendu. O
Bonne O
Bonne B-VILLE
saturation O
sous O
2L. O
@@ -1394,16 +1394,16 @@ maison O
de O
plain-pied O
avec O
son O
son B-VILLE
mari. O
1 O
fils O
à O
Strasbourg, O
2 O
Strasbourg, B-VILLE
2 I-VILLE
enfants O
de O
son O
son B-VILLE
mari O
sur O
Paris. O
@@ -1502,7 +1502,7 @@ fin O
himiothérapie O
de O
1ère O
ligne O
ligne B-VILLE
par O
TAXOL O
hebdomadaire O
@@ -1557,7 +1557,7 @@ Page O
3 O
de O
20 O
Mars O
Mars B-VILLE
2019 O
: O
récidive O
@@ -1790,15 +1790,15 @@ du O
janvier O
au O
2 O
mars O
mars B-VILLE
2023. O
Hospitalisation O
du O
20 O
mars O
mars B-VILLE
au O
28 O
mars O
mars B-VILLE
2023 O
pour O
dyspnée O
@@ -2059,7 +2059,7 @@ droit O
déjà O
présentes O
en O
mars O
mars B-VILLE
2023 O
avant O
le O
@@ -2124,7 +2124,7 @@ le O
28/06 O
avec O
une O
bonne O
bonne B-VILLE
tolérance O
immédiate. O
Appel O
@@ -2199,8 +2199,8 @@ pas O
de O
corticoïdes O
au O
long O
cours. O
long B-VILLE
cours. B-VILLE
Les O
autres O
prélèvements O
@@ -2466,7 +2466,7 @@ labsence O
de O
symptômes O
neurologiques O
francs O
francs B-VILLE
et O
pour O
laisser O
@@ -2568,7 +2568,7 @@ SSR O
Grancher. O
Vit O
avec O
son O
son B-VILLE
mari O
de O
81ans O
@@ -3107,7 +3107,7 @@ importante O
dit O
"en O
avoir O
marre, O
marre, B-VILLE
que O
ça O
dure O
@@ -3422,7 +3422,7 @@ mal O
dormir O
depuis O
2-3 O
nuits O
nuits B-VILLE
--> O
introduction O
SB O
@@ -3476,7 +3476,7 @@ anémie O
à O
distance O
CT==>contrôle O
bio O
bio B-VILLE
dimanche O
Respi==>eupnéique O
sou O
@@ -3604,7 +3604,7 @@ dit O
qu'elle O
contactera O
le O
CCAS O
CCAS B-HOPITAL
pas O
loin O
de O
@@ -3621,7 +3621,7 @@ mettre O
quelques O
aides O
en O
place O
place B-VILLE
(repassage, O
aide O
ou O
@@ -3662,7 +3662,7 @@ d'O2 O
à O
visé O
de O
confort. O
confort. B-VILLE
Moins O
polypnéique O
qu'hier, O
@@ -3738,7 +3738,7 @@ aides O
à O
mettre O
en O
place. O
place. B-VILLE
Selon O
ses O
souhaits, O
@@ -3930,7 +3930,7 @@ ATG3 O
LP O
à O
donner O
vers O
vers B-VILLE
22h O
ce O
soir O
@@ -4041,7 +4041,7 @@ tout O
comme O
moi O
à O
son O
son B-VILLE
précédent O
séjour, O
le O
@@ -4108,7 +4108,7 @@ ou O
SSR O
et O
de O
son O
son B-VILLE
état O
médical. O
En O
@@ -4160,7 +4160,7 @@ de O
00h, O
patiente O
au O
courant. O
courant. B-VILLE
Respiration O
: O
SAT O
@@ -4266,7 +4266,7 @@ d'entrée O
fait O
> O
A O
son O
son B-VILLE
entrée O
patiente O
très O
@@ -4286,7 +4286,7 @@ hyperventilation O
+ O
O2 O
de O
confort O
confort B-VILLE
mis, O
se O
sent O
@@ -4330,7 +4330,7 @@ modifié. O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
10 O
@@ -4355,7 +4355,7 @@ LAFON I-PER
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
4 O
@@ -4380,9 +4380,9 @@ administration O
Note O
Docteur O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
[6] O
Ampoule(s) O
3 O
@@ -4446,7 +4446,7 @@ Arrêté O
Le O
débit O
en O
cours O
cours B-VILLE
est O
: O
20.833333333333332 O
@@ -4479,8 +4479,8 @@ des O
prescriptions: O
Signé O
ACIDE O
FOLIQUE O
ARW O
FOLIQUE B-PER
ARW I-PER
5MG O
CPR O
[20] O
@@ -4702,7 +4702,7 @@ Statut O
des O
prescriptions: O
En O
cours O
cours B-VILLE
LOVENOX O
4000UI O
AXa/0,4ML O
@@ -4987,7 +4987,7 @@ Page O
10 O
de O
20 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -5010,9 +5010,9 @@ Soir O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -5059,9 +5059,9 @@ NaCl O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -5108,9 +5108,9 @@ NaCl O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -5157,8 +5157,8 @@ NaCl O
Signé O
— O
METOCLOPRAMIDE O
CHL O
REN O
CHL B-PER
REN I-PER
10 O
MG O
INJ O
@@ -5196,8 +5196,8 @@ nausées O
Signé O
— O
METOCLOPRAMIDE O
CHL O
REN O
CHL B-PER
REN I-PER
10 O
MG O
INJ O
@@ -5235,8 +5235,8 @@ nausées O
Signé O
— O
METOCLOPRAMIDE O
CHL O
REN O
CHL B-PER
REN I-PER
10 O
MG O
INJ O
@@ -5274,8 +5274,8 @@ nausées O
Signé O
— O
ACIDE O
FOLIQUE O
ARW O
FOLIQUE B-PER
ARW I-PER
5MG O
CPR O
- O
@@ -7027,7 +7027,7 @@ Page O
14 O
de O
20 O
Plan O
Plan B-VILLE
de O
soins O
Jour O
@@ -7052,9 +7052,9 @@ Soir O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -7101,9 +7101,9 @@ NaCl O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -7150,9 +7150,9 @@ NaCl O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -7199,9 +7199,9 @@ NaCl O
Signé O
— O
BACTRIM O
SOL O
INJ O
IV O
SOL B-PER
INJ I-PER
IV I-PER
- O
400MG O
+ O
@@ -7248,8 +7248,8 @@ NaCl O
Signé O
— O
METOCLOPRAMIDE O
CHL O
REN O
CHL B-PER
REN I-PER
10 O
MG O
INJ O
@@ -7287,8 +7287,8 @@ nausées O
Signé O
— O
METOCLOPRAMIDE O
CHL O
REN O
CHL B-PER
REN I-PER
10 O
MG O
INJ O
@@ -7326,8 +7326,8 @@ nausées O
Signé O
— O
METOCLOPRAMIDE O
CHL O
REN O
CHL B-PER
REN I-PER
10 O
MG O
INJ O
@@ -7365,8 +7365,8 @@ nausées O
Signé O
— O
ACIDE O
FOLIQUE O
ARW O
FOLIQUE B-PER
ARW I-PER
5MG O
CPR O
- O
@@ -8881,7 +8881,7 @@ rendu O
au O
format O
texte O
Bayonne, O
Bayonne, B-VILLE
le O
03/07/2023 O
Docteur O
@@ -8983,7 +8983,7 @@ au O
niveau O
de O
la O
fosse O
fosse B-VILLE
cérébrale O
postérieure O
par O