feat(phase2): Gazetteers FINESS 102K établissements + fine-tuning CamemBERT-bio F1=89%

Gazetteers FINESS (data.gouv.fr open data):
- 102K numéros FINESS → détection par lookup exact dans _mask_admin_label + selective_rescan
- 122K noms d'établissements, 113K téléphones, 76K adresses (disponibles)
- Un nombre 9 chiffres matchant un vrai FINESS est masqué même sans label "FINESS"

Fine-tuning CamemBERT-bio (almanach/camembert-bio-base):
- Export silver annotations réécrit : alignement original↔pseudonymisé (difflib)
  → 6862 entités B- (vs 3344 avec l'ancien audit-only) sur 222K tokens
- Sliding windows (200 tokens, stride 100) pour documents longs
- WeightedNERTrainer avec class weights cappés (max 10x) + label smoothing
- Résultat: Precision=88.1%, Recall=89.8%, F1=88.9% (20 epochs, lr=1e-5)
- Modèle sauvegardé dans models/camembert-bio-deid/best (non commité)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-09 13:27:37 +01:00
parent 6e0e8c7312
commit 26b210607c
36 changed files with 447533 additions and 62915 deletions

View File

@@ -1,8 +1,14 @@
[MASK] O
Centre B-HOPITAL
Hospitalier I-HOPITAL
de I-HOPITAL
la I-HOPITAL
Côte I-HOPITAL
Basque I-HOPITAL
Anesthésiste O
: O
Dr O
[NOM] B-PER
KARAM B-PER
Lydia I-PER
DOSSIER O
DE O
CONSULTATION O
@@ -15,24 +21,26 @@ Date O
Nom O
: O
M. O
[NOM] B-PER
GASTESI B-PER
Michel I-PER
Né(e) O
le O
: O
[DATE_NAISSANCE] B-DATE_NAISSANCE
01/02/1952 B-DATE_NAISSANCE
71 O
ans O
N°Ipp O
: O
[IPP] B-IPP
20023294 B-IPP
N° O
Csult O
: O
[DOSSIER] B-NDA
23605230 B-NDA
/ O
Nom O
naiss. O
: O
[DOSSIER] B-NDA
23060661 B-NDA
Poids O
: O
87 O
@@ -48,16 +56,19 @@ Profession O
: O
Adresse O
: O
[ADRESSE] B-ADRESSE
[CODE_POSTAL] B-ZIP
137 B-ADRESSE
HAMEAU I-ADRESSE
DE I-ADRESSE
GARLATZETXE B-ZIP
ALAIA I-ZIP
64700 I-ZIP
BIRIATOU I-ZIP
N° O
Tél O
: O
[TEL] B-TEL
0559203820 B-TEL
à O
12 O
: O
14 O
12:14 O
Spécialiste O
: O
Date O
@@ -74,7 +85,8 @@ HOLEP O
Opérateur O
: O
Dr O
[NOM] B-PER
LAMMERTYN B-PER
Yann I-PER
Prévenir O
: O
Mémo O
@@ -104,9 +116,7 @@ le O
: O
Service O
: O
__ O
: O
__ O
__:__ O
__/__/__ O
Thrombo-embolique O
: O
@@ -126,7 +136,8 @@ Antécédents O
/ O
Traitements O
Examen O
[ETABLISSEMENT] O
clinique O
Décisions O
/ O
Prescriptions O
ATCD O
@@ -179,8 +190,7 @@ antiagrégant O
Derniers O
examens/Echo O
01/2021 O
: O
01/2021: O
VG O
non O
dilaté O
@@ -215,11 +225,10 @@ depuis O
> O
1 O
an O
presque O
: O
presque; O
suivi O
Dr O
[NOM] B-PER
Mathieu B-PER
. O
Tabac/Sevré O
@@ -237,8 +246,7 @@ ans O
Examens O
paracliniques O
récents/EFR O
11/2022 O
: O
11/2022: O
VEMS O
à O
124% O
@@ -286,8 +294,7 @@ Cs O
neuro O
11/2022 O
Dr O
[NOM] B-PER
: O
Tollet: B-PER
élocution O
plus O
harmonieuse. O
@@ -367,8 +374,7 @@ d'effort/ O
4 O
à O
7 O
actif O
: O
actif; O
a O
repris O
ses O
@@ -558,16 +564,15 @@ Le O
02 O
Avril O
2023 O
17 O
: O
30 O
17:30 O
Page O
: O
1/3 O
Anesthésiste O
: O
Dr O
[NOM] B-PER
KARAM B-PER
Lydia I-PER
DOSSIER O
DE O
CONSULTATION O
@@ -580,24 +585,26 @@ Date O
Nom O
: O
M. O
[NOM] B-PER
GASTESI B-PER
Michel I-PER
Né(e) O
le O
: O
[DATE_NAISSANCE] B-DATE_NAISSANCE
01/02/1952 B-DATE_NAISSANCE
71 O
ans O
N°Ipp O
: O
[IPP] B-IPP
20023294 B-IPP
N° O
Csult O
: O
[DOSSIER] B-NDA
23605230 B-NDA
/ O
Nom O
naiss. O
: O
[DOSSIER] B-NDA
23060661 B-NDA
Poids O
: O
87 O
@@ -613,12 +620,17 @@ Profession O
: O
Adresse O
: O
[ADRESSE] B-ADRESSE
[CODE_POSTAL] B-ZIP
137 B-ADRESSE
HAMEAU I-ADRESSE
DE I-ADRESSE
GARLATZETXE B-ZIP
ALAIA I-ZIP
64700 I-ZIP
BIRIATOU I-ZIP
N° O
Tél O
: O
[TEL] B-TEL
0559203820 B-TEL
Interrogatoire O
/ O
Autorisation O
@@ -963,12 +975,8 @@ biologique O
: O
Résultat(s) O
récent(s) O
(N O
: O
Normal, O
A O
: O
Anormal) O
(N:Normal, O
A:Anormal) O
: O
- O
Créat O
@@ -1064,9 +1072,7 @@ jeun O
le O
06/04/2023 O
à O
00 O
: O
00 O
00:00 O
Merci O
de O
proposer O
@@ -1121,16 +1127,15 @@ Le O
02 O
Avril O
2023 O
17 O
: O
30 O
17:30 O
Page O
: O
2/3 O
Anesthésiste O
: O
Dr O
[NOM] B-PER
KARAM B-PER
Lydia I-PER
DOSSIER O
DE O
CONSULTATION O
@@ -1143,24 +1148,26 @@ Date O
Nom O
: O
M. O
[NOM] B-PER
GASTESI B-PER
Michel I-PER
Né(e) O
le O
: O
[DATE_NAISSANCE] B-DATE_NAISSANCE
01/02/1952 B-DATE_NAISSANCE
71 O
ans O
N°Ipp O
: O
[IPP] B-IPP
20023294 B-IPP
N° O
Csult O
: O
[DOSSIER] B-NDA
23605230 B-NDA
/ O
Nom O
naiss. O
: O
[DOSSIER] B-NDA
23060661 B-NDA
Poids O
: O
87 O
@@ -1176,12 +1183,17 @@ Profession O
: O
Adresse O
: O
[ADRESSE] B-ADRESSE
[CODE_POSTAL] B-ZIP
137 B-ADRESSE
HAMEAU I-ADRESSE
DE I-ADRESSE
GARLATZETXE B-ZIP
ALAIA I-ZIP
64700 I-ZIP
BIRIATOU I-ZIP
N° O
Tél O
: O
[TEL] B-TEL
0559203820 B-TEL
. O
Baby-Noradrénaline O
@@ -1194,13 +1206,12 @@ PRE-ANESTHESIQUE O
Date O
: O
02/04/2023 O
15 O
: O
02 O
15:02 O
Anesthésiste O
: O
Dr O
[NOM] B-PER
LEONARD B-PER
Grégoire I-PER
VPA O
/ O
Eléments O
@@ -1242,40 +1253,41 @@ Le O
02 O
Avril O
2023 O
17 O
: O
30 O
17:30 O
Page O
: O
3/3 O
Anesthésiste O
: O
Dr O
[NOM] B-PER
KARAM B-PER
Lydia I-PER
Prémédication O
IPP O
I.P.P. O
: O
[IPP] B-IPP
20023294 B-IPP
Patient O
: O
[NOM] B-PER
[NOM] B-PER
[DATE_NAISSANCE] B-DATE_NAISSANCE
N° O
: O
[DOSSIER] B-NDA
Né(e) O
GASTESI B-PER
MICHEL I-PER
né(e) O
le O
: O
[DATE_NAISSANCE] B-DATE_NAISSANCE
01/02/1952 B-DATE_NAISSANCE
N° I-DATE_NAISSANCE
Interv I-DATE_NAISSANCE
: I-DATE_NAISSANCE
23060661 I-DATE_NAISSANCE
Né(e) I-DATE_NAISSANCE
le I-DATE_NAISSANCE
: I-DATE_NAISSANCE
01/02/1952 I-DATE_NAISSANCE
71 O
ans O
Date O
: O
29/03/2023 O
11 O
: O
40 O
11:40 O
Consigne(s) O
IDE O
PREPARATIONS O
@@ -1284,9 +1296,7 @@ jeun O
le O
06/04/2023 O
à O
00 O
: O
00 O
00:00 O
Merci O
de O
proposer O
@@ -1433,9 +1443,7 @@ CP O
- O
Articulaire O
-, O
Matin O
: O
1, O
Matin:1, O
A O
continuer O
le O
@@ -1446,9 +1454,7 @@ azarga O
10/5 O
// O
goutte, O
Matin O
: O
1, O
Matin:1, O
A O
continuer O
le O
@@ -1461,9 +1467,7 @@ mg O
- O
PO O
-, O
Soir O
: O
10 O
Soir:10 O
10 O
mg O
ezetimibbe O
@@ -1473,9 +1477,7 @@ CP O
- O
PO O
-, O
Soir O
: O
1, O
Soir:1, O
A O
continuer O
jusqu'à O
@@ -1488,17 +1490,13 @@ CP O
kardegic O
75mg O
//, O
Matin O
: O
1 O
Matin:1 O
monoprost O
// O
goutte O
[Oeil O
G], O
Soir O
: O
1, O
Soir:1, O
A O
continuer O
jusqu'à O
@@ -1515,9 +1513,7 @@ CP O
- O
PO O
-, O
Matin O
: O
1, O
Matin:1, O
Soir:1, O
A O
continuer O
@@ -1541,9 +1537,7 @@ CP O
- O
PO O
-, O
Soir O
: O
1, O
Soir:1, O
A O
continuer O
jusqu'à O
@@ -1558,40 +1552,41 @@ Le O
02 O
Avril O
2023 O
17 O
: O
30 O
17:30 O
Page O
: O
1/2 O
Anesthésiste O
: O
Dr O
[NOM] B-PER
KARAM B-PER
Lydia I-PER
Prémédication O
IPP O
I.P.P. O
: O
[IPP] B-IPP
20023294 B-IPP
Patient O
: O
[NOM] B-PER
[NOM] B-PER
[DATE_NAISSANCE] B-DATE_NAISSANCE
N° O
: O
[DOSSIER] B-NDA
Né(e) O
GASTESI B-PER
MICHEL I-PER
né(e) O
le O
: O
[DATE_NAISSANCE] B-DATE_NAISSANCE
01/02/1952 B-DATE_NAISSANCE
N° I-DATE_NAISSANCE
Interv I-DATE_NAISSANCE
: I-DATE_NAISSANCE
23060661 I-DATE_NAISSANCE
Né(e) I-DATE_NAISSANCE
le I-DATE_NAISSANCE
: I-DATE_NAISSANCE
01/02/1952 I-DATE_NAISSANCE
71 O
ans O
Date O
: O
29/03/2023 O
11 O
: O
40 O
11:40 O
Date O
/ O
Heure O
@@ -1602,9 +1597,7 @@ Le O
02 O
Avril O
2023 O
17 O
: O
30 O
17:30 O
Page O
: O
2/2 O