feat(phase2): Fine-tuning CamemBERT-bio v2 (F1=0.90) + enrichissement données
- Fine-tuning camembert-bio-base : F1=0.903, Recall=0.930 (vs 0.89/0.85) - Data augmentation : substitution noms INSEE (219K patronymes, x3 copies) - Hard negatives BDPM (5.7K médicaments) + QUAERO (1319 termes médicaux) - Annotations silver enrichies par gazetteers (+612 VILLE, +5 HOPITAL) - Export silver avec support multi-répertoires (--extra-dir) - Gazetteers QUAERO : CHEM, DISO, PROC, ANAT depuis DrBenchmark/QUAERO - Gazetteers INSEE : noms de famille fréquents (96K) et complets (219K) - Batch silver 1194 PDFs (run_batch_silver_export.py) pour dataset v3 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
395
data/quaero/quaero_chem_entities.txt
Normal file
395
data/quaero/quaero_chem_entities.txt
Normal file
@@ -0,0 +1,395 @@
|
||||
ADN
|
||||
ADN recombinant
|
||||
AINS
|
||||
ALAT
|
||||
ARN
|
||||
ASAT
|
||||
ATIII
|
||||
ATRIPLA
|
||||
Acide chlorhydrique
|
||||
Acide citrique anhydre
|
||||
Agent antithrombotique
|
||||
Agent immunosuppresseur
|
||||
Antiparkinsonien
|
||||
Atripla
|
||||
CD4
|
||||
COMPRIMES PELLICULES
|
||||
COMT
|
||||
CPK
|
||||
CS - 1
|
||||
CYP1A2
|
||||
CYP2C9
|
||||
Cellulose microcristalline
|
||||
Chlorure de sodium
|
||||
Citrate de sodium
|
||||
Colorants
|
||||
Comprimé
|
||||
Comprimé rond
|
||||
Comprimés
|
||||
Crospovidone
|
||||
Dihydrate de phosphate
|
||||
Dioxyde de titane
|
||||
E 421
|
||||
E171
|
||||
E421
|
||||
E433
|
||||
EPIVIR
|
||||
Eau
|
||||
Eau purifiée
|
||||
Epivir
|
||||
Ethylcellulose
|
||||
Facteur II
|
||||
Facteur X activé
|
||||
Facteur Xa
|
||||
Fluoxétine
|
||||
Gadolinium
|
||||
Glycolate d ’ amidon de sodium
|
||||
HBPM
|
||||
HDPE
|
||||
Hydroxyde de sodium
|
||||
Hydroxypropylcellulose
|
||||
Hypromellose
|
||||
Héparine
|
||||
INJECTION
|
||||
INTI
|
||||
IONSYS
|
||||
ISRS
|
||||
Inhibiteurs
|
||||
Jaune orangé S
|
||||
LCR
|
||||
Lactose
|
||||
Lamivudine
|
||||
Laurylsulfate de sodium
|
||||
Lepirudine
|
||||
MAO
|
||||
MadCAM - 1
|
||||
Mannitol
|
||||
Médicament
|
||||
Médicaments
|
||||
Méthionine
|
||||
OLANZAPINE TEVA
|
||||
Olanzapine Teva
|
||||
Oxyde de fer
|
||||
P450
|
||||
PRIALT
|
||||
PVC
|
||||
Phosphate de sodium
|
||||
Placebo
|
||||
Plaquette thermoformée
|
||||
Plaquettes thermoformées
|
||||
Polysorbate 80
|
||||
Poudre
|
||||
Prialt
|
||||
Propylène glycol
|
||||
QUIXIDAR
|
||||
Quixidar
|
||||
RECONCILE
|
||||
REFLUDAN
|
||||
Ranexa
|
||||
Reconcile
|
||||
Refludan
|
||||
SSRI
|
||||
Saccharose
|
||||
Silice
|
||||
Silice colloïdale anhydre
|
||||
Solution
|
||||
Stéarate de magnésium
|
||||
Sucrose
|
||||
TASMAR
|
||||
TYSABRI
|
||||
Tartrazine
|
||||
Tasmar
|
||||
Tolcapone
|
||||
Triacétine
|
||||
Truvada
|
||||
Tysabri
|
||||
VCAM - 1
|
||||
Warfarine
|
||||
Ziconotide
|
||||
Zyprexa
|
||||
acide acétylsalicylique
|
||||
acide carboxylique
|
||||
acide chlorhydrique
|
||||
acide ribonucléique
|
||||
acides aminés
|
||||
acétate
|
||||
acétate de glatiramère
|
||||
agents antirétroviraux
|
||||
alanine amino transférase
|
||||
alcool
|
||||
alcool primaire
|
||||
aluminium
|
||||
analgésique
|
||||
analgésiques
|
||||
analogues
|
||||
antalgiques
|
||||
anti-VIH
|
||||
anti-cancéreux
|
||||
antiagrégants plaquettaires
|
||||
anticancéreux
|
||||
anticholinergiques
|
||||
anticoagulant
|
||||
anticoagulants
|
||||
anticoagulants oraux
|
||||
anticorps
|
||||
anticorps anti - natalizumab
|
||||
antidote
|
||||
antiparkinsoniens
|
||||
antipsychotiques
|
||||
antirétroviral
|
||||
antirétroviraux
|
||||
antithrombine
|
||||
antithrombine III
|
||||
antithrombotique
|
||||
antithrombotiques
|
||||
antiviral
|
||||
antiviraux
|
||||
antivitamines K
|
||||
aspartate amino transférase
|
||||
aspartate aminotransférase
|
||||
association
|
||||
association d ’ antirétroviraux
|
||||
associations
|
||||
associations antirétrovirales
|
||||
baclofène
|
||||
bensérazide
|
||||
bromobutyle
|
||||
calcium
|
||||
canaux calciques
|
||||
caoutchouc
|
||||
caoutchouc butylique
|
||||
capsule
|
||||
carbidopa
|
||||
carcinogène
|
||||
catéchol-O-méthyltransférase
|
||||
catécholamines
|
||||
cellules de levure
|
||||
chlorhydrate de fentanyl
|
||||
chlorhydrate de fentayl
|
||||
chlorure de sodium
|
||||
cholestérol
|
||||
clastogène
|
||||
clomipramine
|
||||
clopidogrel
|
||||
co-trimoxazole
|
||||
colloïdale
|
||||
composants
|
||||
composés chimiques
|
||||
comprimé
|
||||
comprimé enrobé
|
||||
comprimé orodispersible
|
||||
comprimé pelliculé
|
||||
comprimés
|
||||
comprimés orodispersibles
|
||||
comprimés pelliculés
|
||||
connecting segment - 1
|
||||
conservateurs
|
||||
corticoïdes
|
||||
cotrimoxazole
|
||||
couleur
|
||||
coumariniques
|
||||
créatine phosphokinase
|
||||
créatinine
|
||||
cyclophosphamide
|
||||
cytidine
|
||||
cytochrome
|
||||
cytochromes P450 3A4
|
||||
daltéparine
|
||||
diacétate
|
||||
didanosine
|
||||
digoxine
|
||||
diluants
|
||||
dioxyde de titane
|
||||
dipyridamole
|
||||
dopamine
|
||||
dopaminergiques
|
||||
désipramine
|
||||
eau
|
||||
emtricitabine
|
||||
enoxaparine
|
||||
entacapone
|
||||
enzymatique P45
|
||||
enzyme
|
||||
enzymes du foie
|
||||
enzymes hépatiques
|
||||
epivir
|
||||
excipients
|
||||
facteur de coagulation Xa
|
||||
facteur plaquettaire 4
|
||||
fentanyl
|
||||
fibronectine
|
||||
fluoxétine
|
||||
fluvoxamine
|
||||
fondaparinux
|
||||
formes pharmaceutiques
|
||||
foscarnet
|
||||
fumarate
|
||||
gadolinium
|
||||
galactose
|
||||
ganciclovir
|
||||
gel
|
||||
glucose
|
||||
glucuronide
|
||||
glycérol
|
||||
graisse
|
||||
groupe méthyle
|
||||
hirudine
|
||||
huile
|
||||
hydroxyde
|
||||
hydroxyde de sodium
|
||||
hydroxytryptamine
|
||||
hypromellose
|
||||
hémoglobine
|
||||
héparine
|
||||
héparines
|
||||
immunosuppresseur
|
||||
immunosuppresseurs
|
||||
indicateurs
|
||||
ingrédients
|
||||
inhibiteur
|
||||
inhibiteur direct de la thrombine
|
||||
inhibiteur nucléotidique
|
||||
inhibiteur sélectif de la recapture de la sérotonine
|
||||
inhibiteurs
|
||||
inhibiteurs de la transcriptase inverse
|
||||
injectable
|
||||
injection
|
||||
interféron
|
||||
interféron bêta
|
||||
interféron bêta - 1a
|
||||
interférons bêta
|
||||
intégrine
|
||||
intégrine α 4
|
||||
intégrine α 4β 1
|
||||
intégrine α 4β 7
|
||||
intégrines
|
||||
jaune orangé S
|
||||
lactose
|
||||
lamivudine
|
||||
lamivudine 5 ’ - triphosphate
|
||||
laurylsulfate de sodium
|
||||
ligands
|
||||
lotions
|
||||
lépirudine
|
||||
lévodopa
|
||||
m édicament
|
||||
mannitol
|
||||
maprotiline
|
||||
mitoxantrone
|
||||
morphine
|
||||
mucosal addressin cell adhesion molecule - 1
|
||||
mutagène
|
||||
médicalement
|
||||
médicament
|
||||
médicament antipsychotique
|
||||
médicament antiviral
|
||||
médicament générique
|
||||
médicament orphelin
|
||||
médicament vétérinaire
|
||||
médicamenteuse
|
||||
médicaments
|
||||
médicaments anti-VIH
|
||||
médicaments antiparkinsoniens
|
||||
médicaments antirétroviraux
|
||||
médicaments antithrombotiques
|
||||
médicaments antiviraux
|
||||
médicaments contre la douleur
|
||||
médicaments dépresseurs du SNC
|
||||
médicaments à usage vétérinaire
|
||||
médication
|
||||
métabolite
|
||||
métabolites
|
||||
méthionine
|
||||
natalizumab
|
||||
neurotransmetteur
|
||||
neurotransmetteurs
|
||||
noradrénaline
|
||||
norfluoxétine
|
||||
nucléosidiques
|
||||
olanzapine
|
||||
opiacés
|
||||
opioïdes
|
||||
ostéopontine
|
||||
oxyde de fer
|
||||
oxyde de fer rouge
|
||||
particules
|
||||
peptidases
|
||||
peptide
|
||||
phosphate de sodium
|
||||
piroxicam
|
||||
placebo
|
||||
plaquette
|
||||
plaquette thermoformée
|
||||
plaquettes thermoformées
|
||||
polydextrose
|
||||
polymère fluoré
|
||||
polypeptide
|
||||
polysorbate 80
|
||||
polyéthylène
|
||||
polyéthylène haute densité
|
||||
poudre
|
||||
principe actif
|
||||
principes actifs
|
||||
produit de contraste
|
||||
protéases
|
||||
protéine
|
||||
protéines
|
||||
protéines plasmatiques
|
||||
protéique
|
||||
préparation injectable
|
||||
préparations injectables
|
||||
préparations à base de plantes
|
||||
rifampicine
|
||||
récepteur
|
||||
récepteurs
|
||||
récepteurs 5HT2A
|
||||
récepteurs D2
|
||||
saccharose
|
||||
sachet
|
||||
savon
|
||||
sites de fixation
|
||||
sodique
|
||||
sodium
|
||||
solution
|
||||
solution buvable
|
||||
solution injectable
|
||||
solution orale
|
||||
solution reconstituée
|
||||
solutions
|
||||
solvant
|
||||
substance
|
||||
substance active
|
||||
substance anticoagulante
|
||||
sucrase-isomaltase
|
||||
sucre
|
||||
sulfaméthoxazole
|
||||
sulfinpyrazone
|
||||
sédatif
|
||||
sérotonine
|
||||
talc
|
||||
tampon
|
||||
tartrazine
|
||||
tasmar
|
||||
thrombine
|
||||
ticlopidine
|
||||
tolcapone
|
||||
toxiques
|
||||
transaminases
|
||||
transcriptase inverse
|
||||
triacétine
|
||||
triglycérides
|
||||
triméthoprime
|
||||
triphosphate
|
||||
triphosphaté
|
||||
ténofovir
|
||||
ténofovir disoproxil
|
||||
valproate
|
||||
vascular cell adhesion molecule - 1
|
||||
venin
|
||||
voriconazole
|
||||
warfarine
|
||||
zalcitabine
|
||||
ziconotide
|
||||
zidovudine
|
||||
éfavirenz
|
||||
énoxaparine
|
||||
Reference in New Issue
Block a user