Revert "refactor: réduction stop-words manuels — NER cross-validation suffit"
This reverts commit fb7896f88d.
This commit is contained in:
@@ -459,40 +459,367 @@ def validate_nir(nir_raw: str) -> bool:
|
||||
|
||||
# Mots médicaux/techniques/courants qui ne sont pas des noms de personnes
|
||||
_MEDICAL_STOP_WORDS_SET = {
|
||||
# ── Ensemble réduit (mars 2026) ──
|
||||
# La majorité des termes purement médicaux ont été retirés car la cross-validation
|
||||
# NER (_cross_validate_name_candidates) gère désormais les décisions contextuelles.
|
||||
# Restent ici UNIQUEMENT :
|
||||
# 1. Mots français courts (2-3 lettres) très fréquents et ambigus
|
||||
# 2. Abréviations médicales courtes qui sont aussi des noms INSEE
|
||||
# 3. Formes galéniques qui apparaissent juste à côté des noms dans les prescriptions
|
||||
# 4. Titres/rôles et mots structurels qui déclenchent systématiquement des FP
|
||||
# Les ~233 mots ambigus (termes courants ET noms INSEE) sont dans data/stopwords_manuels.txt.
|
||||
# Les ~7300 noms de médicaments BDPM sont chargés depuis data/bdpm/medicaments_stopwords.txt.
|
||||
# Les ~2000 noms edsnlp sont chargés via _load_edsnlp_drug_names().
|
||||
|
||||
# Mots français très courts (2-3 lettres) — aussi noms de famille INSEE
|
||||
"pas", "mon", "bon", "car", "que", "qui", "par", "les", "des", "une",
|
||||
"est", "son", "ses", "nos", "aux", "ces", "sur", "non", "oui", "peu",
|
||||
"bas", "fer", "fin", "sol", "gel", "lit", "rue",
|
||||
|
||||
# Prépositions / conjonctions / adverbes courts (>3 lettres mais ultra-fréquents)
|
||||
"mais", "donc", "avec", "dans", "pour", "sous", "vers", "sans", "chez",
|
||||
"puis", "très", "plus", "elle", "nous", "vous", "leur", "tout", "tous",
|
||||
|
||||
# Formes galéniques / voies d'administration (apparaissent juste à côté des noms)
|
||||
"comprime", "comprimé", "gelule", "gélule", "injectable", "solution",
|
||||
"capsule", "capsules", "suppositoire", "patch", "sachet", "gouttes",
|
||||
|
||||
# Titres / rôles hospitaliers (déclenchent des FP NOM systématiques)
|
||||
"docteur", "professeur", "monsieur", "madame", "patient", "patiente",
|
||||
"médecin", "infirmier", "infirmière", "praticien",
|
||||
|
||||
# Abréviations médicales courtes (3 lettres) qui sont aussi noms INSEE
|
||||
"ide", "ira", "amp", "ivo", "ado", "epp", "tep",
|
||||
|
||||
# Dosages avec unités (capturés à tort comme début de nom en ALL-CAPS)
|
||||
"10mg", "20mg", "40mg", "100mg", "300ui", "500ml",
|
||||
# Mots français courants (déterminants, prépositions, adverbes, etc.)
|
||||
"pas", "mon", "bien", "ancien", "ancienne", "bon", "bonne", "tout", "tous",
|
||||
"mais", "donc", "car", "que", "qui", "avec", "dans", "pour", "sur", "par",
|
||||
"les", "des", "une", "est", "son", "ses", "nos", "aux", "cette", "ces",
|
||||
"cher", "chez", "entre", "sans", "sous", "vers", "selon", "après", "avant",
|
||||
"puis", "aussi", "très", "plus", "moins", "peu", "non", "oui", "quelques",
|
||||
"mise", "début", "fin", "suite", "fait", "lieu", "cas", "jour", "jours",
|
||||
"semaine", "semaines", "mois", "temps", "place", "nouvelle", "nouveau",
|
||||
"franche", "légère", "quelque", "depuis", "comme", "encore", "votre",
|
||||
"date", "note", "notes", "nom", "heure", "matin", "soir", "midi",
|
||||
"signé", "réalisé", "courrier", "cabinet", "rue",
|
||||
# Verbes / participes courants
|
||||
"remontée", "associée", "réalisée", "débuté", "prolongé", "prolongée",
|
||||
"prescrit", "prescrite", "présente", "présent", "absente", "absent",
|
||||
"reprise", "introduction", "arrêt", "relais",
|
||||
# Titres / rôles hospitaliers
|
||||
"chef", "assistant", "assistante", "praticien", "praticienne",
|
||||
"docteur", "professeur", "hospitalier", "hospitalière", "hospitaliers",
|
||||
"spécialiste", "contractuel", "contractuelle", "titulaire",
|
||||
"confrère", "consoeur", "coordonnateur", "coordonnatrice",
|
||||
"médecin", "médical", "infirmier", "infirmière",
|
||||
"praticiens", "patient", "patiente",
|
||||
# Structure hospitalière
|
||||
"service", "pôle", "clinique", "consultation", "secrétariat",
|
||||
"hôpital", "hôpitaux", "centre", "établissement", "polyclinique",
|
||||
# Villes / géographie (pas des noms de personnes)
|
||||
"bordeaux", "bayonne", "paris", "lyon", "lille", "marseille",
|
||||
"toulouse", "nantes", "montpellier", "pessac", "biarritz", "soustons",
|
||||
"basque", "basques", "sud", "côte",
|
||||
# Médicaments génériques et spécialités (DCI + noms commerciaux)
|
||||
"colchicine", "aspirine", "cortancyl", "bisoprolol", "entresto",
|
||||
"methotrexate", "eplerenone", "speciafoldine", "prednisone",
|
||||
"corticoïdes", "cortisone",
|
||||
"paracetamol", "metformine", "solupred", "novorapid", "abasaglar",
|
||||
"lovenox", "methylprednisolone", "potassium", "humalog", "furosemide",
|
||||
"insuline", "trulicity", "forxiga", "atorvastatine", "amlodipine",
|
||||
"ondansetron", "eliquis", "nebivolol", "gaviscon", "loxen",
|
||||
"morphine", "oxycodone", "kardegic", "tercian", "zopiclone",
|
||||
"seresta", "tramadol", "alprazolam", "forlax", "levothyrox",
|
||||
"bromazepam", "gliclazide", "zymad", "pravastatine", "spiriva",
|
||||
"quetiapine", "sertraline", "crestor", "lercanidipine", "amoxicilline",
|
||||
"opocalcium", "ferinject", "candesartan", "ceftriaxone", "calcidose",
|
||||
"laroxyl", "brintellix", "ketoprofene", "adrenaline", "exacyl",
|
||||
"terbutaline", "ipratropium", "actiskenan", "vialebex", "oxynormoro",
|
||||
"lansoprazole", "perindopril", "sodium", "velmetia",
|
||||
"doliprane", "dafalgan", "efferalgan", "spasfon", "vogalene",
|
||||
"augmentin", "inexium", "omeprazole", "pantoprazole", "esomeprazole",
|
||||
"ramipril", "lisinopril", "enalapril", "losartan", "valsartan",
|
||||
"irbesartan", "olmesartan", "telmisartan", "hydrochlorothiazide",
|
||||
"spironolactone", "furosemide", "lasilix", "aldactone",
|
||||
"tahor", "crestor", "rosuvastatine", "simvastatine", "fluvastatine",
|
||||
"xarelto", "pradaxa", "apixaban", "rivaroxaban", "dabigatran",
|
||||
"plavix", "clopidogrel", "ticagrelor", "brilique",
|
||||
"ventoline", "seretide", "symbicort", "salmeterol", "fluticasone",
|
||||
"salbutamol", "tiotropium", "budesonide", "beclometasone",
|
||||
"oxycodone", "oxynorm", "skenan", "actiskenan", "fentanyl",
|
||||
"nubain", "nalbuphine", "nefopam", "acupan", "profenid",
|
||||
"ibuprofene", "diclofenac", "naproxene", "celecoxib",
|
||||
"gabapentine", "pregabaline", "lyrica", "neurontin",
|
||||
"amitriptyline", "duloxetine", "venlafaxine", "fluoxetine",
|
||||
"paroxetine", "escitalopram", "citalopram", "mirtazapine",
|
||||
"olanzapine", "risperidone", "aripiprazole", "haloperidol",
|
||||
"loxapine", "cyamemazine", "diazepam", "oxazepam", "lorazepam",
|
||||
"clonazepam", "midazolam", "hydroxyzine", "atarax", "melatonine",
|
||||
"stilnox", "zolpidem", "imovane",
|
||||
"levothyroxine", "metformine", "glimepiride", "sitagliptine",
|
||||
"januvia", "jardiance", "empagliflozine", "dapagliflozine",
|
||||
"ozempic", "semaglutide", "dulaglutide", "liraglutide", "victoza",
|
||||
"heparine", "enoxaparine", "tinzaparine", "innohep",
|
||||
"warfarine", "coumadine", "fluindione", "previscan",
|
||||
"ciprofloxacine", "levofloxacine", "ofloxacine", "metronidazole",
|
||||
"vancomycine", "gentamicine", "tazocilline", "piperacilline",
|
||||
"meropenem", "imipenem", "clindamycine", "doxycycline",
|
||||
"azithromycine", "clarithromycine", "cotrimoxazole", "bactrim",
|
||||
"polyionique", "propranolol", "apidra", "solostar",
|
||||
# Noms et suffixes laboratoires pharmaceutiques
|
||||
"arw", "myl", "myp", "arg", "teva", "bga", "agt",
|
||||
"mylan", "biogaran", "arrow", "sandoz", "zentiva", "cristers",
|
||||
"accord", "viatris", "ranbaxy", "ratiopharm", "almus", "qualimed",
|
||||
"evolugen", "alter", "zydus", "medisol", "substipharm",
|
||||
"sdz", "bgr", "egt", "rnb",
|
||||
# Formes galéniques / voies d'administration
|
||||
"cpr", "sachet", "orale", "oral", "sol", "buv", "stylo", "flexpen",
|
||||
"flestouch", "kwikpen", "inj", "susp", "gelule", "comprime",
|
||||
"unidose", "perf", "inh", "seringue", "aerosol", "sach", "pdr",
|
||||
"orodisp", "capsule", "patch", "suppositoire", "gouttes",
|
||||
# Termes de prescription / pharmacie
|
||||
"prescription", "prescriptions", "dose", "fréquence", "statut",
|
||||
"technique", "capteur", "bandelettes", "glycemiques", "glycemique",
|
||||
"lancettes", "aiguilles", "fines", "micro", "pompe", "réserve",
|
||||
"glycemie", "capillaire", "hgt",
|
||||
# Termes médicaux / cliniques
|
||||
"myocardite", "myosite", "corticothérapie", "biopsie", "pathologie",
|
||||
"dysimmunitaire", "récidive", "récidivante", "traitement", "diagnostic",
|
||||
"antécédents", "examen", "bilan", "résultats", "analyse",
|
||||
"interne", "externe", "médecine", "chirurgie", "rhumatologie",
|
||||
"dermatologie", "immunologie", "cardiologie", "pneumologie",
|
||||
"neurologie", "gynécologie", "radiologie", "sénologie",
|
||||
"douleur", "douleurs", "douloureux", "musculaire", "musculaires",
|
||||
"thoracique", "thoraciques", "membres", "supérieurs", "inférieurs",
|
||||
"normale", "normaux", "habituelle", "habituelles",
|
||||
"synthèse", "hospitalisation", "syndrome", "vaccination", "ophtalmo",
|
||||
"pelvien", "diabétique", "sommeil", "régime", "diet",
|
||||
"desinfection", "environnement", "identification", "bracelet",
|
||||
"toilettes", "accompagner", "installer", "transfusion",
|
||||
"signes", "vitaux", "alimentaire", "avis", "zone",
|
||||
"calcémie",
|
||||
# Abréviations médicales
|
||||
"irm", "ett", "ecg", "mtx", "fevg", "bdc", "crp", "sfu", "hdj",
|
||||
"bnp", "asat", "alat", "cpk", "ctc", "hba", "hba1c",
|
||||
"saos", "tsh", "inr", "vgm", "pnn", "plq", "hb",
|
||||
"poc", "bax", "act", "bic", "cfx", "acc", "ado", "acf", "vfo",
|
||||
"qvl", "cci", "pse", "pca", "chl", "crt", "bbm", "pds", "ren",
|
||||
"vit", "zen",
|
||||
"scanner", "radio", "écho", "échographie",
|
||||
# Spécialités médicales (éviter faux positifs NOM)
|
||||
"hépato-gastro-entérologue", "gastro-entérologue", "gastro-entérologie",
|
||||
"proctologue", "oncologue", "anesthésiste", "pneumologue", "gérontologue",
|
||||
"cardiologue", "néphrologue", "urologue", "gériatre",
|
||||
"hépatologue", "endocrinologue", "stomatologue",
|
||||
# Termes médicaux / titres fréquemment détectés comme NOM par le NER
|
||||
"supplémentation", "supplementation", "endocrinologie", "monsieur", "madame",
|
||||
"suivi", "sortie", "emog", "ophtalmo",
|
||||
# Médicaments détectés comme NOM/PRENOM par EDS-Pseudo
|
||||
"eliquis", "trulicity", "saos", "wind", "taxotere", "eupantol", "ezetimibe",
|
||||
"lansoyl", "xatral", "xenetix", "trimbow", "buspirone", "cetirizine",
|
||||
"depakote", "versatis", "durogesic", "montelukast", "metformine", "viatris",
|
||||
"rosuvastatine", "gliclazide", "amlodipine", "perindopril", "nebivolol",
|
||||
"pravastatine", "bisoprolol", "amoxicilline", "kardegic", "lovenox",
|
||||
# Termes médicaux / soins / actes détectés comme NOM
|
||||
"partielle", "cutanee", "cutané", "cutanée", "osseuse", "diabetique",
|
||||
"diabétique", "transdermique", "transderm", "diarrhees", "diarrhées",
|
||||
"ionogramme", "scintigraphie", "thoraco", "thorax", "négative", "negative",
|
||||
"diététicienne", "pressurise", "pressuriser", "inhalee", "inhalée", "inhal",
|
||||
# Mots courants français détectés comme NOM dans les trackare
|
||||
"toilette", "repas", "poche", "installation", "education", "éducation",
|
||||
"refection", "réfection", "complete", "complète", "regime", "régime",
|
||||
"normal", "traité", "traite", "arrêté", "arrete", "volume",
|
||||
"commentaires", "france", "covid", "framboise", "epoux", "époux",
|
||||
# Abréviations médicales courtes (3-4 chars) détectées comme NOM
|
||||
"ide", "ipp", "pcr", "tap", "gel", "ahl", "ssr", "hds", "tca", "etp",
|
||||
"mcg", "sdz", "iao", "ser", "orod", "clav", "disp", "cart", "atcd", "mdrd",
|
||||
"amox", "endoc", "microg", "item", "pyélo", "néphro",
|
||||
# En-têtes de colonnes / mots structurels trackare
|
||||
"observations", "observation", "commentaires", "commentaire",
|
||||
"surveillance", "température", "temperature", "glycémie", "glycemie",
|
||||
"diurèse", "diurese", "balance", "pouls", "systolique", "diastolique",
|
||||
"saturation", "fréquence", "frequence", "respiratoire", "douleur",
|
||||
"alertes", "alerte", "antécédents", "antecedents", "habitus",
|
||||
"allergies", "prescriptions", "prescription", "administration",
|
||||
"catégorie", "categorie", "expiration", "message",
|
||||
"destination", "diagnostique", "diagnostiques",
|
||||
"date", "note", "nom", "heure", "type", "code", "etat",
|
||||
"comprime", "comprimé", "gelule", "gélule", "solution", "injectable",
|
||||
# Médicaments supplémentaires détectés dans les trackare
|
||||
"depakote", "versatis", "humalog", "forxiga", "durogesic",
|
||||
"montelukast", "rosuvastatine",
|
||||
# Abréviations pharma courtes
|
||||
"cpr", "sol", "bic", "agt", "poche", "inhal",
|
||||
# Termes chirurgicaux/cliniques FP
|
||||
"cure", "endocrine", "operatoire", "opératoire", "realisee", "réalisée",
|
||||
"gauche", "droit", "droite", "face", "profil",
|
||||
# Faux positifs EDS supplémentaires
|
||||
"psy", "inhales", "inhalés", "kwikpen", "lansoprazole", "tiorfan", "smecta",
|
||||
"axa", "ttt", "anionique", "abdomino", "cod", "omi", "urg", "med",
|
||||
"10mg", "20mg", "40mg", "100mg", "300ui", "500ml", "innohep", "coaprovel",
|
||||
"actiskenan", "simvastatine", "forlax",
|
||||
# Mots temporels / contextuels détectés comme EDS_HOPITAL
|
||||
"semaine", "jour", "matin", "soir", "nuit", "midi",
|
||||
# Mots clés de contexte document
|
||||
"compétences", "maladies", "inflammatoires", "systémiques", "rares",
|
||||
"fret", "fax", "contexte", "résultat", "resultat", "résultats", "resultats",
|
||||
"haute", "maison", "aide", "rpps", "poste", "fonct",
|
||||
"sante", "santé", "etxe", "ttipi", "gastro", "concha",
|
||||
"endoscopie", "endoscopique", "fibroscopie",
|
||||
"indication", "conclusion", "technique", "anesthésie",
|
||||
"digestif", "digestive", "digestives", "nutritive",
|
||||
# Abréviations soins trackare détectées comme NOM (batch 20 OGC)
|
||||
"soins", "lit", "jeun", "lever", "pose", "surv", "ggt", "vvp",
|
||||
# Verbes d'instructions soins (aussi des patronymes INSEE → FP)
|
||||
"coucher", "manger", "marcher", "sortir",
|
||||
"verif", "crop", "evs", "maco", "pan", "cet", "trou", "nit", "nfs",
|
||||
# Mots narratifs CRH capturés par fusion sidebar 2-colonnes
|
||||
"evolution", "évolution", "explorations", "fermeture", "allergie", "allergies",
|
||||
"lotissement", "cholangiographie", "cholecystectomie", "cholécystectomie",
|
||||
"paracetamol", "paracétamol", "unité", "unite",
|
||||
# FP résiduels batch 10 OGC (termes médicaux/instructions soins)
|
||||
"glyc", "glycosurie", "vider", "forte",
|
||||
# FP audit batch 59 OGC (mots courants/médicaux flagués comme NOM)
|
||||
"oncologie", "confrères", "confrere", "doubles", "chers", "motif",
|
||||
"responsable", "autre", "autres", "autonome", "autonomes",
|
||||
"préparations", "preparations", "prévenir", "prevenir",
|
||||
"acétylsalicylique", "acetylsalicylique", "angio",
|
||||
"desc", "diu", "barreau",
|
||||
"haitz", "alde",
|
||||
# FP audit OGC 21 — termes médicaux/courants flagués NOM_GLOBAL
|
||||
"alimentation", "augmentation", "amelioration", "amélioration",
|
||||
"biliaire", "biliaires", "bili", "voies", "voie",
|
||||
"apyrexie", "apyréxie", "apyrétique", "apyretique",
|
||||
"clavulanique", "mecillinam", "sulfamides", "sulfamide",
|
||||
"tazobactam", "temocilline", "ecoflac", "furanes", "furane",
|
||||
"exilar", "lipruzet", "mopral",
|
||||
"sensible", "sensibles", "dossier", "dossiers",
|
||||
"entero", "entéro", "medecine", "bio",
|
||||
"aviation", "contention", "isolement",
|
||||
"elimination", "élimination", "infectieux",
|
||||
"hémodynamique", "hemodynamique", "pancréatite", "pancreatite",
|
||||
"cholecystite", "cholécystite", "cholécystectomie", "cholecystectomie",
|
||||
"appendicectomie", "néoplasie", "neoplasie",
|
||||
"ovarienne", "prandial", "fébrile", "febrile",
|
||||
"eupnéique", "eupneique", "normocarde", "normotendue",
|
||||
"variable", "dosage", "posologie",
|
||||
# Abréviations diététiques/soins trackare
|
||||
"bcy", "po2", "po1", "po3", "bha", "atg", "ras", "cat", "ass",
|
||||
# FP audit OGC 17 CRH
|
||||
"mode", "retraitee", "retraité", "retraitée", "régression", "regression", "tel",
|
||||
"strasbourg", "bordeaux", "toulouse", "paris", "lyon", "marseille", "bayonne", "anglet",
|
||||
"saint-palais", "tarnos", "hendaye", "dax", "orthez", "oloron", "pau", "cambo",
|
||||
# Spécialités/services récurrents comme FP NOM
|
||||
"cancérologie", "cancerologie", "réanimation", "reanimation",
|
||||
"urologie", "néphrologie", "nephrologie", "hématologie", "hematologie",
|
||||
"gériatrie", "geriatrie", "pédiatrie", "pediatrie",
|
||||
"ophtalmologie", "stomatologie", "allergologie",
|
||||
"kinésithérapie", "kinesitherapie", "ergothérapie", "ergotherapie",
|
||||
"orthopédie", "orthopedie", "traumatologie",
|
||||
"palliatifs", "palliative", "palliatif",
|
||||
"addictologie", "alcoologie", "tabacologie",
|
||||
# FP soignants trackare (mots courants capturés par patterns Note d'évolution / Signé / Flacon)
|
||||
"discussion", "echelle", "échelle", "scope", "tdm", "bouteille",
|
||||
"evendol", "relais", "repas", "poursuite", "indication",
|
||||
# FP pattern timestamp (termes ALL-CAPS capturés par "HH:MM NOM")
|
||||
"eliminatin", "elimination", "élimination", "preremplie", "pré-remplie",
|
||||
"thermie", "alim", "alimentation", "admin",
|
||||
# Médicaments/tests labo capturés par patterns soignants
|
||||
"biprofenid", "bi-profenid", "phosphatase", "phosphatases",
|
||||
"ecbu", "suppo", "suppositoire", "mucite", "microlax", "normacol",
|
||||
"ciprofloxacine", "lavement", "desinfection", "désinfection",
|
||||
"avaler", "rachis", "lombaire", "thoraco-lombaire",
|
||||
"cérébrale", "cerebrale", "cérébral", "cerebral", "hépatique", "hepatique",
|
||||
"thoracique", "abdominale", "abdominal", "pelvienne", "pelvien", "médullaire",
|
||||
# Dosages et labos pharma (FP fréquents dans prescriptions Trackare)
|
||||
"faible", "fort", "forte",
|
||||
"myl", "mylan", "sandoz", "teva", "arrow", "biogaran", "zentiva", "eg",
|
||||
"arw", "pan", "mso", "bgn", "ratiopharm", "accord", "vts", "viatris",
|
||||
"abdomino-pelvien", "abdomino", "pelvien", "thoraco-abdominal",
|
||||
"entree", "entrée", "continu", "continue",
|
||||
"morphine", "claforan", "skenan", "actiskenan",
|
||||
# Fragments de noms de médicaments (pdfplumber split)
|
||||
"sium", "pegic", "fenid", "profenid",
|
||||
# Catégories cliniques Trackare (en-têtes de section masqués à tort)
|
||||
"respi", "respiratoire", "nephro", "cardio", "neuro", "onco", "pulmo",
|
||||
"hemato", "hémato", "infectieux", "thermie", "diurese", "diurèse",
|
||||
"transit", "anemie", "anémie", "constantes", "examen",
|
||||
"post-op", "postop", "pré-op", "preop", "chimio", "elim",
|
||||
"toilette", "sommeil", "hypota", "hypotension", "spo2",
|
||||
"urine", "urines", "sng",
|
||||
"rénale", "renale", "rénal", "renal", "cardiaque",
|
||||
# Termes structurels trackare
|
||||
"transmissions", "transmission", "releve", "relevé",
|
||||
"objectif", "objectifs", "evaluation", "évaluation",
|
||||
"planification", "planifié", "planifiee",
|
||||
# ── FP détectés automatiquement par audit_fp_detector.py ──
|
||||
# Lot 2 : tokens basse confiance (DICT_FR seul) clairement non-noms
|
||||
"acide", "adulte", "ambulatoire", "avenue", "bandelette", "bassin",
|
||||
"bijoux", "bouche", "bouchon", "changes", "court", "demande", "dessert",
|
||||
"devenir", "diffusé", "douche", "entrée", "escarre", "espace",
|
||||
"explications", "fauteuil", "feuillet", "fixateur", "fois", "gamma",
|
||||
"germes", "glace", "habillage", "liste", "maquillage", "matelas",
|
||||
"mettre", "obésité", "ongles", "palais", "perlant", "pertes",
|
||||
"pièce", "plaie", "risque", "saint", "sang", "signe", "sonde",
|
||||
"tenue", "texte", "transaminases", "transit", "transmis", "urinal",
|
||||
"vernis", "vessie", "vrac",
|
||||
# Lot 2 : termes médicaux (préfixes/suffixes)
|
||||
"anatomo-pathologique", "anemie", "anémie", "angioscanner",
|
||||
"cétonurie", "cetonurie", "depilation", "dépilation",
|
||||
"folique", "gastroentérologue", "gastroenterologue",
|
||||
"microgrammes", "nalidixique", "naso-gastrique",
|
||||
"angio-irm", "neuro", "neuro-chirurgie", "endoplasmique",
|
||||
"cyto", "plaie-colle", "bionolyte",
|
||||
# Lot 1 (103 tokens, confiance >= 0.5) ──
|
||||
# Anatomie / clinique
|
||||
"abdomen", "aortique", "bilirubine", "drain", "gastrique", "histologique",
|
||||
"intraveineuse", "lithiasique", "macroscopie", "miction", "molles", "pelvienne",
|
||||
"plaquette", "plaquettes", "rectale", "sanguine", "sciatique", "selle", "urinaire",
|
||||
# Pathologies / symptômes
|
||||
"algie", "angoisse", "antécédent", "douloureuse", "dyslipidémie",
|
||||
"hemodialyse", "hemorragique", "hyperthermie", "hématologue",
|
||||
# Médicaments / matériel médical
|
||||
"ampoule", "antalgique", "antiseptique", "compresse", "flacon",
|
||||
"oxygène", "pansement", "vitamine",
|
||||
# Biologie / examens
|
||||
"biochimie", "biologie", "fer",
|
||||
# Actions / états cliniques
|
||||
"ablation", "absence", "admission", "bloc", "changement", "cliniquement",
|
||||
"cognitif", "couchage", "dispositif", "dynamique", "entretien", "histoire",
|
||||
"intervention", "position", "rappel", "relation", "retour", "réalisation",
|
||||
"résistant", "réévaluation", "situation", "temporaire", "urgence", "urgences",
|
||||
"urgent", "validation",
|
||||
# Mots courants / contextuels
|
||||
"angle", "bille", "boisson", "bureau", "cases", "circuit",
|
||||
"concubin", "confortable", "demain", "densité", "dernière",
|
||||
"distant", "domaine", "elle", "fils", "frère", "grand", "horizon",
|
||||
"hui", "identifiant", "minuit", "murent", "neuf", "original", "pages",
|
||||
"personne", "premier", "quartier", "retraite", "route", "rés",
|
||||
"trouve", "verrouillé", "villa", "étage",
|
||||
# Termes médicaux courants faussement détectés comme NOM (Phase 2 audit mars 2026)
|
||||
"ains", "ponction", "hanche", "burkitt", "orl", "gds", "oap", "tvp", "epp",
|
||||
"bronchite", "accueil", "cadre", "transfert", "relecture", "examens",
|
||||
"traitements", "traitement", "infectiologie", "cancérologie", "cancerologie",
|
||||
"maternité", "orale", "sachet", "absence",
|
||||
# FP audit 30 fichiers Phase 2 (mars 2026)
|
||||
"bouffee", "bouffée", "discontinue", "respimat", "lyoc",
|
||||
"probnp", "pro-bnp", "nt-probnp",
|
||||
"bpco", "colle", "gsc", "masse",
|
||||
"selle", "selles",
|
||||
# Acronymes médicaux courts (3 lettres) souvent FP comme NOM
|
||||
"epo", "irc", "sib", "inr", "iec", "ira", "ait", "avc",
|
||||
"imc", "ipp", "ivo", "amp", "ivg", "img", "had", "ssr",
|
||||
"hta", "ecg", "irm", "tep", "crp", "nfs", "bhc", "vgm",
|
||||
"vni", "aeg", "bas", "snv", "hba", "ide", "dci",
|
||||
# Termes pharmaceutiques FP comme NOM (audit 30 fichiers mars 2026)
|
||||
"buvable", "buvables", "nominal", "nominaux",
|
||||
"acide", "principale", "principal", "principaux",
|
||||
"hyaluronique", "valproique", "valproïque", "tranexamique", "tranéxamique",
|
||||
"clavulanique", "nalidixique",
|
||||
"grancher", # Centre de réadaptation (nom d'établissement homonyme)
|
||||
"experf", # Prestataire HAD (nom commercial homonyme)
|
||||
# Noms de services hospitaliers (FP comme [NOM])
|
||||
"ortho", "mobile", "polyvalente", "polyvalent",
|
||||
"geriatrie", "gériatrie", "ambulatoire", "provisoire",
|
||||
"intraveineuse", "intraveineux", "sous-cutanee", "sous-cutané",
|
||||
# Noms de services hospitaliers (aussi patronymes INSEE → FP récurrents)
|
||||
"viscerale", "viscérale", "vasculaire", "vasculaires",
|
||||
"conventionnelle", "conventionnel",
|
||||
"polyvalente", "polyvalent",
|
||||
"infectieuse", "infectieuses",
|
||||
# Termes soins infirmiers / activités de la vie quotidienne (FP trackare doc 216)
|
||||
"aide", "partielle", "partiel", "complete", "complète", "complet",
|
||||
"contention", "lavabo", "blader", "scan", "post", "lunettes",
|
||||
"deshabillage", "déshabillage", "habillage",
|
||||
"surveillance", "surv", "refection", "réfection",
|
||||
"miction", "toilette", "douche", "changes",
|
||||
"installation", "transfert", "mobilisation",
|
||||
"alimentation", "hydratation", "collation",
|
||||
"stimulation", "prevention", "prévention",
|
||||
# Termes pharmaceutiques/matériel médical FP (retour relecteur 2026-03-16)
|
||||
"chlorure",
|
||||
# Dispositifs médicaux (FP "OXYGENE LUNETTES" → [NOM])
|
||||
"canule", "canules", "masque", "sonde", "sondes",
|
||||
# Termes chirurgicaux FP comme [NOM] (retour relecteur 2026-03-17)
|
||||
"totale", "total", "partielle", "partiel",
|
||||
"prothese", "prothèse", "protheses", "prothèses", "unicompartimentale",
|
||||
# Antiseptiques / produits de soins (FP trackare prescriptions)
|
||||
"betascrub", "hibiscrub", "betadine", "biseptine", "chlorhexidine",
|
||||
# Nutrition entérale / compléments
|
||||
"fresubin", "nutrison", "sondalis", "isosource", "novasource",
|
||||
# Termes médicaux FP dans bactério / texte libre
|
||||
"nombreuses", "nombreux", "plusieurs", "quelques",
|
||||
"internationale", "international",
|
||||
"resorbable", "résorbable", "resorbables", "résorbables",
|
||||
"alfa", "capsule", "capsules",
|
||||
}
|
||||
# Enrichissement automatique avec les ~4000 noms de médicaments d'edsnlp
|
||||
_MEDICAL_STOP_WORDS_SET.update(_load_edsnlp_drug_names())
|
||||
|
||||
Reference in New Issue
Block a user