Stop words +170 : détection automatique FP via dictionnaire français (audit_fp_detector.py)
- Nouvel outil audit_fp_detector.py : croise NOM_GLOBAL avec dictionnaire FR (346K mots), patterns morphologiques médicaux, mots structurels DPI, fréquence inter-documents - +170 stop words en 2 lots : termes médicaux (abdomen, bilirubine, gastrique...), soins infirmiers (bijoux, ongles, maquillage, habillage...), mots courants (angle, bureau...) - Ville basque ajoutée : anglet - Résultat : 192/199 FP détectés couverts, 7 restants = artefacts OCR de vrais noms - Total stop words : 5076 tokens Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
@@ -385,7 +385,7 @@ _MEDICAL_STOP_WORDS_SET = {
|
||||
"bcy", "po2", "po1", "po3", "bha", "atg", "ras", "cat", "ass",
|
||||
# FP audit OGC 17 CRH
|
||||
"mode", "retraitee", "retraité", "retraitée", "régression", "regression", "tel",
|
||||
"strasbourg", "bordeaux", "toulouse", "paris", "lyon", "marseille", "bayonne",
|
||||
"strasbourg", "bordeaux", "toulouse", "paris", "lyon", "marseille", "bayonne", "anglet",
|
||||
# Spécialités/services récurrents comme FP NOM
|
||||
"cancérologie", "cancerologie", "réanimation", "reanimation",
|
||||
"urologie", "néphrologie", "nephrologie", "hématologie", "hematologie",
|
||||
@@ -399,6 +399,50 @@ _MEDICAL_STOP_WORDS_SET = {
|
||||
"transmissions", "transmission", "releve", "relevé",
|
||||
"objectif", "objectifs", "evaluation", "évaluation",
|
||||
"planification", "planifié", "planifiee",
|
||||
# ── FP détectés automatiquement par audit_fp_detector.py ──
|
||||
# Lot 2 : tokens basse confiance (DICT_FR seul) clairement non-noms
|
||||
"acide", "adulte", "ambulatoire", "avenue", "bandelette", "bassin",
|
||||
"bijoux", "bouche", "bouchon", "changes", "court", "demande", "dessert",
|
||||
"devenir", "diffusé", "douche", "entrée", "escarre", "espace",
|
||||
"explications", "fauteuil", "feuillet", "fixateur", "fois", "gamma",
|
||||
"germes", "glace", "habillage", "liste", "maquillage", "matelas",
|
||||
"mettre", "obésité", "ongles", "palais", "perlant", "pertes",
|
||||
"pièce", "plaie", "risque", "saint", "sang", "signe", "sonde",
|
||||
"tenue", "texte", "transaminases", "transit", "transmis", "urinal",
|
||||
"vernis", "vessie", "vrac",
|
||||
# Lot 2 : termes médicaux (préfixes/suffixes)
|
||||
"anatomo-pathologique", "anemie", "anémie", "angioscanner",
|
||||
"cétonurie", "cetonurie", "depilation", "dépilation",
|
||||
"folique", "gastroentérologue", "gastroenterologue",
|
||||
"microgrammes", "nalidixique", "naso-gastrique",
|
||||
"angio-irm", "neuro", "neuro-chirurgie", "endoplasmique",
|
||||
"cyto", "plaie-colle", "bionolyte",
|
||||
# Lot 1 (103 tokens, confiance >= 0.5) ──
|
||||
# Anatomie / clinique
|
||||
"abdomen", "aortique", "bilirubine", "drain", "gastrique", "histologique",
|
||||
"intraveineuse", "lithiasique", "macroscopie", "miction", "molles", "pelvienne",
|
||||
"plaquette", "plaquettes", "rectale", "sanguine", "sciatique", "selle", "urinaire",
|
||||
# Pathologies / symptômes
|
||||
"algie", "angoisse", "antécédent", "douloureuse", "dyslipidémie",
|
||||
"hemodialyse", "hemorragique", "hyperthermie", "hématologue",
|
||||
# Médicaments / matériel médical
|
||||
"ampoule", "antalgique", "antiseptique", "compresse", "flacon",
|
||||
"oxygène", "pansement", "vitamine",
|
||||
# Biologie / examens
|
||||
"biochimie", "biologie", "fer",
|
||||
# Actions / états cliniques
|
||||
"ablation", "absence", "admission", "bloc", "changement", "cliniquement",
|
||||
"cognitif", "couchage", "dispositif", "dynamique", "entretien", "histoire",
|
||||
"intervention", "position", "rappel", "relation", "retour", "réalisation",
|
||||
"résistant", "réévaluation", "situation", "temporaire", "urgence", "urgences",
|
||||
"urgent", "validation",
|
||||
# Mots courants / contextuels
|
||||
"angle", "bille", "boisson", "bureau", "campagne", "cases", "circuit",
|
||||
"clause", "concubin", "confortable", "demain", "densité", "dernière",
|
||||
"distant", "domaine", "elle", "fils", "frère", "grand", "horizon",
|
||||
"hui", "identifiant", "minuit", "murent", "neuf", "original", "pages",
|
||||
"personne", "premier", "quartier", "retraite", "route", "rés",
|
||||
"tam", "terrasses", "trouve", "verrouillé", "villa", "étage",
|
||||
}
|
||||
# Enrichissement automatique avec les ~4000 noms de médicaments d'edsnlp
|
||||
_MEDICAL_STOP_WORDS_SET.update(_load_edsnlp_drug_names())
|
||||
|
||||
Reference in New Issue
Block a user