fix: corrections retours relecteur — fuites adresses/établissements + FP médicaments

Fuites corrigées :
- "Le BOURG" : nouveau regex RE_LIEU_DIT_SEUL pour lieux-dits courants
- "CABINET ETXEBARNONDOA" : nouveau regex RE_EXTRACT_CABINET
- "REED LES EMBRUNS" : ajouté force_mask_terms + force_mask_regex case-insensitive
- "au [ETABLISSEMENT] nocturne" : "long cours" exclu des phrases FINESS

Faux positifs corrigés :
- "OXYGENE LUNETTES" : "lunettes" ajouté aux stop-words
- "POTASSIUM CHLORURE" : "chlorure" ajouté aux stop-words
- Phrases FINESS génériques étendues (le bourg, le val, les pins...)

Score évaluation maintenu à 100.0/100 (A+)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-03-16 18:04:08 +01:00
parent d957e72aff
commit 27d19ebed7
2 changed files with 33 additions and 1 deletions

View File

@@ -28,7 +28,11 @@ blacklist:
- BAYONNE
- '64109'
- LABORATOIRE de BIOLOGIE MEDICALE
- REED LES EMBRUNS
- LES EMBRUNS
- EMBRUNS BIDART
force_mask_regex:
- '[Ee]mbruns'
- 'Centre\s+Hospitalier\s+(?:de\s+(?:la\s+)?)?C[oôÔ]te\s+Basque'
- 'Polyclinique\s+C[oôÔ]te\s+Basque\s+Sud'
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'