Files
anonymisation/data/edsnlp/README.md

33 lines
1.2 KiB
Markdown

# data/edsnlp — Gazetteer médicaments (extrait de edsnlp)
## Contenu
- `drugs.json` : dictionnaire code ATC → liste de noms de médicaments (1968 codes),
extrait de **edsnlp 0.20.0**, fichier `edsnlp/resources/drugs.json`.
## Usage
Ce fichier alimente `_load_edsnlp_drug_names()` dans
`anonymizer_core_refactored_onnx.py`. Les noms mono-mot de longueur ≥ 4 sont
chargés (en minuscules) comme **gazetteer anti-faux-positif** : ils empêchent
que des noms de médicaments (ex. « elisor », « kessar », « muse », « sirop »)
soient pris à tort pour des noms de personnes et sur-masqués.
Il est versionné dans le dépôt (et non lu depuis le package `edsnlp` au
runtime) afin que la whitelist médicaments reste complète dans le build Windows
**torch-free** (Plan 3), où `edsnlp` — qui importe `torch` en dur — n'est pas
disponible.
## Attribution / Licence
`drugs.json` provient du projet **edsnlp**, distribué sous licence
**BSD-3-Clause**.
> Copyright (c) 2021, Assistance Publique - Hôpitaux de Paris
>
> Redistribution and use in source and binary forms, with or without
> modification, are permitted under the terms of the BSD-3-Clause license.
Source : https://github.com/aphp/edsnlp — `edsnlp/resources/drugs.json`
(version 0.20.0).