33 lines
1.2 KiB
Markdown
33 lines
1.2 KiB
Markdown
# data/edsnlp — Gazetteer médicaments (extrait de edsnlp)
|
|
|
|
## Contenu
|
|
|
|
- `drugs.json` : dictionnaire code ATC → liste de noms de médicaments (1968 codes),
|
|
extrait de **edsnlp 0.20.0**, fichier `edsnlp/resources/drugs.json`.
|
|
|
|
## Usage
|
|
|
|
Ce fichier alimente `_load_edsnlp_drug_names()` dans
|
|
`anonymizer_core_refactored_onnx.py`. Les noms mono-mot de longueur ≥ 4 sont
|
|
chargés (en minuscules) comme **gazetteer anti-faux-positif** : ils empêchent
|
|
que des noms de médicaments (ex. « elisor », « kessar », « muse », « sirop »)
|
|
soient pris à tort pour des noms de personnes et sur-masqués.
|
|
|
|
Il est versionné dans le dépôt (et non lu depuis le package `edsnlp` au
|
|
runtime) afin que la whitelist médicaments reste complète dans le build Windows
|
|
**torch-free** (Plan 3), où `edsnlp` — qui importe `torch` en dur — n'est pas
|
|
disponible.
|
|
|
|
## Attribution / Licence
|
|
|
|
`drugs.json` provient du projet **edsnlp**, distribué sous licence
|
|
**BSD-3-Clause**.
|
|
|
|
> Copyright (c) 2021, Assistance Publique - Hôpitaux de Paris
|
|
>
|
|
> Redistribution and use in source and binary forms, with or without
|
|
> modification, are permitted under the terms of the BSD-3-Clause license.
|
|
|
|
Source : https://github.com/aphp/edsnlp — `edsnlp/resources/drugs.json`
|
|
(version 0.20.0).
|