data/edsnlp — Gazetteer médicaments (extrait de edsnlp)
Contenu
drugs.json: dictionnaire code ATC → liste de noms de médicaments (1968 codes), extrait de edsnlp 0.20.0, fichieredsnlp/resources/drugs.json.
Usage
Ce fichier alimente _load_edsnlp_drug_names() dans
anonymizer_core_refactored_onnx.py. Les noms mono-mot de longueur ≥ 4 sont
chargés (en minuscules) comme gazetteer anti-faux-positif : ils empêchent
que des noms de médicaments (ex. « elisor », « kessar », « muse », « sirop »)
soient pris à tort pour des noms de personnes et sur-masqués.
Il est versionné dans le dépôt (et non lu depuis le package edsnlp au
runtime) afin que la whitelist médicaments reste complète dans le build Windows
torch-free (Plan 3), où edsnlp — qui importe torch en dur — n'est pas
disponible.
Attribution / Licence
drugs.json provient du projet edsnlp, distribué sous licence
BSD-3-Clause.
Copyright (c) 2021, Assistance Publique - Hôpitaux de Paris
Redistribution and use in source and binary forms, with or without modification, are permitted under the terms of the BSD-3-Clause license.
Source : https://github.com/aphp/edsnlp — edsnlp/resources/drugs.json
(version 0.20.0).