Files
anonymisation/data/edsnlp

data/edsnlp — Gazetteer médicaments (extrait de edsnlp)

Contenu

  • drugs.json : dictionnaire code ATC → liste de noms de médicaments (1968 codes), extrait de edsnlp 0.20.0, fichier edsnlp/resources/drugs.json.

Usage

Ce fichier alimente _load_edsnlp_drug_names() dans anonymizer_core_refactored_onnx.py. Les noms mono-mot de longueur ≥ 4 sont chargés (en minuscules) comme gazetteer anti-faux-positif : ils empêchent que des noms de médicaments (ex. « elisor », « kessar », « muse », « sirop ») soient pris à tort pour des noms de personnes et sur-masqués.

Il est versionné dans le dépôt (et non lu depuis le package edsnlp au runtime) afin que la whitelist médicaments reste complète dans le build Windows torch-free (Plan 3), où edsnlp — qui importe torch en dur — n'est pas disponible.

Attribution / Licence

drugs.json provient du projet edsnlp, distribué sous licence BSD-3-Clause.

Copyright (c) 2021, Assistance Publique - Hôpitaux de Paris

Redistribution and use in source and binary forms, with or without modification, are permitted under the terms of the BSD-3-Clause license.

Source : https://github.com/aphp/edsnlpedsnlp/resources/drugs.json (version 0.20.0).