# data/paranames — Gazetteers de noms mondiaux Issu de [paranames](https://github.com/bltlab/paranames) v2024.05.07.0, sous licence **CC BY 4.0**. ## Citation > Sälevä, J., & Lignos, C. (2024). *ParaNames 1.0: Creating an Entity Name > Corpus for 400+ Languages using Wikidata.* In Proceedings of LREC-COLING > 2024. Lien : ## Contenu | Fichier | Description | |----------------------------------|--------------------------------------------------------------------| | `noms_famille_world.txt.gz` | Noms de famille mondiaux (UPPERCASE, NFKD sans diacritiques, A-Z). | | `prenoms_world.txt.gz` | Prénoms mondiaux (UPPERCASE, NFKD sans diacritiques, A-Z). | | `EXTRACTION.md` | Procédure reproductible d'extraction. | Les deux fichiers sont triés alphabétiquement, encodés UTF-8, compressés gzip niveau 9. Une entrée par ligne. ## Régénération ```bash python scripts/build_paranames_gazetteer.py ``` Le script est **idempotent** : relance = même résultat. Le cache HuggingFace (~/.cache/huggingface/) évite tout re-téléchargement. Voir [EXTRACTION.md](EXTRACTION.md) pour le détail de la procédure. ## Source amont - **Repo** : - **Mirror HuggingFace** : - **Données** : `data/train.parquet` (~1.33 GB, 124 M lignes — noms parallèles de plus de 12 M d'entités nommées dans 400+ langues, extraits de Wikidata). - **Filtrage appliqué** : seuls les `type == "PER"` (personnes) sont retenus. ## Utilisation dans l'anonymiseur Ces gazetteers complètent les listes INSEE (françaises) pour couvrir les noms **internationaux** (basques, vietnamiens, arabes, asiatiques, africains…) fréquents dans les documents médicaux français des CHU et hôpitaux de territoires multi-ethniques (La Réunion, Antilles, métropole). Charger en lecture : ```python import gzip with gzip.open("data/paranames/noms_famille_world.txt.gz", "rt", encoding="utf-8") as f: NOMS_WORLD = {line.strip() for line in f if line.strip()} ``` ## Attribution dans l'application L'écran « À propos » de l'application Pseudonymisation mentionne : > Gazetteers de noms mondiaux issus de paranames (Sälevä & Lignos, 2024) > sous licence CC BY 4.0.