87f5e48d66429053a354ce589fda94cca47f6899
Trois détecteurs simples « layout/context-aware » (chantier v11.5 P0), validés par 2 revues Codex + 10 tests adversariaux Qwen, 0 régression : - RE_ADRESSE réécrit en grammaire de tokens (_RE_VOIE_TYPE + _RE_VOIE_TOKEN) : capture initiales (« J. Loeb »), voies commémoratives à chiffres (« 8 Mai 1945 »), apostrophes ' et ’, bornage à la ligne courante, arrêt sur point post-mot (anti-débordement clinique). - _mask_ville_gazetteers : retourne toujours un tuple (texte, liste) même sans Aho-Corasick ; masque les communes Saint/St/Sainte/Ste multi-mots à espaces (« St Martin de Hinx ») entièrement, sans exiger de contexte géo. - DATE_NAISSANCE retiré de la propagation globale + DATE_NAISSANCE_GLOBAL ajouté aux skip vector/raster : on ne masque plus une date nue sur tout le document. La DDN reste masquée en contexte fort, page par page. Les dates cliniques identiques à la DDN hors contexte sont préservées. tests/unit/test_p0_layout_detectors.py : 38 tests dédiés (matrice adresse générique, anti-FP, communes Saint, propagation DDN, 10 tests adversariaux Qwen). Suite tests/unit complète : 147 passed. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete
L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.
Description
Languages
Python
98.2%
Batchfile
1%
PowerShell
0.5%
Shell
0.3%