Dom/t2a - t2a - Gitea Aivanov : Git with a cup of tea

Dom/t2a

Author	SHA1	Message	Date
dom	40934fdc39	feat: traçabilité source systématique + viewer interactif Ajoute source_page/source_excerpt à tous les types (biologie, imagerie, traitements, actes CCAM, antécédents, complications). Convertit antecedents et complications en types structurés (Antecedent/Complication) avec validators backward-compat pour les vieux JSON. Étend _apply_source_tracking à tous les éléments du dossier. Ajoute un endpoint /api/source-text/ et un modal interactif dans le viewer avec surlignage du texte source. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-18 20:59:50 +01:00
dom	fe22c0f0f5	fix: filtre bruit Trackare — antécédents parasites + répétitions DAS - das_filter: regex anti-répétition gère les espaces entre mots concaténés ("VentilationVentilation Ventilation..." désormais rejeté) - cim10_extractor: regex antécédents s'arrête à "Signes Vitaux" (ne capture plus le tableau de surveillance) - Nouveau _is_valid_antecedent() filtre noms de service, mots de surveillance isolés, infos admin (RPPS), répétitions, Mode de vie - 28 nouveaux tests (TestIsValidAntecedent + das_filter repetition) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-18 19:20:50 +01:00
dom	12f4479cd2	feat: dictionnaire CIM-10 complet (10 893 codes) + robustesse regex - Nouveau module cim10_dict.py : extraction depuis metadata.json FAISS, lookup intelligent avec normalisation Unicode (accents, trémas, apostrophes) - cim10_extractor : _lookup_cim10 utilise le dictionnaire complet, _find_dp normalisé, _find_das élargi à 20 patterns (cardio, métabo, infectieux, rénal...), biologie +6 tests (TGO/TGP, Hb, créatinine), traitements sans limite de lignes - document_classifier : scoring pondéré, classify_with_confidence(), scan 5000 chars - CLI --build-dict pour regénérer data/cim10_dict.json - 32 nouveaux tests unitaires (124 total, 0 échec) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-11 08:09:32 +01:00
dom	4a12cd2676	feat: pipeline T2A - anonymisation, extraction CIM-10 et intégration edsnlp Pipeline complet de traitement de documents médicaux PDF : - Extraction texte (pdfplumber) et classification (Trackare/CRH) - Anonymisation multi-couche (regex + NER CamemBERT + sweep) - Extraction médicale CIM-10 hybride : edsnlp (AP-HP) enrichit les diagnostics, médicaments (codes ATC via Romedi) et négation, avec fallback regex pour les patterns spécifiques - Fix sentencepiece pinné à <0.2.0 pour compatibilité CamemBERT Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-10 15:24:12 +01:00

4 Commits