rpa_vision_v3

Author	SHA1	Message	Date
Dom	b65710ae43	feat(server): assainissement PII des logs clients à la réception sanitize_log_entries (réutilise anonymize_text, mapping partagé = tokens cohérents), branché dans POST /api/v1/agents/logs avant le store : message + logger tokenisés, ts/level préservés. 7 tests TDD. Rempart PII central du push-log (couvre les postes). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 13:30:08 +02:00
Dom	6075717353	feat(server): durcissement sanitizer PII (chevauchements + GXD5 + workflow_dict) - Résolution des chevauchements par priorité de détecteur + longueur : corrige le FN où, sur 'Dossier/Patient NOM (NAISSANCE) Prénom', le nom de naissance fuyait. (Qwen) - RE_GXD5_DIAG : tokenise le numéro de dossier ([DOSSIER_n]) ET le nom ([NOM_n]) dans 'GXD5 Diagnostics - <num> - NOM PRENOM' — 3 patients fuyaient en prod clinique, 0 FP. (Qwen) - sanitize_workflow_dict : assainit les champs texte d'un workflow appris (by_text, noms) avant import en DB VWB (canal apprentissage). Utilisé par R1. (Claude) 14 tests verts. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 17:44:24 +02:00
Dom	e84cdee393	fix(server): durcissement sanitizer PII suite revue adversariale Qwen - FN-1/2/3 : ajout RE_PRENOM_NOM (« Prénom NOM » inversé sans parens/crochets, ex. « Alix DATTIN ») ; 2e mot tout-majuscules -> 0 FP sur « Mozilla Firefox ». - FN-4 (majeur, 228 events) : sanitize_event scanne désormais les titres RÉCURSIVEMENT (vision_info.window_capture.window_title et tout titre imbriqué), au lieu de 3 clés top-level hardcodées. 2 correctifs issus de la revue croisée Qwen. 11 tests verts, 0 FP. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 20:24:52 +02:00
Dom	30d8f65e9a	feat(server): sanitize_event — assainissement PII au niveau event sanitize_event(event, mapping) applique le principe « Léa apprend l'interface, pas la donnée » (décision Dom 28/06) avant persistance : - text_input -> contenu (text + raw_keys) remplacé par [SAISIE] (option b) : résout la fuite la plus grave (contenu médical) SANS NER ni détection ; - titres de fenêtre (active_window_title + window/to/from.title) : identité patient tokenisée (anonymize_text), app/écran gardés ; cohérence par mapping. Copie défensive (ne mute pas l'event d'origine). 4 tests (9 au total) verts. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 19:53:09 +02:00
Dom	8e4d09594c	feat(server): assainissement PII couche regex+structurelle (tokens typés cohérents) pii_sanitizer.anonymize_text() remplace la PII par des tokens typés et cohérents ([IPP_1], [AGE_1], [NOM_1]) : protège la donnée ET garde la structure (type de champ) utile à l'apprentissage des variables. Sans modèle, déployable partout. Filet regex (IPP/NIR/TEL/EMAIL/AGE, repris de anonymisation) + règles structurelles cliniques (NOM (NAISSANCE) Prénom ; [Nom Prénom] PACS) + blacklist logiciels anti-FP. 5 tests verts. Couche NER (noms libres) en complément ensuite. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 19:08:43 +02:00

5 Commits