anonymisation

Author	SHA1	Message	Date
Domi31tls	f1fc28ac0b	docs(coordination): assigne T-N (modèle ONNX) + T-O (validation pack bêta) à Qwen + log cleanup Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 17:03:48 +02:00
Domi31tls	bf79e445f5	docs(coordination): protocole de coordination + décisions + inbox + log + vision - docs/coordination/ : README, decisions (no-ui, pivots MVP), inbox Claude/Qwen/Dom, archive, log, etat-projet - docs/installation/ : procédure SmartScreen - docs/reflexions/ : vision fonctionnelle avant prod Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:31:06 +02:00
Domi31tls	2d23f6c31a	build(windows): scripts build one-click + installer + doc - build_windows_oneclick.bat / build_windows_installer_oneclick.bat : wrappers - scripts/build_windows_oneclick.ps1 / build_windows_installer_only.ps1 / install_inno_setup_build_dep.ps1 - build_signing.example.ps1 : exemple protocole signing (sans secret) - docs/build-windows-oneclick.md : documentation du build Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:31:06 +02:00
Domi31tls	299bbee5ff	fix(detect): F5 — masque la continuation orpheline d'un nom composé (EJNAINI) Dernière fuite de l'audit_30. Cas Trackare : un nom composé "NOCENT-EJNAINI" éclaté en colonnes devient "[NOM]-\nEJNAINI" — le 1er composant est masqué par le NER mais le 2e reste en clair (ni span NER intact ni candidat regex ne le couvre ; être dans paranames ne suffit pas sans candidat). Fix : post-passe dans process_pdf (étape 3a-bis), après selective_rescan, qui masque le token majuscule orphelin suivant immédiatement un "[NOM]-". Couvre le texte ET le raster (NOM_GLOBAL). Réfute la conclusion de Qwen ("paranames résoudra EJNAINI"). Validation audit_30 (29 docs) : score 98.3 → 98.5/100, LEAK SCORE 100/100 (0 fuite), 0 régression FP. tests/unit 85 passed. BA127127 : EJNAINI 7→0. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 12:02:53 +02:00
Domi31tls	54bb05ce64	docs(decision): D-14 architecture plateforme licence app.aivanov.fr Acte la décision Dom sur l'architecture du système licence post-MVP : ## Choix clé : plateforme client centralisée (pas de licence locale isolée) - Hébergement : infra OVH existante Dom (HDS, ISO 27001, ultra-HA) - Domaine : app.aivanov.fr (extensible à d'autres apps Dom) - Stack : FastAPI + PostgreSQL + HTMX/Jinja2 + fastapi-users + Brevo - Côté programme : RSA-PSS 2048 signé, vérif locale + phone home 30j ## Modèle métier - 1 licence = 1 poste (modèle Microsoft Office classique) - Abonnement annuel - Grace period expiration : 15 jours - Mode hors-ligne max : 30 jours - Révocation : effective au prochain check - Paiement intégré : Phase 3 (post-août) ## Pourquoi self-hosted (vs Keygen.sh SaaS) - Souveraineté : données en France (HDS obligatoire pour santé) - Économie long terme (50 clients ROI < 1 an) - Évite dépendance à un tiers américain - Customisation totale (futures intégrations Pro Santé Connect) - Dom dispose déjà de l'infra OVH HDS/ISO 27001 ## Roadmap - Phase 0 (bêta Réunion) : pas de licence, livraison directe - Phase 1.1 (juin-juillet) : module license.py côté programme (~12h) - Phase 1.2 (juin-juillet) : plateforme MVP (~50h) - Phase 2 (août) : self-service complet (~40h) - Phase 3 (post-août) : paiement intégré (~60h) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 18:36:23 +02:00
Domi31tls	b651a26cc0	feat(admin): D-13 partial — bannière "MODE ADMIN" + doc périmètre ## Bannière mode admin Ajout d'un suffixe "[⚙ MODE ADMIN]" dans le titre de la fenêtre principale quand `admin_mode.is_admin()` retourne True. Signal visuel clair pour : - Le bêta-testeur (s'il bidouille, il voit qu'il a déverrouillé quelque chose) - L'opérateur Dom (pour vérifier d'un coup d'œil que le mode admin est actif pour ses propres tests) ## Périmètre D-13 partial Documenté dans `decisions/2026-06-02_dom_d13-partial-scope.md` : \| Protection \| Statut \| \|---\|---\| \| VLM Ollama caché en non-admin \| ✅ (D-11) \| \| Titre fenêtre signalé en admin \| ✅ (ce commit) \| \| Stopwords personnalisés \| ⏭ Reporté v11.5 \| \| Profils techniques (regex_overrides, force_terms) \| ⏭ Reporté v11.5 \| \| Choix moteur NER \| ⏭ Reporté v11.5 \| \| Sauvegarde configs sensibles \| ⏭ Reporté v11.5 \| ## Pourquoi le report est OK pour MVP 1. Le risque RGPD critique (envoi externe à Ollama) est résolu par D-11 2. Les autres réglages, bien que visibles, ne déclenchent pas de fuite 3. La transposition customtkinter v6 (v11.5) refondra l'UI — patcher 2874 lignes tkinter aujourd'hui = double travail à refaire en v6 4. Le bêta-testeur n'a pas accès au mode admin (pas de fichier .admin livré, pas d'env var par défaut) ## Activation manuelle - Env : `ANON_ADMIN=1 python Pseudonymisation_Gui_V5.py` - Fichier : créer `.admin` à la racine Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 17:04:01 +02:00
Domi31tls	e7380ed258	chore(rgpd): replace remaining CHCB/Bayonne refs after re-verification (D-12) Re-applique les remplacements dans anonymizer_core_refactored_onnx.py (commentaires reverted par un linter entre les commits) et corrige docs/coordination/inbox/for-dom/2026-06-02_qwen_owncloud-livraison-procedure.md. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:42:40 +02:00
Domi31tls	c427e2a3f4	chore(rgpd): replace CHCB/Bayonne refs in docs (D-12) Anonymise les références aux entités réelles (CHCB, villes basques, Saint-Denis, Réunion, etc.) dans la documentation projet, les maquettes HTML/Python, les notes de coordination et les audits. Conserve docs/coordination/decisions/2026-06-02_dom_mvp-pivots-strategiques.md (table de mapping de référence) et docs/coordination/inbox/for-claude/ intacts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-02 14:40:20 +02:00
Domi31tls	0fc8665ce8	Add human review protocol and admin rules contract	2026-04-21 10:59:02 +02:00
Domi31tls	b58d79f9d7	Add project framing for anonymization	2026-04-21 10:35:00 +02:00
Domi31tls	eb14cd219d	feat(phase3): CamemBERT v3 + détection villes + initiales + texte espacé + docs réglementaires Intégration du modèle CamemBERT-bio-deid v3 (F1=0.96, Recall=0.97, 1112 docs) et corrections qualité issues de l'audit approfondi sur 29 fichiers. Détection des villes en texte libre : - Automate Aho-Corasick sur 33K communes INSEE + 11.6K villes FINESS - Stratégie contextuelle : exige un contexte géographique (à, de, vers, habite, urgences de, etc.) sauf pour les villes composées (Saint-Palais) - Blacklist de ~80 communes homonymes de mots courants (charge, signes, plan...) - Normalisation SAINT↔ST pour les variantes orthographiques - De 18 fuites de villes à 2 cas résiduels atypiques Masquage des initiales de prénom : - Post-traitement regex : "Dr T. [NOM]" → "Dr [NOM] [NOM]" - Références initiales : "Ref : JF/VA" → "Ref : [NOM]/[NOM]" Détection texte espacé d'en-tête : - "C E N T R E H O S P I T A L I E R" → [ETABLISSEMENT] Autres corrections : - Fix regex RE_EXTRACT_MME_MR (Mr?.? → Mr.?, \s+ → [ \t]+, * → {0,4}) - Stop words médicaux : lever, coucher, services hospitaliers (viscérale, etc.) - CamemBERT NER manager : version tracking, propriété version, log F1/Recall - Script finetune : export ONNX automatique + mise à jour VERSION.json - Évaluateur qualité : exclusion stop words médicaux des alertes INSEE Documentation : - Spécifications techniques CamemBERT-bio-deid v3 - Conformité RGPD + AI Act (caviardage PDF raster) - AIPD (Analyse d'Impact Protection des Données) Score qualité : 97.0/100 (Grade A), Leak score 100/100 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-11 12:16:13 +01:00
Domi31tls	340348b820	feat: Phase 1 - Système d'évaluation de la qualité - Sélection et copie de 27 documents représentatifs (10 simples, 12 moyens, 5 complexes) - Outil d'annotation CLI complet (tools/annotation_tool.py) - Guide d'annotation détaillé (docs/annotation_guide.md) - Évaluateur de qualité (evaluation/quality_evaluator.py) * Calcul Précision, Rappel, F1-Score * Identification faux positifs/négatifs * Métriques par type de PII * Export JSON et rapports texte - Scanner de fuite (evaluation/leak_scanner.py) * Détection PII résiduels (CRITIQUE) * Détection nouveaux PII (HAUTE) * Scan métadonnées PDF (MOYENNE) - Benchmark de performance (evaluation/benchmark.py) * Mesure temps de traitement * Mesure CPU/RAM * Export JSON/CSV - Tests unitaires complets pour tous les composants - Documentation complète du module d'évaluation Tâches complétées: - 1.1.1 Sélection de 27 documents (au lieu de 30) - 1.1.2 Outil d'annotation CLI - 1.2.1 Évaluateur de qualité - 1.2.2 Scanner de fuite - 1.2.3 Benchmark de performance Prochaines étapes: - 1.1.3 Annotation des 27 documents (manuel) - 1.1.4 Enrichissement stopwords médicaux - 1.3 Mesure de la baseline	2026-03-02 10:07:41 +01:00

12 Commits