Commit Graph

44 Commits

Author SHA1 Message Date
7dba4014c4 docs(build): torch-free + précache OnnxTR + version unifiée + runbook URL portail (P0-4/P1-8)
Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
2026-07-02 18:13:01 +02:00
675e328d8c docs(plan): Plan 1c honnêteté UI (P1-4/NER/P1-5/P1-3/P1-1/P1-6/P1-11)
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-29 19:42:16 +02:00
5663966938 docs(coord): verdict Qwen GO — re-revue post-impl Tasks 1-4 gating catégories
§FAX: aucun autre type non-toggleable dépend d'une passe gatée.
§Divergence: accord seuil 0 strict + premask scopé (retire suggestion adaptatif).
§Task 3b: report acceptable pour beta (fail-closed).
1 trouble mineur T1: override user-defined nommé avec catégorie toggleable.
2026-06-27 11:27:24 +02:00
dd392c4a50 docs(beta): plan 1b — Task 2 seuil résiduel strict 0 + premask scopé TEL (revue qualité) + Task 3 span-aware
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-26 10:23:40 +02:00
c93dc34a70 docs(beta): plan 1b — décision Dom CODE_POSTAL suit le toggle Adresses (catégorie ADRESSE)
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-26 09:50:07 +02:00
c77082409d docs(beta): plan 1b v3 — re-revue Qwen GO (boucle adversariale 2/2) + 3 correctifs
Re-revue Qwen de l'approche dérivation = GO (dérivation jugée supérieure à la table
figée). Vérif exhaustive maps : 7 VLM + 7 EDS + 8 regex + _GLOBAL dynamique = 22+ kinds
couverts. Mon reverse-map VLM + fallback EDS confirmés sûrs (pas de fuite croisée).
3 correctifs intégrés : (A) site manquant RE_TRACKARE_IAO_MULTILINE_VALUE l.3102 (NOM
Trackare) → Task 3 ; (B) doc convention admin_rules (kind=clé placeholder, branche 3) ;
(C) seuil quarantaine adaptatif 0→1 si catégories décochées (anti fragment TEL). Caveat
UX CP documenté. Convergence Claude+Qwen. Exécution = GO Dom après relecture.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-25 23:02:44 +02:00
c7c3a86910 docs(coord): re-revue Qwen Plan 1b v2 — GO dérivation + 3 corrections mineures
A: RE_TRACKARE_IAO_MULTILINE_VALUE site manquant Task 3,
B: documenter convention admin_rules kind=placeholder,
C: suggestion seuil adaptatif quarantaine
2026-06-25 23:00:56 +02:00
ade1743bee docs(coord): verdict Qwen GO-AVEC-RÉSERVES — revue adversariale Plan 1b gating catégories
5 findings: F-1 CRITIQUE (_CATEGORY_OF manque 15 kinds VLM/EDS/_GLOBAL),
F-2 HAUT (24+ sites texte manquants), F-3 HAUT (Tier 1 OK, 3 gaps PDF),
F-4 HAUT (quarantaine NIR/TEL décochés), F-5 MODÉRÉ (fuite croisée NER)
2026-06-25 22:46:44 +02:00
fa575d5f61 docs(beta): plan 1b v2 — intègre revue Qwen + vérif Claude (gating cœur P1-2)
Revue adversariale Qwen = GO-avec-réserves (F-1 critique : 15 kinds manquants VLM/EDS/
_GLOBAL ; F-2 24+ sites ; F-3 burn ; F-4 quarantaine NIR/TEL ; F-5 NER intra-boucle).
Vérif indépendante Claude : table Qwen elle-même incomplète (VLM_CP raté). Décision :
_category_of DÉRIVÉ de VLM_CATEGORY_MAP + EDS_LABEL_MAP + suffixe _GLOBAL + test
anti-dérive, au lieu d'une table figée. Sites consolidés, coordination quarantaine,
gating NER intra-boucle, garde-fous burn. Sauvegarde avant implémentation (consigne Dom).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-25 22:45:38 +02:00
9ad7833d21 docs(beta): plan 1b — câblage des 7 toggles catégories au moteur (P1-2)
Plan TDD du gating par catégorie : infra disabled_kinds + _CATEGORY_OF (default-deny)
+ filtre audit Tier 1 (porteur de sûreté PDF), relaxation rescan résiduel NIR/TEL,
gates texte Tier 2/3 (dispatchers + selective_rescan + NER + phase-0), garde-fou
adresse burn, câblage GUI 7 booléens. Tests comportementaux par catégorie + baseline
non-régression. CODE SÉCURITÉ — revue Qwen obligatoire.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-25 22:25:01 +02:00
55e8839613 docs(beta): plan d'implémentation 1a — socle sûreté & chaîne prod GUI V6
Plan bite-sized TDD pour les chantiers A/B/E1 : fail-close PII (P0-1), URL portail
(P0-2), binding licence souple (P0-6), log fichier V6 (E1), flag frozen ONNX (P0-5),
instance unique + mutex installeur (P0-7). 6 tâches, code complet, tests unitaires.
Plans 1b (gating cœur), 1c (UI), 2 (diagnostics), 3 (build/release) à suivre.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-25 16:49:01 +02:00
6554a6d590 docs(beta): audit prêt-bêta GUI V6 + design de mise en prod bêta testeur
Audit prêt-pour-bêta de GUI V6 (3 axes : parcours/UX/PII, moteurs/OnnxTR/frozen,
licence/télémétrie/diffusion) → punch-list P0=7 / P1=11 / P2=6, findings vérifiés.

Design validé Dom : périmètre « A + chaîne prod », P0 + P1 honnêteté UI, toggles
« Données à détecter » câblés au moteur (gating par type + couplage rescan, pas de
plancher dur), licence souple + binding poste (D-20.4), −2 Go via excludes PyInstaller,
Linux-first TDD + un seul build Windows. Plus 3 exigences prod intégrées : diagnostics
logs auto-upload scrubbé (liste-blanche), mise à jour propre (installeur), modèles
embarqués hors-ligne. 6 chantiers (A-F), 2 repos. Diffusion = gate Dom.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-25 16:43:04 +02:00
80d8cc230b docs(coord): rapport transfert artefacts 19c4934 vers portail (SHA vérifiés)
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-18 18:06:17 +02:00
711f2bc2b5 docs(coord): ACK Codex — portail prod NPM + dépôt bêta, actions restantes Dom
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-18 16:39:27 +02:00
08e617b644 docs(beta): runbook portail aligné sur le déploiement prod réel (app.aivanov.eu)
- §0 nouveau : état réel (domaine app.aivanov.eu, NPM + Let's Encrypt Force SSL,
  APP_ENV=production, .env 600, cookie Secure confirmé live = fix 884661a en prod).
- §1 : pré-requis EXE copié sur serveur + commande avec env prod chargé + vérif SHA
  via /api/v1/version avant diffusion.
- §5 : sécurité indispensable marquée en place (HTTPS/secrets/cookie Secure ).
- §5bis : dépôt modèles EDS/GLiNER préparé mais NON ACTIF (pack à compléter+tester).

Vérifié live : /login 200 HTTPS, http→301, /api/v1/version 404 (pas encore publié).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-18 16:38:51 +02:00
14757007be docs(coord): ACK Codex — sécurité portail proportionnée + fix https_only
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-18 15:08:44 +02:00
471a8a4c62 docs(beta): runbook portail — sécurité proportionnée (pas de VPN/IP allowlist)
Recalibre la section sécurité au modèle de menace réel : portail sans
donnée patient (licences + compteurs agrégés) → HTTPS + login/mot de
passe fort suffisent. Retire la recommandation VPN/IP allowlist (overkill).
CSRF déjà couvert par SameSite=Lax ; rate-limiting /login = nice-to-have
au proxy. https_only désormais implémenté (app_aivanov 884661a).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-18 15:07:57 +02:00
c64162a936 docs(beta): kit bêta 2026-06-19 (checklist tests, note client, runbook portail)
Préparation bêta GUI demain (scope gelé Codex/Dom) — documentation, pas de code produit :
- docs/beta/checklist-tests-collaborateurs.md : install/lancement/licence/traitement
  PDF natif+scan/vérif anonymisation/0 remontée patient/usage admin/relevé OS-hash-version,
  garde-fou RGPD (synthétique/caviardé only).
- docs/beta/note-beta-client.md : version+SHA 8B437346…, moteurs actifs CamemBERT+regex,
  EDS/GLiNER non actifs, traitement local, consigne retour (pas de PDF/log patient).
- docs/beta/runbook-portail-beta.md : publier artefact actif, compte client+approbation→licence,
  jeton activation, /api/v1/version + download authentifié, rappels sécu prod (HTTPS/secrets/
  CSRF/rate-limit = accès restreint tant que non traités).

Cible : Anonymisation-Setup.exe v2026.06.18.1203 (source 19c4934). Aucun push/diffusion.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-18 12:47:56 +02:00
873fd5622a build(gui): add Windows GUI V6 one-click packaging 2026-06-13 09:31:14 +02:00
26f0cdfd68 feat(cli): add dedicated Inno Setup installer for the Windows CLI
Installateur Inno Setup séparé de la GUI (validé GO par Qwen), pour tests
internes et intégration de la brique CLI dans un autre logiciel.

- installer/Anonymisation-CLI.iss : AppId distinct de la GUI
  (B2F4A7C1-…), PrivilegesRequired=lowest, DefaultDirName
  {localappdata}\Programs\Anonymisation-CLI, source dist\Anonymisation-CLI.exe.
  Clés registre HKCU stables (InstallPath/ExePath/Version) + App Paths HKCU
  pour résolution tierce, supprimées à la désinstallation (uninsdeletekey).
  Pas de PATH système, pas de raccourci bureau. GUI .iss non modifiée.
- installer/Anonymisation-CLI-README.txt : usage, codes retour, lookup registre.
- scripts/build_windows_cli_installer_only.ps1 : build ISCC dédié,
  sortie release\Anonymisation-CLI-Setup.exe + SHA-256.
- docs/build-windows-oneclick.md : section « Installateur CLI dédié ».

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-10 16:44:58 +02:00
263126dafa feat(cli): add Windows single-file anonymization entrypoint
CLI de production sans GUI pour anonymiser un fichier unique, validé GO par
Qwen (revue indépendante contrat/packaging/modèles) sur de vrais PDF.

- scripts/anonymize_cli.py (NOUVEAU) : contrat positionnel
  `Anonymisation-CLI.exe <fichier> <dossier_sortie>` (+ --out compat),
  chemins espaces/accents, codes retour 0/1/2/3/4.
  Chargement modèles fail-closed : CamemBERT-bio ONNX OBLIGATOIRE (code 3 si
  absent, aucun mode dégradé silencieux) ; EDS-Pseudo + GLiNER optionnels,
  tracés au log ; --no-ner = regex seul assumé. Résolution _MEIPASS frozen
  alignée sur launcher.py. Sortie burn raster identique GUI v5.
- anonymisation_cli_onefile.spec : entrypoint basculé vers anonymize_cli.py
  (le harnais perf D-19 anonymize_batch_cli.py reste hors build).
- docs/build-windows-oneclick.md : section « CLI Windows (sans GUI) »
  (build, usage, codes retour, modèles, limitations).

Tests Linux (vrais PDF) : --help OK, fichier manquant→2, --no-ner accents→0,
NER complet→0 (CamemBERT-bio + EDS-Pseudo chargés), modèle déplacé→3.
Build/smoke Windows à suivre (séparé). Commit CLI-only strict, distinct du P0.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-10 14:26:11 +02:00
c582c13a08 fix(anonymizer): cover CHCB real-world staff layouts 2026-06-08 12:44:09 +02:00
94f7903af3 fix(anonymizer): handle FC14 practitioner OGC rules 2026-06-08 12:03:51 +02:00
21a408a9e4 fix(perf): apply MVP threading hotfix
Configure numerical library and torch threading for H1, keep raster threading/timing instrumentation, remove CONCERTATION from forced masks after real PDF FP testing, and record coordination archive state.
2026-06-08 10:41:15 +02:00
3249f3a337 docs(coordination): handoff fin de journée Dom + mise en veille Claude
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 20:55:38 +02:00
a34ca49a0b docs(coordination): diagnostic perf MVP (D-19) — torch mono-thread + raster/OCR séquentiels
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 19:16:51 +02:00
22984b911b docs(coordination): installateur bêta v11 + 4 sous-plans agents v11.5
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 18:15:59 +02:00
e0312209be docs(coordination): plan v11.5 parallèle (4 agents) répondant à D-17
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 17:59:40 +02:00
759ac231fc docs(coordination): rapport rebuild v11 + pack bêta (C-BETA-1..4)
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 12:32:02 +02:00
445f420d1c docs(coordination): ack T-N/T-O Qwen + trace sauvegarde/repart propre build
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 12:13:05 +02:00
0491bc5383 chore(beta): C-BETA-1 hygiène finale repo
- gitignore graphify-out/ (artefacts knowledge graph générés)
- commit messages coordination 2026-06-05 (ordre de marche Dom via Codex)
- commit rapport analyse campagne GUI (synthétique, sans PII)

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 10:56:02 +02:00
1bce7b40f4 docs(coordination): rétrograde T-N (ONNX non bloquant) + T-O prioritaire
Vérif code : modèle custom embarqué dans l'EXE au build, autres modèles
téléchargés au 1er lancement. T-N → pérennité backup (priorité normale).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-05 09:46:02 +02:00
04df0f41fa docs(coordination): assigne T-N (modèle ONNX) + T-O (validation pack bêta) à Qwen + log cleanup
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-04 17:03:48 +02:00
c4adb8db00 docs(coordination): protocole de coordination + décisions + inbox + log + vision
- docs/coordination/ : README, decisions (no-ui, pivots MVP), inbox Claude/Qwen/Dom, archive, log, etat-projet
- docs/installation/ : procédure SmartScreen
- docs/reflexions/ : vision fonctionnelle avant prod

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-04 16:31:06 +02:00
94233c3538 build(windows): scripts build one-click + installer + doc
- build_windows_oneclick.bat / build_windows_installer_oneclick.bat : wrappers
- scripts/build_windows_oneclick.ps1 / build_windows_installer_only.ps1 / install_inno_setup_build_dep.ps1
- build_signing.example.ps1 : exemple protocole signing (sans secret)
- docs/build-windows-oneclick.md : documentation du build

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-04 16:31:06 +02:00
33543b6e2b fix(detect): F5 — masque la continuation orpheline d'un nom composé (EJNAINI)
Dernière fuite de l'audit_30. Cas Trackare : un nom composé "NOCENT-EJNAINI"
éclaté en colonnes devient "[NOM]-\nEJNAINI" — le 1er composant est masqué
par le NER mais le 2e reste en clair (ni span NER intact ni candidat regex ne
le couvre ; être dans paranames ne suffit pas sans candidat).

Fix : post-passe dans process_pdf (étape 3a-bis), après selective_rescan, qui
masque le token majuscule orphelin suivant immédiatement un "[NOM]-". Couvre
le texte ET le raster (NOM_GLOBAL). Réfute la conclusion de Qwen ("paranames
résoudra EJNAINI").

Validation audit_30 (29 docs) : score 98.3 → 98.5/100, LEAK SCORE 100/100
(0 fuite), 0 régression FP. tests/unit 85 passed. BA127127 : EJNAINI 7→0.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-03 12:02:53 +02:00
1e7941108f docs(decision): D-14 architecture plateforme licence app.aivanov.fr
Acte la décision Dom sur l'architecture du système licence post-MVP :

## Choix clé : plateforme client centralisée (pas de licence locale isolée)

- Hébergement : infra OVH existante Dom (HDS, ISO 27001, ultra-HA)
- Domaine : app.aivanov.fr (extensible à d'autres apps Dom)
- Stack : FastAPI + PostgreSQL + HTMX/Jinja2 + fastapi-users + Brevo
- Côté programme : RSA-PSS 2048 signé, vérif locale + phone home 30j

## Modèle métier

- 1 licence = 1 poste (modèle Microsoft Office classique)
- Abonnement annuel
- Grace period expiration : 15 jours
- Mode hors-ligne max : 30 jours
- Révocation : effective au prochain check
- Paiement intégré : Phase 3 (post-août)

## Pourquoi self-hosted (vs Keygen.sh SaaS)

- Souveraineté : données en France (HDS obligatoire pour santé)
- Économie long terme (50 clients ROI < 1 an)
- Évite dépendance à un tiers américain
- Customisation totale (futures intégrations Pro Santé Connect)
- Dom dispose déjà de l'infra OVH HDS/ISO 27001

## Roadmap

- Phase 0 (bêta Réunion) : pas de licence, livraison directe
- Phase 1.1 (juin-juillet) : module license.py côté programme (~12h)
- Phase 1.2 (juin-juillet) : plateforme MVP (~50h)
- Phase 2 (août) : self-service complet (~40h)
- Phase 3 (post-août) : paiement intégré (~60h)

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 18:36:23 +02:00
91c51514de feat(admin): D-13 partial — bannière "MODE ADMIN" + doc périmètre
## Bannière mode admin

Ajout d'un suffixe "[⚙ MODE ADMIN]" dans le titre de la fenêtre principale
quand `admin_mode.is_admin()` retourne True. Signal visuel clair pour :
- Le bêta-testeur (s'il bidouille, il voit qu'il a déverrouillé quelque chose)
- L'opérateur Dom (pour vérifier d'un coup d'œil que le mode admin est actif
  pour ses propres tests)

## Périmètre D-13 partial

Documenté dans `decisions/2026-06-02_dom_d13-partial-scope.md` :

| Protection | Statut |
|---|---|
| VLM Ollama caché en non-admin |  (D-11) |
| Titre fenêtre signalé en admin |  (ce commit) |
| Stopwords personnalisés | ⏭ Reporté v11.5 |
| Profils techniques (regex_overrides, force_terms) | ⏭ Reporté v11.5 |
| Choix moteur NER | ⏭ Reporté v11.5 |
| Sauvegarde configs sensibles | ⏭ Reporté v11.5 |

## Pourquoi le report est OK pour MVP

1. Le risque RGPD critique (envoi externe à Ollama) est résolu par D-11
2. Les autres réglages, bien que visibles, ne déclenchent pas de fuite
3. La transposition customtkinter v6 (v11.5) refondra l'UI — patcher
   2874 lignes tkinter aujourd'hui = double travail à refaire en v6
4. Le bêta-testeur n'a pas accès au mode admin (pas de fichier .admin
   livré, pas d'env var par défaut)

## Activation manuelle

- Env : `ANON_ADMIN=1 python Pseudonymisation_Gui_V5.py`
- Fichier : créer `.admin` à la racine

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 17:04:01 +02:00
45f5f9f88f chore(rgpd): replace remaining CHCB/Bayonne refs after re-verification (D-12)
Re-applique les remplacements dans anonymizer_core_refactored_onnx.py
(commentaires reverted par un linter entre les commits) et corrige
docs/coordination/inbox/for-dom/2026-06-02_qwen_owncloud-livraison-procedure.md.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 14:42:40 +02:00
d21e01a2c2 chore(rgpd): replace CHCB/Bayonne refs in docs (D-12)
Anonymise les références aux entités réelles (CHCB, villes basques,
Saint-Denis, Réunion, etc.) dans la documentation projet, les maquettes
HTML/Python, les notes de coordination et les audits.

Conserve docs/coordination/decisions/2026-06-02_dom_mvp-pivots-strategiques.md
(table de mapping de référence) et docs/coordination/inbox/for-claude/
intacts.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 14:40:20 +02:00
e9dccdfad6 Add human review protocol and admin rules contract 2026-04-21 10:59:02 +02:00
da718eb41d Add project framing for anonymization 2026-04-21 10:35:00 +02:00
8588c0660b feat(phase3): CamemBERT v3 + détection villes + initiales + texte espacé + docs réglementaires
Intégration du modèle CamemBERT-bio-deid v3 (F1=0.96, Recall=0.97, 1112 docs)
et corrections qualité issues de l'audit approfondi sur 29 fichiers.

Détection des villes en texte libre :
- Automate Aho-Corasick sur 33K communes INSEE + 11.6K villes FINESS
- Stratégie contextuelle : exige un contexte géographique (à, de, vers,
  habite, urgences de, etc.) sauf pour les villes composées (Saint-Palais)
- Blacklist de ~80 communes homonymes de mots courants (charge, signes, plan...)
- Normalisation SAINT↔ST pour les variantes orthographiques
- De 18 fuites de villes à 2 cas résiduels atypiques

Masquage des initiales de prénom :
- Post-traitement regex : "Dr T. [NOM]" → "Dr [NOM] [NOM]"
- Références initiales : "Ref : JF/VA" → "Ref : [NOM]/[NOM]"

Détection texte espacé d'en-tête :
- "C E N T R E  H O S P I T A L I E R" → [ETABLISSEMENT]

Autres corrections :
- Fix regex RE_EXTRACT_MME_MR (Mr?.? → Mr.?, \s+ → [ \t]+, * → {0,4})
- Stop words médicaux : lever, coucher, services hospitaliers (viscérale, etc.)
- CamemBERT NER manager : version tracking, propriété version, log F1/Recall
- Script finetune : export ONNX automatique + mise à jour VERSION.json
- Évaluateur qualité : exclusion stop words médicaux des alertes INSEE

Documentation :
- Spécifications techniques CamemBERT-bio-deid v3
- Conformité RGPD + AI Act (caviardage PDF raster)
- AIPD (Analyse d'Impact Protection des Données)

Score qualité : 97.0/100 (Grade A), Leak score 100/100

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-11 12:16:13 +01:00
6d01b7c452 feat: Phase 1 - Système d'évaluation de la qualité
- Sélection et copie de 27 documents représentatifs (10 simples, 12 moyens, 5 complexes)
- Outil d'annotation CLI complet (tools/annotation_tool.py)
- Guide d'annotation détaillé (docs/annotation_guide.md)
- Évaluateur de qualité (evaluation/quality_evaluator.py)
  * Calcul Précision, Rappel, F1-Score
  * Identification faux positifs/négatifs
  * Métriques par type de PII
  * Export JSON et rapports texte
- Scanner de fuite (evaluation/leak_scanner.py)
  * Détection PII résiduels (CRITIQUE)
  * Détection nouveaux PII (HAUTE)
  * Scan métadonnées PDF (MOYENNE)
- Benchmark de performance (evaluation/benchmark.py)
  * Mesure temps de traitement
  * Mesure CPU/RAM
  * Export JSON/CSV
- Tests unitaires complets pour tous les composants
- Documentation complète du module d'évaluation

Tâches complétées:
- 1.1.1 Sélection de 27 documents (au lieu de 30)
- 1.1.2 Outil d'annotation CLI
- 1.2.1 Évaluateur de qualité
- 1.2.2 Scanner de fuite
- 1.2.3 Benchmark de performance

Prochaines étapes:
- 1.1.3 Annotation des 27 documents (manuel)
- 1.1.4 Enrichissement stopwords médicaux
- 1.3 Mesure de la baseline
2026-03-02 10:07:41 +01:00