anonymisation

Author	SHA1	Message	Date
Domi31tls	437877e1c8	feat: support multi-formats — DOCX, images, ODT, RTF, TXT, HTML Nouveau module format_converter.py : conversion automatique vers PDF avant anonymisation. Formats supportés : - PDF (passthrough) - DOCX (python-docx → texte → PDF) - ODT (odfpy → texte → PDF) - RTF (striprtf → texte → PDF) - TXT (texte brut → PDF via PyMuPDF) - HTML (BeautifulSoup → texte → PDF) - JPEG/PNG/TIFF/BMP (image embarquée → OCR docTR en aval) Nouvelle fonction process_document() : wrapper qui gère la conversion puis appelle process_pdf(). GUI mise à jour pour chercher tous les formats supportés (plus seulement *.pdf). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 09:25:26 +01:00
Domi31tls	bf30f622d9	feat(gui): Ajout bouton Arrêter pour stopper le traitement en cours	2026-03-02 22:04:00 +01:00
Domi31tls	5163cb1657	fix(gui): Retirer paramètre use_vlm non supporté par process_pdf	2026-03-02 21:53:54 +01:00
Domi31tls	3b1f6cdfbe	gui: Ajout indicateurs qualité (fuites, performances)	2026-03-02 21:34:18 +01:00
Domi31tls	86274b3b2a	Sécurité VLM : format JSON forcé, modèle local uniquement, fix logging critique - vlm_manager: ajout format:json dans payload Ollama (élimine hallucinations JSON) - vlm_manager: retour modèle local qwen2.5vl:7b (sécurité données médicales) - anonymizer_core: ajout import logging (fix NameError silencieux qui tuait le VLM) - anonymizer_core: masquage direct pages manuscrites (suppression rotation inutile) - GUI: intégration checkbox VLM + auto-load EDS-Pseudo prioritaire Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-27 02:38:30 +01:00
Domi31tls	5ed2312d93	Amélioration majeure de l'anonymisation regex : trackare, noms composés, faux positifs - Parseur trackare spécifique (détection par contenu, extraction structurée des PII) - Support format "Dr X. NOM" et "Mme X. NOM" (initiales + noms composés avec tiret) - Détection noms personnel médical (Aide, Cadre Infirmier, etc.) - Masquage RPPS, établissements (EHPAD/SSR/USLD standalone), lieux de naissance - Stop words médicaux enrichis (~270 entrées : DCI, spécialités, termes contextuels) - Détection compagnon (noms adjacents à des noms connus dans le texte brut) - Protection noms composés (JEAN-PIERRE traité comme un tout, pas JEAN + PIERRE) - Nettoyage codes postaux orphelins, téléphones fragmentés/partiels - Désactivation masquage dates génériques, AGE avec contexte obligatoire - GUI : extraction OGC depuis le nom du répertoire parent, incrustation sur les pages Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-26 00:25:18 +01:00
Domi31tls	9e06bbfa1d	Fix _app_dir() pour Nuitka + crash log visible sans console - _app_dir() utilise toujours Path(__file__).parent au lieu de dir() qui ne détecte pas __compiled__ dans une fonction - Ajout crash.log + messagebox en cas d'erreur fatale (même avec --windows-console-mode=disable) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-17 22:11:44 +01:00
Domi31tls	2e7e31a1f9	Embarquer modèle NER + chargement auto au démarrage - GUI V5 : charge DistilCamemBERT-NER automatiquement en arrière-plan - _app_dir() : chemin compatible Nuitka onefile - Build Nuitka : inclut models/ + config/ dans le .exe - GitHub Actions : étape download model avant compilation Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-16 15:31:17 +01:00
Domi31tls	8339069c83	Initial commit — Pseudonymisation de PDF v5 - GUI v5 : vue unique épurée (tkinter), 2 étapes visuelles - Core ONNX : anonymisation regex + NER optionnel - Extraction globale des noms depuis champs structurés (Patient, Rédigé par, MME/Madame, DR) - Génération simultanée PDF Image + PDF Anonymisé (structure préservée) - Build Windows via Nuitka (script batch + GitHub Actions CI) - install.sh pour setup/run Linux Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-16 15:03:37 +01:00

9 Commits