# Conformite reglementaire — Programme d'anonymisation de documents medicaux

## 1. Description du systeme

### 1.1 Finalite

Le programme realise l'**anonymisation automatique de documents medicaux** (comptes-rendus d'hospitalisation, courriers medicaux, ordonnances, resultats d'examens) au format PDF. Il detecte et masque les donnees a caractere personnel (DCP) contenues dans ces documents pour permettre leur utilisation dans un cadre de controle T2A (Tarification a l'Activite) sans exposition des donnees patients.

### 1.2 Fonctionnement technique

Le pipeline se decompose en 5 phases sequentielles :

1. **Extraction de texte** : extraction layout-aware du contenu textuel du PDF (PyMuPDF, pdfplumber, pdfminer, docTR OCR pour les documents scannes)
2. **Detection par regles** : expressions regulieres et gazetteers (INSEE, BDPM, FINESS) pour identifier les PII structures (NIR, telephones, adresses, dates de naissance, noms d'etablissements)
3. **Detection par NER multi-moteurs** : trois modeles de reconnaissance d'entites nommees fonctionnent en vote croise :
   - EDS-Pseudo (CamemBERT, NLP clinique francais)
   - GLiNER (NER zero-shot)
   - CamemBERT-bio-deid v3 (fine-tune sur corpus clinique, F1=0.96)
4. **Remplacement** : chaque DCP detectee est remplacee par un placeholder generique et categorise ([NOM], [DATE_NAISSANCE], [ADRESSE], [TEL], [NIR], etc.)
5. **Caviardage PDF** : generation d'un PDF anonymise au format image (rasterisation)

### 1.3 Formats de sortie

| Sortie | Format | Description |
|--------|--------|-------------|
| **PDF caviardes** | PDF image (raster) | Chaque page est convertie en image haute resolution (300 DPI), les zones contenant des DCP sont recouvertes de rectangles noirs, puis le PDF est reconstruit a partir des images. **Le texte sous-jacent est detruit** — aucune extraction de texte n'est possible sur le document de sortie. |
| Texte pseudonymise | .pseudonymise.txt | Version texte avec placeholders ([NOM], [DATE_NAISSANCE], etc.) |
| Journal d'audit | .audit.jsonl | Trace des detections pour controle qualite (contient les valeurs originales — document sensible) |

### 1.4 Caracteristique cle : irreversibilite du caviardage PDF

Le format de sortie principal est un **PDF raster** (image). Ce choix technique garantit :

- **Destruction physique des donnees** : le texte original est remplace par des pixels. Aucun calque texte, aucune metadonnee textuelle ne subsiste.
- **Resistance aux attaques d'extraction** : contrairement a un caviardage vectoriel (annotation PDF), le caviardage raster ne peut pas etre "devoile" en supprimant un calque d'annotation.
- **Irreversibilite totale** : meme avec un acces complet au systeme, il est impossible de reconstituer les DCP a partir du PDF de sortie.

---

## 2. Conformite RGPD (Reglement UE 2016/679)

### 2.1 Qualification juridique : pseudonymisation vs anonymisation

Le RGPD distingue deux traitements (article 4 §5 et considerant 26) :

| Critere | Pseudonymisation | Anonymisation |
|---------|-----------------|---------------|
| **Definition** | Traitement rendant les donnees non attribuables sans information supplementaire | Traitement rendant l'identification impossible de maniere irreversible |
| **Statut RGPD** | Reste une donnee personnelle | N'est plus une donnee personnelle |
| **Notre systeme** | Texte .pseudonymise.txt + audit .jsonl | **PDF raster caviardes** |

**Position du systeme** :
- Le **PDF raster de sortie** constitue une **anonymisation** au sens du RGPD : les DCP sont physiquement detruites (remplacement par pixels noirs), sans possibilite de re-identification, meme par le responsable de traitement.
- Le **fichier texte** (.pseudonymise.txt) constitue une **pseudonymisation** : les DCP sont remplacees par des placeholders generiques, mais le journal d'audit conserve les correspondances.
- Le **journal d'audit** (.audit.jsonl) contient les valeurs originales des DCP detectees et doit etre traite comme une donnee sensible.

### 2.2 Base legale du traitement (article 6)

Le traitement de pseudonymisation/anonymisation peut s'appuyer sur :
- **Article 6.1.c** : obligation legale (controle T2A imposant la transmission de documents justificatifs)
- **Article 6.1.e** : mission d'interet public (amelioration de la qualite des soins)
- **Article 6.1.f** : interet legitime (protection des donnees patients lors de la transmission)

Pour les **donnees de sante** (article 9), le traitement est autorise au titre de :
- **Article 9.2.h** : medecine preventive, diagnostic medical, gestion des systemes de sante
- **Article 9.2.j** : finalites de recherche et statistiques (avec garanties de l'article 89)

### 2.3 Principes du RGPD respectes

| Principe | Article | Mise en oeuvre |
|----------|---------|----------------|
| **Minimisation** | Art. 5.1.c | Seules les DCP strictement necessaires sont traitees. Le systeme ne collecte aucune donnee supplementaire. Les PDF originaux ne sont pas copies — le traitement est effectue in situ. |
| **Limitation de la conservation** | Art. 5.1.e | Le programme ne stocke aucune donnee personnelle de maniere persistante. Les donnees traitees sont en memoire vive uniquement pendant le traitement. Aucun fichier temporaire sur disque. |
| **Integrite et confidentialite** | Art. 5.1.f | Traitement local exclusivement (aucun envoi vers le cloud ou service tiers). Modeles d'IA embarques, inference CPU locale. |
| **Protection des donnees des la conception** (Privacy by Design) | Art. 25.1 | Architecture pensee pour l'irreversibilite : le format de sortie PDF raster detruit physiquement les donnees. Pas de mecanisme de reversibilite, pas de cle de chiffrement, pas de table de correspondance persistante. |
| **Protection par defaut** | Art. 25.2 | Le mode de sortie par defaut est le caviardage raster (le plus protecteur). Les placeholders sont generiques et non individualisants (tous les noms deviennent [NOM], sans numerotation). |

### 2.4 Droits des personnes concernees

| Droit | Application |
|-------|-------------|
| **Information** (Art. 13-14) | Les personnes doivent etre informees que leurs documents font l'objet d'un traitement d'anonymisation dans le cadre du controle T2A. |
| **Acces** (Art. 15) | Applicable sur les documents originaux (avant anonymisation). Non applicable sur les PDF anonymises (donnees detruites). |
| **Rectification** (Art. 16) | Applicable sur les documents originaux. Le systeme d'anonymisation ne modifie pas le contenu medical, uniquement les identifiants. |
| **Effacement** (Art. 17) | Le journal d'audit (.audit.jsonl) contenant les valeurs originales doit etre supprime apres la periode de controle qualite. |
| **Opposition** (Art. 21) | Le traitement d'anonymisation en vue du controle T2A releve d'une obligation legale ; le droit d'opposition est limite. |

### 2.5 Analyse d'impact (AIPD / DPIA)

Une AIPD est **obligatoire** (article 35) car le traitement :
- Porte sur des **donnees de sante** a grande echelle
- Utilise des **technologies innovantes** (NER, modeles de langage)
- Concerne des **personnes vulnerables** (patients)

L'AIPD devra documenter :
- Les mesures techniques (multi-moteurs NER, vote croise, caviardage raster)
- Les mesures organisationnelles (acces restreint, suppression des audits)
- Les risques residuels (faux negatifs potentiels : DCP non detectees)

### 2.6 Gestion du journal d'audit

Le fichier .audit.jsonl constitue un **traitement de donnees personnelles de sante** a part entiere. Recommandations :
- **Acces restreint** : seul le responsable qualite doit y acceder
- **Duree de conservation limitee** : suppression apres validation du lot anonymise
- **Chiffrement au repos** recommande
- **Non-transmission** : ne jamais transmettre le journal d'audit avec les documents anonymises

---

## 3. Conformite AI Act (Reglement UE 2024/1689)

### 3.1 Classification du systeme

L'AI Act classe les systemes d'IA en 4 niveaux de risque :

| Niveau | Exemples | Notre systeme |
|--------|----------|---------------|
| **Inacceptable** | Notation sociale, manipulation subliminale | Non concerne |
| **Eleve** (Annexe III) | Biometrie, diagnostic medical, decisions judiciaires | **Non concerne** (voir justification ci-dessous) |
| **Limite** | Chatbots, deepfakes | Non concerne |
| **Minimal** | Filtres anti-spam, jeux video | **Classification retenue** |

### 3.2 Justification : systeme a risque minimal

Le systeme d'anonymisation **n'est pas un systeme a haut risque** au sens de l'Annexe III car :

1. **Il n'est pas un dispositif medical** : il ne realise aucun diagnostic, aucune aide a la decision clinique, aucune prediction medicale. Il ne traite que les identifiants, pas le contenu medical.
2. **Il ne releve d'aucune categorie de l'Annexe III** : pas de biometrie, pas de recrutement, pas de notation de credit, pas d'application de la loi, pas de gestion de l'immigration, pas d'administration de la justice.
3. **Il remplit les conditions d'exemption de l'article 6 §3** :
   - Il execute une **tache procedurale etroite** (detection et remplacement de motifs textuels)
   - Il **ameliore le resultat d'une activite humaine prealable** (le controle qualite humain reste l'etape finale)
   - Il effectue une **tache preparatoire** (preparation de documents pour transmission)
4. **Sa finalite est la protection des donnees**, non leur exploitation. Il reduit le risque sur les droits fondamentaux au lieu de l'augmenter.

### 3.3 Obligations applicables (risque minimal)

Meme en risque minimal, l'AI Act recommande (article 69) :

| Obligation | Mise en oeuvre |
|------------|----------------|
| **Transparence** | Documentation technique disponible (architecture, modeles utilises, performances). Le fichier VERSION.json trace les versions des modeles et leurs metriques. |
| **Qualite des donnees d'entrainement** | Donnees d'entrainement issues de documents reels anonymises (silver annotations). Augmentation par gazetteers INSEE et BDPM. Hard negatives QUAERO. |
| **Supervision humaine** | Le systeme produit des documents anonymises qui sont **toujours soumis a un controle humain** avant transmission. Score qualite mesure automatiquement (96.3/100). |
| **Tracabilite** | Journal d'audit detaille par document (type de DCP, valeur originale, methode de detection). |

### 3.4 Calendrier d'application

| Date | Etape | Impact |
|------|-------|--------|
| Fevrier 2025 | Interdictions (risque inacceptable) | Non concerne |
| Aout 2025 | Obligations IA a usage general (GPAI) | Non concerne (modele specialise, pas GPAI) |
| **Aout 2026** | **Application complete** (systemes a haut risque) | Non concerne (risque minimal) |

---

## 4. Mesures techniques de conformite

### 4.1 Traitement local exclusif

| Mesure | Detail |
|--------|--------|
| **Aucun appel cloud** | Tous les modeles d'IA (EDS-Pseudo, GLiNER, CamemBERT-bio) fonctionnent en local sur CPU |
| **Aucune API externe** | Pas d'envoi de donnees vers OpenAI, Google, Anthropic ou autre service tiers |
| **Pas de telemetrie** | Le programme ne collecte aucune statistique d'usage, aucun log distant |
| **Environnement controle** | Fonctionne sur poste local securise, reseau interne |

### 4.2 Securite du traitement

| Mesure | Detail |
|--------|--------|
| **Memoire vive uniquement** | Les DCP ne transitent que par la RAM pendant le traitement. Aucun fichier temporaire sur disque. |
| **Pas de base de donnees** | Aucune BDD locale ou distante ne stocke les DCP traitees |
| **Pas de reversibilite** | Aucune cle de chiffrement, aucune table de correspondance, aucun mecanisme de de-anonymisation |
| **Placeholders generiques** | Tous les noms deviennent [NOM] (pas de [NOM_1], [NOM_2]) — empeche la re-identification par croisement |

### 4.3 Multi-moteurs et vote croise

L'utilisation de **3 moteurs NER independants** en vote croise est une mesure de fiabilite :
- Reduit le risque de **faux negatifs** (DCP non detectee) : si un moteur rate une entite, les deux autres peuvent la rattraper
- Reduit le risque de **faux positifs** (terme medical masque a tort) : le vote majoritaire empeche un moteur isole de masquer un terme medical courant
- Le score de qualite mesure (96.3/100) quantifie le risque residuel

### 4.4 Format de sortie : caviardage raster

Le choix du **PDF raster** (image) comme format de sortie principal est une mesure de protection maximale :

```
Document original (PDF texte)
    |
    v
[Extraction texte] → [Detection PII] → [Remplacement par placeholders]
    |
    v
[Rasterisation 300 DPI] → [Rectangles noirs sur zones PII] → [Reconstruction PDF image]
    |
    v
Document anonymise (PDF image — texte irrecuperable)
```

**Garanties** :
- Le texte sous-jacent est **physiquement absent** du fichier PDF de sortie
- Les rectangles noirs sont des **pixels**, pas des annotations supprimables
- La resolution (300 DPI) preserve la lisibilite du contenu medical non masque
- Un filigrane optionnel identifie le document comme anonymise

---

## 5. Risques residuels et mesures d'attenuation

| Risque | Probabilite | Impact | Attenuation |
|--------|-------------|--------|-------------|
| **Faux negatif** : DCP non detectee passant dans le document de sortie | Faible (recall 97%) | Eleve | Vote croise 3 moteurs, gazetteers INSEE/FINESS, controle humain post-traitement, score qualite automatise |
| **Faux positif** : terme medical masque a tort reduisant la lisibilite | Moyen | Faible | Vote croise, stop words medicaux (BDPM, QUAERO), precision 96% |
| **Journal d'audit compromis** | Faible | Eleve | Acces restreint, suppression apres validation, chiffrement recommande |
| **Document original non supprime** | Moyen | Eleve | Procedure organisationnelle de suppression apres validation du lot |

---

## 6. Synthese de conformite

| Reglementation | Statut | Commentaire |
|----------------|--------|-------------|
| **RGPD** — Minimisation | Conforme | Aucune collecte supplementaire, traitement en memoire vive |
| **RGPD** — Privacy by Design | Conforme | Irreversibilite par conception (PDF raster) |
| **RGPD** — Securite | Conforme | Traitement 100% local, pas de cloud, pas de BDD |
| **RGPD** — Droits des personnes | Conforme | Applicable sur documents originaux, non applicable sur sorties anonymisees |
| **RGPD** — AIPD | A realiser | Obligatoire (donnees de sante + technologie innovante) |
| **RGPD** — Journal d'audit | Attention | Contient des DCP — traiter comme donnee sensible |
| **AI Act** — Classification | Risque minimal | Ne releve pas de l'Annexe III (pas de DM, pas de decision) |
| **AI Act** — Transparence | Conforme | Documentation technique, versioning des modeles, metriques |
| **AI Act** — Supervision humaine | Conforme | Controle humain systematique avant transmission |

---

*Document etabli le 11 mars 2026 — Version 1.0*