Analyse d'Impact relative a la Protection des Donnees (AIPD)
Programme d'anonymisation de documents medicaux
Responsable de traitement : [A completer — etablissement de sante]
Date de realisation : 11 mars 2026
Version : 1.0
Statut : Projet
1. Description du traitement
1.1 Nature du traitement
Anonymisation automatique de documents medicaux au format PDF par detection et masquage des donnees a caractere personnel (DCP) a l'aide de techniques de traitement automatique du langage (NLP) et de reconnaissance d'entites nommees (NER).
1.2 Portee
| Element |
Detail |
| Donnees traitees |
Noms, prenoms, dates de naissance, adresses, telephones, NIR, IPP, NDA, RPPS, IBAN, noms d'etablissements, villes, codes postaux |
| Personnes concernees |
Patients hospitalises, professionnels de sante (medecins, infirmiers, aides-soignants), contacts familiaux |
| Volume |
~1 200 documents PDF par campagne de controle T2A |
| Frequence |
Ponctuelle (campagnes de controle annuelles ou semestrielles) |
| Perimetre geographique |
Etablissement de sante unique, France metropolitaine |
1.3 Finalite
Permettre la transmission de documents justificatifs dans le cadre du controle T2A (Tarification a l'Activite) en conformite avec les obligations de l'Assurance Maladie, tout en protegeant les donnees personnelles des patients et des professionnels de sante.
1.4 Base legale
- Article 6.1.c RGPD : Obligation legale — le controle T2A impose la transmission de documents justificatifs
- Article 9.2.h RGPD : Traitement necessaire aux fins de la medecine preventive et de la gestion des systemes de sante
- Code de la Securite Sociale : Articles L.162-22-18 et R.162-42-10 (controle T2A)
2. Description des moyens du traitement
2.1 Architecture technique
2.2 Environnement d'execution
| Element |
Detail |
| Materiel |
Poste de travail local (CPU standard, pas de GPU requis) |
| Systeme |
Linux (Ubuntu) |
| Reseau |
Aucune connexion internet requise pendant le traitement |
| Stockage |
Disque local chiffre (recommande) |
| Acces |
Poste mono-utilisateur, session authentifiee |
2.3 Modeles d'IA utilises
| Modele |
Type |
Provenance |
Execution |
| EDS-Pseudo |
CamemBERT fine-tune NER |
AP-HP (eds-nlp, open source) |
CPU local, ONNX Runtime |
| GLiNER |
NER zero-shot |
urchade (HuggingFace, open source) |
CPU local |
| CamemBERT-bio-deid v3 |
CamemBERT-bio fine-tune NER |
Entrainement interne sur annotations silver |
CPU local, ONNX Runtime |
Aucun modele cloud n'est utilise. Aucune donnee ne quitte le poste local.
2.4 Donnees d'entrainement du modele CamemBERT-bio-deid v3
| Element |
Detail |
| Source |
1 112 documents cliniques anonymises par le pipeline multi-moteurs (silver annotations) |
| Methode |
Alignement diff texte original / texte pseudonymise, format BIO |
| Augmentation |
Substitution de noms par gazetteer INSEE (219K patronymes), hard negatives medicaux (BDPM, QUAERO) |
| Validation |
20% des donnees reservees pour evaluation (F1=0.96, Recall=0.97, Precision=0.96) |
| Stockage |
Modele ONNX stocke localement (421 Mo), pas de donnees d'entrainement persistantes en production |
3. Evaluation de la necessite et de la proportionnalite
3.1 Necessite du traitement
| Question |
Reponse |
| Le traitement est-il necessaire a la finalite ? |
Oui — la transmission de documents T2A sans anonymisation exposerait les DCP de ~1 200 patients a des tiers (controleurs ARS/CPAM). |
| Existe-t-il une alternative moins intrusive ? |
Non — l'anonymisation manuelle (caviardage a la main) est impraticable a cette echelle (30+ pages par dossier, 1 200 dossiers), avec un risque d'erreur humaine eleve. |
| Le traitement automatique est-il proportionnel ? |
Oui — le systeme traite uniquement les identifiants, sans modifier le contenu medical. Le recall de 97% est superieur a la fiabilite estimee d'un caviardage manuel. |
3.2 Proportionnalite
| Critere |
Evaluation |
| Minimisation des donnees |
Seules les DCP sont traitees. Le contenu medical n'est ni extrait, ni stocke, ni transmis. |
| Limitation de la conservation |
En memoire vive pendant le traitement uniquement. Pas de BDD, pas de fichiers temporaires sur disque. |
| Exactitude |
Score qualite mesure automatiquement (96.3/100). Controle humain post-traitement systematique. |
4. Identification et evaluation des risques
4.1 Risques pour les personnes concernees
R1 — Faux negatif : DCP non detectee dans le document de sortie
| Element |
Evaluation |
| Gravite |
Elevee — exposition d'une donnee de sante identifiante |
| Vraisemblance |
Faible — recall de 97% (3 moteurs NER + regles + gazetteers) |
| Risque residuel |
Modere |
| Mesures d'attenuation |
Vote croise 3 moteurs NER, gazetteers INSEE/FINESS (180K+ entrees), controle humain post-traitement, score qualite automatise par document |
R2 — Compromission du journal d'audit
| Element |
Evaluation |
| Gravite |
Elevee — le journal contient les valeurs originales des DCP |
| Vraisemblance |
Faible — traitement local, acces restreint |
| Risque residuel |
Faible |
| Mesures d'attenuation |
Acces restreint au responsable qualite, suppression apres validation du lot, chiffrement du disque recommande, non-transmission avec les documents anonymises |
R3 — Acces non autorise aux documents originaux
| Element |
Evaluation |
| Gravite |
Elevee — documents medicaux complets |
| Vraisemblance |
Faible — poste local securise |
| Risque residuel |
Faible |
| Mesures d'attenuation |
Session authentifiee, chiffrement disque, suppression des originaux apres validation |
R4 — Faux positif : perte d'information medicale
| Element |
Evaluation |
| Gravite |
Faible — un terme medical masque a tort reduit la lisibilite mais ne compromet pas la vie privee |
| Vraisemblance |
Faible — precision de 96%, stop words medicaux (BDPM + QUAERO) |
| Risque residuel |
Faible |
| Mesures d'attenuation |
Vote croise NER, whitelist termes medicaux, controle humain |
R5 — Biais du modele NER
| Element |
Evaluation |
| Gravite |
Moyenne — certains types de noms (etrangers, composes) pourraient etre moins bien detectes |
| Vraisemblance |
Faible — donnees d'entrainement diversifiees (1 112 documents, augmentation INSEE) |
| Risque residuel |
Faible |
| Mesures d'attenuation |
Gazetteers INSEE (219K patronymes diversifies), extraction structuree (regex) en complement du NER, evaluation reguliere sur nouveaux documents |
4.2 Matrice des risques
| Risque |
Gravite |
Vraisemblance |
Risque initial |
Mesures |
Risque residuel |
| R1 — Faux negatif |
Elevee |
Faible |
Eleve |
Multi-moteurs, gazetteers, controle humain |
Modere |
| R2 — Audit compromis |
Elevee |
Faible |
Eleve |
Acces restreint, suppression, chiffrement |
Faible |
| R3 — Acces originaux |
Elevee |
Faible |
Eleve |
Authentification, chiffrement, suppression |
Faible |
| R4 — Faux positif |
Faible |
Faible |
Faible |
Vote croise, stop words |
Faible |
| R5 — Biais modele |
Moyenne |
Faible |
Modere |
Diversite donnees, gazetteers, evaluation |
Faible |
5. Mesures prevues pour traiter les risques
5.1 Mesures techniques
| Mesure |
Risque traite |
Statut |
| Vote croise 3 moteurs NER independants |
R1 |
En place |
| Gazetteers INSEE (36K prenoms, 219K patronymes) |
R1, R5 |
En place |
| Gazetteers FINESS (108K etablissements, Aho-Corasick) |
R1 |
En place |
| Stop words medicaux (BDPM 7K + QUAERO) |
R4 |
En place |
| Caviardage PDF raster (destruction physique des pixels) |
R1 |
En place |
| Score qualite automatise par lot |
R1 |
En place |
| Placeholders generiques non individualisants |
R2 |
En place |
| Traitement 100% local (aucun cloud) |
R2, R3 |
En place |
| Pas de fichiers temporaires sur disque |
R2, R3 |
En place |
| Chiffrement du disque au repos |
R2, R3 |
Recommande |
5.2 Mesures organisationnelles
| Mesure |
Risque traite |
Statut |
| Controle humain post-traitement (echantillonnage) |
R1, R4 |
A formaliser |
| Procedure de suppression des originaux apres validation |
R3 |
A formaliser |
| Procedure de suppression des journaux d'audit |
R2 |
A formaliser |
| Restriction d'acces au poste de traitement |
R2, R3 |
En place |
| Formation de l'operateur |
R1 |
A formaliser |
| Evaluation periodique sur nouveaux types de documents |
R1, R5 |
A formaliser |
6. Plan d'action
| Action |
Responsable |
Echeance |
Priorite |
| Valider l'AIPD avec le DPO |
Responsable traitement |
[A definir] |
Haute |
| Formaliser la procedure de controle humain post-anonymisation |
Responsable qualite |
[A definir] |
Haute |
| Formaliser la procedure de suppression des originaux |
Responsable traitement |
[A definir] |
Haute |
| Formaliser la procedure de suppression des audits |
Responsable traitement |
[A definir] |
Moyenne |
| Activer le chiffrement du disque de traitement |
DSI |
[A definir] |
Moyenne |
| Evaluer le systeme sur un jeu gold (annotations humaines) |
Equipe technique |
[A definir] |
Haute |
| Re-evaluer l'AIPD apres integration des annotations gold |
DPO |
[A definir] |
Moyenne |
7. Avis du DPO
[A completer par le DPO de l'etablissement]
8. Decision du responsable de traitement
[A completer]
Signature : ____________________
Date : ____________________
Document genere le 11 mars 2026 — A valider par le DPO et le responsable de traitement