# Analyse d'Impact relative a la Protection des Donnees (AIPD) ## Programme d'anonymisation de documents medicaux **Responsable de traitement** : [A completer — etablissement de sante] **Date de realisation** : 11 mars 2026 **Version** : 1.0 **Statut** : Projet --- ## 1. Description du traitement ### 1.1 Nature du traitement Anonymisation automatique de documents medicaux au format PDF par detection et masquage des donnees a caractere personnel (DCP) a l'aide de techniques de traitement automatique du langage (NLP) et de reconnaissance d'entites nommees (NER). ### 1.2 Portee | Element | Detail | |---------|--------| | **Donnees traitees** | Noms, prenoms, dates de naissance, adresses, telephones, NIR, IPP, NDA, RPPS, IBAN, noms d'etablissements, villes, codes postaux | | **Personnes concernees** | Patients hospitalises, professionnels de sante (medecins, infirmiers, aides-soignants), contacts familiaux | | **Volume** | ~1 200 documents PDF par campagne de controle T2A | | **Frequence** | Ponctuelle (campagnes de controle annuelles ou semestrielles) | | **Perimetre geographique** | Etablissement de sante unique, France metropolitaine | ### 1.3 Finalite Permettre la transmission de documents justificatifs dans le cadre du controle T2A (Tarification a l'Activite) en conformite avec les obligations de l'Assurance Maladie, tout en protegeant les donnees personnelles des patients et des professionnels de sante. ### 1.4 Base legale - **Article 6.1.c RGPD** : Obligation legale — le controle T2A impose la transmission de documents justificatifs - **Article 9.2.h RGPD** : Traitement necessaire aux fins de la medecine preventive et de la gestion des systemes de sante - **Code de la Securite Sociale** : Articles L.162-22-18 et R.162-42-10 (controle T2A) --- ## 2. Description des moyens du traitement ### 2.1 Architecture technique ``` PDF original (donnees de sante) | v [Extraction texte multi-passes] - PyMuPDF (texte natif, layout-aware) - pdfplumber (tableaux) - pdfminer (fallback caracteres CID) - docTR OCR (documents scannes) | v [Detection PII — Phase 1 : Regles] - 30+ expressions regulieres (NIR, tel, email, adresses, dates de naissance...) - Gazetteers : INSEE (36K prenoms, 34K communes), BDPM (7K medicaments), FINESS (108K etablissements) - Extraction structuree (champs Trackare, en-tetes de courriers) | v [Detection PII — Phase 2 : NER multi-moteurs] - EDS-Pseudo (CamemBERT, NLP clinique francais) - GLiNER (NER zero-shot, modele urchade/gliner_multi_pii-v1) - CamemBERT-bio-deid v3 (fine-tune ONNX, F1=0.96, Recall=0.97) - Vote croise a 3 moteurs pour chaque entite detectee | v [Remplacement par placeholders generiques] - [NOM], [DATE_NAISSANCE], [ADRESSE], [TEL], [NIR], [IPP], etc. - Placeholders non individualisants (pas de numerotation) | v [Caviardage PDF raster] - Rasterisation 300 DPI de chaque page - Rectangles noirs sur les zones PII - Reconstruction PDF image (texte sous-jacent detruit) | v Sorties : PDF caviardes (image) + texte pseudonymise + journal d'audit ``` ### 2.2 Environnement d'execution | Element | Detail | |---------|--------| | **Materiel** | Poste de travail local (CPU standard, pas de GPU requis) | | **Systeme** | Linux (Ubuntu) | | **Reseau** | Aucune connexion internet requise pendant le traitement | | **Stockage** | Disque local chiffre (recommande) | | **Acces** | Poste mono-utilisateur, session authentifiee | ### 2.3 Modeles d'IA utilises | Modele | Type | Provenance | Execution | |--------|------|------------|-----------| | EDS-Pseudo | CamemBERT fine-tune NER | AP-HP (eds-nlp, open source) | CPU local, ONNX Runtime | | GLiNER | NER zero-shot | urchade (HuggingFace, open source) | CPU local | | CamemBERT-bio-deid v3 | CamemBERT-bio fine-tune NER | Entrainement interne sur annotations silver | CPU local, ONNX Runtime | **Aucun modele cloud n'est utilise. Aucune donnee ne quitte le poste local.** ### 2.4 Donnees d'entrainement du modele CamemBERT-bio-deid v3 | Element | Detail | |---------|--------| | Source | 1 112 documents cliniques anonymises par le pipeline multi-moteurs (silver annotations) | | Methode | Alignement diff texte original / texte pseudonymise, format BIO | | Augmentation | Substitution de noms par gazetteer INSEE (219K patronymes), hard negatives medicaux (BDPM, QUAERO) | | Validation | 20% des donnees reservees pour evaluation (F1=0.96, Recall=0.97, Precision=0.96) | | Stockage | Modele ONNX stocke localement (421 Mo), pas de donnees d'entrainement persistantes en production | --- ## 3. Evaluation de la necessite et de la proportionnalite ### 3.1 Necessite du traitement | Question | Reponse | |----------|---------| | Le traitement est-il necessaire a la finalite ? | **Oui** — la transmission de documents T2A sans anonymisation exposerait les DCP de ~1 200 patients a des tiers (controleurs ARS/CPAM). | | Existe-t-il une alternative moins intrusive ? | **Non** — l'anonymisation manuelle (caviardage a la main) est impraticable a cette echelle (30+ pages par dossier, 1 200 dossiers), avec un risque d'erreur humaine eleve. | | Le traitement automatique est-il proportionnel ? | **Oui** — le systeme traite uniquement les identifiants, sans modifier le contenu medical. Le recall de 97% est superieur a la fiabilite estimee d'un caviardage manuel. | ### 3.2 Proportionnalite | Critere | Evaluation | |---------|-----------| | **Minimisation des donnees** | Seules les DCP sont traitees. Le contenu medical n'est ni extrait, ni stocke, ni transmis. | | **Limitation de la conservation** | En memoire vive pendant le traitement uniquement. Pas de BDD, pas de fichiers temporaires sur disque. | | **Exactitude** | Score qualite mesure automatiquement (96.3/100). Controle humain post-traitement systematique. | --- ## 4. Identification et evaluation des risques ### 4.1 Risques pour les personnes concernees #### R1 — Faux negatif : DCP non detectee dans le document de sortie | Element | Evaluation | |---------|-----------| | **Gravite** | Elevee — exposition d'une donnee de sante identifiante | | **Vraisemblance** | Faible — recall de 97% (3 moteurs NER + regles + gazetteers) | | **Risque residuel** | Modere | | **Mesures d'attenuation** | Vote croise 3 moteurs NER, gazetteers INSEE/FINESS (180K+ entrees), controle humain post-traitement, score qualite automatise par document | #### R2 — Compromission du journal d'audit | Element | Evaluation | |---------|-----------| | **Gravite** | Elevee — le journal contient les valeurs originales des DCP | | **Vraisemblance** | Faible — traitement local, acces restreint | | **Risque residuel** | Faible | | **Mesures d'attenuation** | Acces restreint au responsable qualite, suppression apres validation du lot, chiffrement du disque recommande, non-transmission avec les documents anonymises | #### R3 — Acces non autorise aux documents originaux | Element | Evaluation | |---------|-----------| | **Gravite** | Elevee — documents medicaux complets | | **Vraisemblance** | Faible — poste local securise | | **Risque residuel** | Faible | | **Mesures d'attenuation** | Session authentifiee, chiffrement disque, suppression des originaux apres validation | #### R4 — Faux positif : perte d'information medicale | Element | Evaluation | |---------|-----------| | **Gravite** | Faible — un terme medical masque a tort reduit la lisibilite mais ne compromet pas la vie privee | | **Vraisemblance** | Faible — precision de 96%, stop words medicaux (BDPM + QUAERO) | | **Risque residuel** | Faible | | **Mesures d'attenuation** | Vote croise NER, whitelist termes medicaux, controle humain | #### R5 — Biais du modele NER | Element | Evaluation | |---------|-----------| | **Gravite** | Moyenne — certains types de noms (etrangers, composes) pourraient etre moins bien detectes | | **Vraisemblance** | Faible — donnees d'entrainement diversifiees (1 112 documents, augmentation INSEE) | | **Risque residuel** | Faible | | **Mesures d'attenuation** | Gazetteers INSEE (219K patronymes diversifies), extraction structuree (regex) en complement du NER, evaluation reguliere sur nouveaux documents | ### 4.2 Matrice des risques | Risque | Gravite | Vraisemblance | Risque initial | Mesures | Risque residuel | |--------|---------|---------------|----------------|---------|-----------------| | R1 — Faux negatif | Elevee | Faible | **Eleve** | Multi-moteurs, gazetteers, controle humain | **Modere** | | R2 — Audit compromis | Elevee | Faible | Eleve | Acces restreint, suppression, chiffrement | **Faible** | | R3 — Acces originaux | Elevee | Faible | Eleve | Authentification, chiffrement, suppression | **Faible** | | R4 — Faux positif | Faible | Faible | Faible | Vote croise, stop words | **Faible** | | R5 — Biais modele | Moyenne | Faible | Modere | Diversite donnees, gazetteers, evaluation | **Faible** | --- ## 5. Mesures prevues pour traiter les risques ### 5.1 Mesures techniques | Mesure | Risque traite | Statut | |--------|--------------|--------| | Vote croise 3 moteurs NER independants | R1 | En place | | Gazetteers INSEE (36K prenoms, 219K patronymes) | R1, R5 | En place | | Gazetteers FINESS (108K etablissements, Aho-Corasick) | R1 | En place | | Stop words medicaux (BDPM 7K + QUAERO) | R4 | En place | | Caviardage PDF raster (destruction physique des pixels) | R1 | En place | | Score qualite automatise par lot | R1 | En place | | Placeholders generiques non individualisants | R2 | En place | | Traitement 100% local (aucun cloud) | R2, R3 | En place | | Pas de fichiers temporaires sur disque | R2, R3 | En place | | Chiffrement du disque au repos | R2, R3 | Recommande | ### 5.2 Mesures organisationnelles | Mesure | Risque traite | Statut | |--------|--------------|--------| | Controle humain post-traitement (echantillonnage) | R1, R4 | A formaliser | | Procedure de suppression des originaux apres validation | R3 | A formaliser | | Procedure de suppression des journaux d'audit | R2 | A formaliser | | Restriction d'acces au poste de traitement | R2, R3 | En place | | Formation de l'operateur | R1 | A formaliser | | Evaluation periodique sur nouveaux types de documents | R1, R5 | A formaliser | --- ## 6. Plan d'action | Action | Responsable | Echeance | Priorite | |--------|-------------|----------|----------| | Valider l'AIPD avec le DPO | Responsable traitement | [A definir] | Haute | | Formaliser la procedure de controle humain post-anonymisation | Responsable qualite | [A definir] | Haute | | Formaliser la procedure de suppression des originaux | Responsable traitement | [A definir] | Haute | | Formaliser la procedure de suppression des audits | Responsable traitement | [A definir] | Moyenne | | Activer le chiffrement du disque de traitement | DSI | [A definir] | Moyenne | | Evaluer le systeme sur un jeu gold (annotations humaines) | Equipe technique | [A definir] | Haute | | Re-evaluer l'AIPD apres integration des annotations gold | DPO | [A definir] | Moyenne | --- ## 7. Avis du DPO [A completer par le DPO de l'etablissement] --- ## 8. Decision du responsable de traitement [A completer] - [ ] Le traitement peut etre mis en oeuvre - [ ] Le traitement doit etre modifie (preciser) - [ ] Le traitement ne doit pas etre mis en oeuvre (preciser) - [ ] Consultation prealable de la CNIL necessaire (article 36) **Signature** : ____________________ **Date** : ____________________ --- *Document genere le 11 mars 2026 — A valider par le DPO et le responsable de traitement*