feat: Analyse propagation globale - 100% des *_GLOBAL et NOM_EXTRACTED sont des FP

2026-03-02 11:01:14 +01:00
parent 4eba826ca5
commit dfa45041d7
6 changed files with 876 additions and 3 deletions
--- a/tools/extract_medical_stopwords.py
+++ b/tools/extract_medical_stopwords.py
@@ -0,0 +1,200 @@
+#!/usr/bin/env python3
+"""
+Extrait les termes médicaux des documents pour enrichir les stopwords.
+
+Analyse les détections NOM_EXTRACTED pour identifier les faux positifs
+récurrents (termes médicaux, anatomiques, etc.) à ajouter aux stopwords.
+"""
+import sys
+import json
+from pathlib import Path
+from collections import Counter
+import re
+
+def extract_medical_terms():
+    """Extrait les termes médicaux des détections."""
+    
+    baseline_dir = Path("tests/ground_truth/pdfs/baseline_anonymized")
+    audit_files = sorted(baseline_dir.glob("*.audit.jsonl"))
+    
+    if not audit_files:
+        print(f"✗ Aucun fichier audit trouvé dans {baseline_dir}")
+        return 1
+    
+    print("="*80)
+    print("EXTRACTION DES TERMES MÉDICAUX")
+    print("="*80)
+    print(f"\n📁 Analyse de {len(audit_files)} fichiers audit...")
+    
+    # Collecter tous les NOM_EXTRACTED
+    nom_extracted = []
+    
+    for audit_file in audit_files:
+        with open(audit_file, 'r', encoding='utf-8') as f:
+            for line in f:
+                if line.strip():
+                    det = json.loads(line)
+                    if det.get('kind') == 'NOM_EXTRACTED':
+                        text = det.get('original', '').strip()
+                        if text:
+                            nom_extracted.append(text.lower())
+    
+    print(f"\n📊 {len(nom_extracted)} détections NOM_EXTRACTED trouvées")
+    
+    # Compter les occurrences
+    counter = Counter(nom_extracted)
+    
+    print(f"📊 {len(counter)} termes uniques")
+    
+    # Identifier les termes médicaux potentiels
+    # Critères: termes fréquents (>= 3 occurrences) et patterns médicaux
+    medical_patterns = [
+        r'^(dr|docteur|professeur|prof)$',
+        r'^(service|unite|unité|departement|département)$',
+        r'^(hopital|hôpital|clinique|centre|chu|ch)$',
+        r'^(medecin|médecin|infirmier|infirmière|aide.soignant)$',
+        r'^(consultation|hospitalisation|urgence|urgences)$',
+        r'^(chirurgie|cardiologie|pneumologie|neurologie|oncologie)$',
+        r'^(radiologie|imagerie|scanner|irm|echographie|échographie)$',
+        r'^(biologie|laboratoire|analyse|prelevement|prélèvement)$',
+        r'^(traitement|medicament|médicament|ordonnance|prescription)$',
+        r'^(diagnostic|pathologie|maladie|syndrome|infection)$',
+        r'^(patient|malade|sujet|cas)$',
+        r'^(examen|bilan|controle|contrôle|suivi)$',
+        r'^(resultat|résultat|valeur|taux|dosage)$',
+        r'^(antecedent|antécédent|allergie|risque|facteur)$',
+        r'^(gauche|droit|droite|superieur|supérieur|inferieur|inférieur)$',
+        r'^(anterieur|antérieur|posterieur|postérieur|lateral|latéral)$',
+        r'^(proximal|distal|medial|médial)$',
+        r'(ologie|ique|aire|ose|ite|ome)$',  # Suffixes médicaux
+    ]
+    
+    medical_terms = set()
+    frequent_terms = []
+    
+    for term, count in counter.most_common():
+        # Termes fréquents (>= 3 occurrences)
+        if count >= 3:
+            frequent_terms.append((term, count))
+            
+            # Vérifier si c'est un terme médical
+            is_medical = any(re.search(pattern, term, re.IGNORECASE) for pattern in medical_patterns)
+            
+            if is_medical:
+                medical_terms.add(term)
+    
+    print(f"\n📊 {len(frequent_terms)} termes fréquents (≥3 occurrences)")
+    print(f"📊 {len(medical_terms)} termes médicaux identifiés automatiquement")
+    
+    # Afficher les top 50 termes fréquents
+    print(f"\n🔝 Top 50 termes les plus fréquents:")
+    for i, (term, count) in enumerate(frequent_terms[:50], 1):
+        is_medical = term in medical_terms
+        marker = "🏥" if is_medical else "  "
+        print(f"   {i:2d}. {marker} {term:30s} ({count:3d} occurrences)")
+    
+    # Catégoriser les termes
+    categories = {
+        "Titres/Fonctions": [],
+        "Services/Départements": [],
+        "Établissements": [],
+        "Examens/Procédures": [],
+        "Anatomie": [],
+        "Pathologies": [],
+        "Médicaments/Traitements": [],
+        "Termes généraux": []
+    }
+    
+    # Patterns par catégorie
+    category_patterns = {
+        "Titres/Fonctions": [r'(dr|docteur|prof|medecin|médecin|infirmier)'],
+        "Services/Départements": [r'(service|unite|unité|departement|département|ologie)'],
+        "Établissements": [r'(hopital|hôpital|clinique|centre|chu|ch)'],
+        "Examens/Procédures": [r'(examen|bilan|scanner|irm|echo|radio|analyse)'],
+        "Anatomie": [r'(gauche|droit|superieur|inferieur|anterieur|posterieur|lateral|proximal|distal)'],
+        "Pathologies": [r'(ite|ose|ome|pathologie|maladie|syndrome|infection)'],
+        "Médicaments/Traitements": [r'(traitement|medicament|médicament|ordonnance|prescription)'],
+    }
+    
+    for term in medical_terms:
+        categorized = False
+        for category, patterns in category_patterns.items():
+            if any(re.search(p, term, re.IGNORECASE) for p in patterns):
+                categories[category].append(term)
+                categorized = True
+                break
+        if not categorized:
+            categories["Termes généraux"].append(term)
+    
+    # Afficher par catégorie
+    print(f"\n" + "="*80)
+    print("TERMES MÉDICAUX PAR CATÉGORIE")
+    print("="*80)
+    
+    for category, terms in categories.items():
+        if terms:
+            print(f"\n{category} ({len(terms)} termes):")
+            for term in sorted(terms)[:20]:  # Limiter à 20 par catégorie
+                count = counter[term]
+                print(f"   - {term} ({count} occ.)")
+            if len(terms) > 20:
+                print(f"   ... et {len(terms) - 20} autres")
+    
+    # Sauvegarder les résultats
+    output_dir = Path("tests/ground_truth/analysis")
+    output_dir.mkdir(exist_ok=True)
+    
+    output_data = {
+        "extraction_date": "2026-03-02",
+        "total_detections": len(nom_extracted),
+        "unique_terms": len(counter),
+        "frequent_terms_count": len(frequent_terms),
+        "medical_terms_count": len(medical_terms),
+        "top_50_frequent": [
+            {"term": term, "count": count, "is_medical": term in medical_terms}
+            for term, count in frequent_terms[:50]
+        ],
+        "medical_terms_by_category": {
+            category: sorted(terms)
+            for category, terms in categories.items()
+            if terms
+        },
+        "all_medical_terms": sorted(medical_terms)
+    }
+    
+    output_file = output_dir / "medical_stopwords_candidates.json"
+    with open(output_file, 'w', encoding='utf-8') as f:
+        json.dump(output_data, f, indent=2, ensure_ascii=False)
+    
+    print(f"\n📊 Résultats sauvegardés: {output_file}")
+    
+    # Générer un fichier Python avec les nouveaux stopwords
+    stopwords_file = output_dir / "new_medical_stopwords.py"
+    with open(stopwords_file, 'w', encoding='utf-8') as f:
+        f.write("# Nouveaux stopwords médicaux extraits automatiquement\n")
+        f.write("# À ajouter à _MEDICAL_STOP_WORDS_SET dans anonymizer_core_refactored_onnx.py\n\n")
+        f.write("NEW_MEDICAL_STOPWORDS = {\n")
+        for term in sorted(medical_terms):
+            f.write(f'    "{term}",\n')
+        f.write("}\n")
+    
+    print(f"📊 Stopwords Python générés: {stopwords_file}")
+    
+    print(f"\n" + "="*80)
+    print("RECOMMANDATIONS")
+    print("="*80)
+    print(f"""
+1. Réviser manuellement les termes dans: {output_file}
+2. Ajouter les termes validés à _MEDICAL_STOP_WORDS_SET
+3. Re-exécuter l'anonymisation et l'évaluation
+4. Vérifier la réduction des FP NOM_EXTRACTED
+
+Gain estimé: Réduction de ~{len(medical_terms)} termes récurrents
+Impact: Amélioration de la précision de plusieurs points
+""")
+    
+    return 0
+
+
+if __name__ == "__main__":
+    sys.exit(extract_medical_terms())