Domi31tls 28da29f521 Perf x56 : parallélisation raster + dédup tokens vector (30min → 32s sur 4 PDFs)
- Rasterisation parallèle (ProcessPoolExecutor) : _rasterize_page worker par page
- Déduplication tokens dans redact_pdf_vector : 401 hits → 28 tokens uniques par page
- Séparation phase search / phase annotate pour éviter dégradation PyMuPDF
- Déduplication tokens dans redact_pdf_raster (Phase 1)
- Index by_page dict au lieu de filtrage linéaire par page
- Ajout process_pdfs_batch() pour batch multi-PDF sans NER
- Support OCR word map dans vector et raster (fallback PDFs scannés)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-26 23:13:20 +01:00

placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete

L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.

Description
No description provided
Readme 247 MiB
Languages
Python 98.2%
Batchfile 1%
PowerShell 0.5%
Shell 0.3%