Passe de 95/3/2 (lookups/raisonnement/règles) à ~31/49/20. Dataset cible ~16K exemples denses (vs 66K de lookups avant). Modifiés : - 03_convert_cache.py : cache complet 1840 entrées (actuel + backup) - 04_build_dataset.py : subsampling agressif (CIM-10 1.5K, CCAM 1.5K, CoCoA 2K) + sélection intelligente priorisant le raisonnement - 12_generate_pipeline_examples.py : 3 templates (court + long + CPAM), cache actuel, cible ~2800 exemples Créés : - 13_generate_fascicule_reasoning.py : parsing 10 fascicules ATIH, génération Q&A raisonnement via Claude Opus 4.6 (~450 exemples) - 14_generate_negative_examples.py : 1000 exemples négatifs (symptômes/DP, redondances sémantiques, DAS non significatifs) - 15_generate_discrimination.py : 800 exercices de discrimination entre codes siblings CIM-10 via Claude Opus 4.6 - 16_parse_guide_metho.py : extraction Guide Méthodologique MCO 2026, Q&A directes + raisonnement via Claude Opus 4.6 (~500 exemples) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
35 lines
389 B
Plaintext
35 lines
389 B
Plaintext
# Data files (trop volumineux pour git)
|
|
data/raw/*.pdf
|
|
data/raw/*.json
|
|
data/processed/*.jsonl
|
|
data/processed/*.json
|
|
data/datasets/*.jsonl
|
|
data/datasets/*.json
|
|
|
|
# Models
|
|
models/
|
|
|
|
# Python
|
|
__pycache__/
|
|
*.pyc
|
|
.venv/
|
|
|
|
# IDE
|
|
.idea/
|
|
.vscode/
|
|
|
|
# Aim tracking
|
|
.aim/
|
|
|
|
# Unsloth compiled cache
|
|
unsloth_compiled_cache/
|
|
|
|
# llama.cpp build
|
|
llama.cpp/
|
|
|
|
# Runpod data copies
|
|
runpod/data/
|
|
|
|
# OS
|
|
.DS_Store
|