feat(update): swap atomique + rollback (Lea.bat) + confirmation boot (main.py)

Implémente le SWAP réel de la MAJ silencieuse (DETTE-022), remplace les stubs : - updater.apply_update : ARME le swap (extrait le ZIP -> agent_v1_new/ + marqueur UPDATE_READY, garde-fou zip-slip). N'écrase JAMAIS le vivant. - updater.write_boot_ok_marker : désarme le rollback (retire PENDING_BOOT). - Lea.bat (template + embed généré par configure_embed.ps1) : swap ATOMIQUE par renames (agent_v1 -> agent_v1_prev backup ; agent_v1_new -> agent_v1) + rollback auto si PENDING_BOOT persiste (boot précédent non confirmé). - main.py : confirme le boot après 90 s de liveness locale OU quit propre (évite un faux rollback ; RPA_BOOT_CONFIRM_DELAY_S surchargeable pour les tests). Testable (Python) : 45 tests verts. Le swap OS (renames Lea.bat) + le câblage main.py seront validés par le test Win 11 (step 0 pré-canary, dont le rollback). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-07-01 14:10:34 +02:00
parent 5d235e49f1
commit a210e5ee32
5 changed files with 313 additions and 80 deletions
--- a/agent_v0/agent_v1/network/updater.py
+++ b/agent_v0/agent_v1/network/updater.py
@@ -18,12 +18,11 @@ Ce module ne contient que les parties PURES / testables, sans réseau réel :
    les fichiers vivants. Retourne un plan d'application.
  - `auto_update_enabled()` : lit le flag (défaut OFF).

-⚠️⚠️ PARTIES DANGEREUSES — RÉSERVÉES RÉVISION HUMAINE ⚠️⚠️
-Le remplacement réel des fichiers (`apply_update`), l'écriture du marker
-rollback (`write_boot_ok_marker`), l'édition de `Lea.bat` et le redémarrage
-ne sont PAS implémentés ici : ce sont des STUBS no-op explicites. Un agent ne
-doit pas écrire de code qui écrase des binaires vivants ou relance un process
-sans supervision. Les points d'extension sont marqués `# TODO swap supervisé`.
+⚠️ SWAP — répartition claire des responsabilités :
+`apply_update` / `write_boot_ok_marker` ci-dessous ne font que l'ARMEMENT côté
+Python (extraction vers `agent_v1_new/` + marqueurs) — ils n'écrasent JAMAIS un
+fichier vivant. Le remplacement ATOMIQUE (renames), le redémarrage et le
+rollback sont faits HORS-PROCESS par `Lea.bat` au démarrage (revu ligne à ligne).

 Pattern d'import / résilience aligné sur `log_shipper.py` (même branche).

@@ -33,8 +32,10 @@ Branche feat/push-log-dgx.
 from __future__ import annotations

 import hashlib
+import json
 import logging
 import os
+import shutil
 from pathlib import Path
 from typing import Callable, Optional, Tuple

@@ -296,6 +297,7 @@ def run_update_cycle(
    staging_dir,
    checker: Optional[Callable[[str, str], object]] = None,
    downloader: Optional[Callable[[str], bytes]] = None,
+    app_dir=None,
 ) -> dict:
    """Un cycle complet de MAJ silencieuse — GATED, best-effort, SANS swap.

@@ -306,9 +308,10 @@ def run_update_cycle(
      3. `should_update(...)` → plan (double garde semver, jamais de downgrade).
      4. `download_update(...)` → ZIP dans le STAGING + vérif SHA256. Ne touche
         JAMAIS les fichiers vivants.
-      5. Le swap réel N'EST PAS FAIT ici : `apply_update` reste un stub no-op
-         (réservé révision humaine + Lea.bat hors-process). Le résultat porte
-         `applied: False`.
+      5. `apply_update` ARME le swap (extraction `agent_v1_new/` + marqueur
+         UPDATE_READY) mais NE swappe PAS : le remplacement atomique + le
+         redémarrage sont faits par Lea.bat au prochain démarrage. `applied`
+         reste False tant que Léa n'a pas redémarré sur la nouvelle version.

    Jamais d'exception ne remonte (ne doit JAMAIS casser Léa). Retourne un dict
    d'état pour le diagnostic / le log :
@@ -342,76 +345,137 @@ def run_update_cycle(
            "error": staged.get("error"),
        }

-    # ⚠️ Le swap réel est réservé révision humaine : on APPELLE le stub (no-op)
-    # pour matérialiser le point d'extension, mais rien n'est écrasé/redémarré.
-    applied = apply_update(staged)
+    # Armement du swap : extraction du ZIP vers agent_v1_new\ + marqueur
+    # UPDATE_READY. Le swap ATOMIQUE (renames) et le redémarrage sont faits
+    # HORS-PROCESS par Lea.bat au prochain démarrage — JAMAIS depuis ici
+    # (on n'écrase pas les fichiers d'un Léa en cours d'exécution).
+    armed = apply_update(staged, app_dir=app_dir)

    return {
-        "status": "staged",
-        "applied": bool(applied.get("applied", False)),
+        "status": "armed" if armed.get("armed") else "arm_failed",
+        "applied": False,  # le swap effectif est fait par Lea.bat, pas ici
+        "armed": bool(armed.get("armed", False)),
        "target_version": staged.get("target_version"),
        "update_type": staged.get("update_type"),
        "staged_zip": staged.get("staged_zip"),
        "sha256_verified": staged.get("sha256_verified", False),
-        "apply_reason": applied.get("reason"),
+        "marker": armed.get("marker"),
+        "error": armed.get("error"),
    }


 # ===========================================================================
-# ⚠️ ZONE DANGEREUSE — STUBS RÉSERVÉS RÉVISION HUMAINE (NE PAS IMPLÉMENTER
-#    PAR UN AGENT). Points d'extension explicites, no-op pour l'instant.
+# SWAP — côté Python : ARMEMENT SEULEMENT (extraction + marqueurs).
+#   Le remplacement ATOMIQUE des fichiers vivants + le redémarrage + le
+#   rollback sont faits HORS-PROCESS par `Lea.bat` au démarrage (renames).
+#   Python n'écrase JAMAIS les fichiers d'un Léa en cours d'exécution.
 # ===========================================================================

-def apply_update(prepared: dict) -> dict:
-    """STUB — application réelle de l'update (swap des fichiers).
+def _resolve_app_dir(app_dir) -> Path:
+    """Répertoire d'install (contient `agent_v1/`, `run_agent_v1.py`, `Lea.bat`).

-    Réservé révision humaine : remplacer des fichiers vivants du client et
-    déclencher un swap est trop risqué pour être généré par un agent. La
-    mécanique cible (design v2) est :
+    INJECTABLE (tests : tmp_path). Défaut = parent du package agent_v1.
+    """
+    if app_dir is not None:
+        return Path(app_dir)
+    try:
+        from ..config import BASE_DIR  # BASE_DIR = dossier du package agent_v1
+        return Path(BASE_DIR).parent
+    except Exception:
+        return Path(__file__).resolve().parent.parent.parent

-      - code-only : extraire `agent_v1\\` + `lea_ui\\` + `run_agent_v1.py` +
-        `config.py` du ZIP staging, poser un marker `UPDATE_READY`
-        (`update_type=code-only`) ; le swap effectif est fait par `Lea.bat`
-        au prochain démarrage (xcopy ciblé).
-      - full : poser `UPDATE_READY` (`update_type=full`) ; `Lea.bat` fait le
-        backup complet `Lea_prev\\` puis le swap complet.

-    # TODO swap supervisé : extraction ZIP + écriture marker UPDATE_READY.
-    #   NE PAS écraser les fichiers vivants depuis Python — c'est Lea.bat qui
-    #   swappe hors-process. Édition de Lea.bat + restart = hors périmètre agent.
+def apply_update(prepared: dict, app_dir=None) -> dict:
+    """ARME le swap : extrait le ZIP staging vers `agent_v1_new/` + marqueur.
+
+    NE swappe PAS et NE redémarre PAS (c'est le rôle de `Lea.bat`). Écrit
+    uniquement à côté des fichiers vivants (dossier neuf + marqueur), donc
+    l'opération est sûre même sur un Léa en cours d'exécution.
+
+      1. Extrait `prepared["staged_zip"]` → `<app_dir>/agent_v1_new/`
+         (nettoyé au préalable ; garde-fou zip-slip).
+      2. Écrit `<app_dir>/UPDATE_READY` (JSON : version, type, chemins) que
+         `Lea.bat` lira au prochain démarrage pour faire le swap atomique.
+
+    Best-effort : aucune exception ne remonte (ne doit jamais casser Léa).

    Returns:
-        {applied: False, reason: "réservé révision humaine (swap supervisé)"}
+        succès : {armed: True, applied: False, target_version, update_type,
+                  marker, extracted_to}
+        échec  : {armed: False, applied: False, error}
    """
-    logger.info(
-        "apply_update appelé mais NON implémenté (stub réservé révision humaine) : %r",
-        prepared.get("target_version") if isinstance(prepared, dict) else prepared,
-    )
-    return {
-        "applied": False,
-        "reason": "réservé révision humaine — swap supervisé (Lea.bat), hors périmètre agent",
-    }
+    if not isinstance(prepared, dict):
+        return {"armed": False, "applied": False, "error": "prepared invalide"}
+    staged_zip = prepared.get("staged_zip")
+    target_version = prepared.get("target_version", "unknown")
+    update_type = _normalize_update_type(prepared.get("update_type"))
+    try:
+        root = _resolve_app_dir(app_dir)
+        zip_path = Path(staged_zip) if staged_zip else None
+        if zip_path is None or not zip_path.is_file():
+            return {"armed": False, "applied": False, "error": "ZIP staging introuvable"}
+
+        new_dir = root / "agent_v1_new"
+        if new_dir.exists():
+            shutil.rmtree(new_dir, ignore_errors=True)  # nettoie un staging partiel
+        new_dir.mkdir(parents=True, exist_ok=True)
+
+        import zipfile
+        new_root = new_dir.resolve()
+        with zipfile.ZipFile(zip_path) as zf:
+            for name in zf.namelist():  # garde-fou zip-slip (chemins ../)
+                dest = (new_dir / name).resolve()
+                if not str(dest).startswith(str(new_root)):
+                    shutil.rmtree(new_dir, ignore_errors=True)
+                    return {"armed": False, "applied": False,
+                            "error": f"zip-slip refusé : {name}"}
+            zf.extractall(new_dir)
+
+        marker = root / "UPDATE_READY"
+        marker.write_text(json.dumps({
+            "target_version": target_version,
+            "update_type": update_type,
+            "extracted_to": str(new_dir),
+            "staged_zip": str(zip_path),
+        }), encoding="utf-8")
+
+        logger.info(
+            "Update ARMÉ : %s (%s) → %s ; swap au prochain démarrage (Lea.bat)",
+            target_version, update_type, new_dir,
+        )
+        return {"armed": True, "applied": False, "target_version": target_version,
+                "update_type": update_type, "marker": str(marker),
+                "extracted_to": str(new_dir)}
+    except Exception as e:  # noqa: BLE001
+        logger.warning("apply_update (armement) a échoué : %s", e)
+        return {"armed": False, "applied": False, "error": f"arm_failed: {e}"}


-def write_boot_ok_marker(version: str) -> dict:
-    """STUB — écriture du marker rollback `boot_ok_{version}` (R1).
+def write_boot_ok_marker(version: str, app_dir=None) -> dict:
+    """Confirme un boot sain : écrit `boot_ok_{version}` + désarme le rollback.

-    Réservé révision humaine : le marker pilote le rollback de Lea.bat au
-    prochain démarrage. Sa sémantique (health-check ~60s heartbeat DGX +
-    session active AVANT écriture) doit être validée à la main pour éviter un
-    faux rollback (cas DGX down ≠ Léa N+1 buguée — cf. design R1, cas edge 3).
+    Appelé par `main.py` après ~90 s de tourne STABLE (liveness LOCALE,
+    indépendante du DGX — évite un faux rollback quand le réseau est coupé).
+    Retirer `PENDING_BOOT*` dit à `Lea.bat` que la nouvelle version a démarré
+    correctement (sinon, au prochain lancement, Lea.bat rollback vers la
+    version précédente).

-    # TODO swap supervisé : écrire `%LOCALAPPDATA%\\Lea\\boot_ok_{version}`
-    #   après ~60s de heartbeat DGX sain + session active (main.py startup).
-
-    Returns:
-        {written: False, reason: "..."}
+    Best-effort : aucune exception ne remonte.
    """
-    logger.info(
-        "write_boot_ok_marker appelé mais NON implémenté (stub R1) : version=%s",
-        version,
-    )
-    return {
-        "written": False,
-        "reason": "réservé révision humaine — marker rollback (health-check), hors périmètre agent",
-    }
+    try:
+        root = _resolve_app_dir(app_dir)
+        marker = root / f"boot_ok_{version}"
+        marker.write_text("ok", encoding="utf-8")
+        cleared = []
+        for p in root.glob("PENDING_BOOT*"):
+            try:
+                p.unlink()
+                cleared.append(p.name)
+            except OSError:
+                pass
+        logger.info("boot_ok écrit (%s) ; PENDING_BOOT retiré : %s",
+                    version, cleared or "aucun")
+        return {"written": True, "marker": str(marker), "cleared_pending": cleared}
+    except Exception as e:  # noqa: BLE001
+        logger.warning("write_boot_ok_marker a échoué : %s", e)
+        return {"written": False, "error": str(e)}