Files
rpa_vision_v3/docs/handoffs/PROMPT_REPRISE_QWEN_2026-05-26_HANDOFF.md

7.4 KiB

Handoff Qwen — Session 2026-05-26 soir → 2026-05-27

  • De: Qwen
  • Date: 2026-05-26 22:30 Europe/Paris
  • Contexte: fin de session soir, reprise demain
  • Équipe: Dom (arbitre), Codex (coordinateur), Claude/Claudettes (collègues), Qwen (moi)

État du projet — ce qui a été fait ce soir

Session de reprise (20h44 → 22h30)

  1. Lecture du prompt de reprise (PROMPT_REPRISE_QWEN_2026-05-26_SOIR.md)

    • Cadrage Aiva-vision / Léa / Aiva-urgence
    • Scénario démo v2 : collecte multi-onglets → transposition OnlyOffice
    • Limites non négociables Dom
  2. Première analyse2026-05-26_2044_qwen-to-codex_REPRISE-analyse-scenario-v2.md

    • ACK/NACK, 8-lignes résumé, 5 risques, 5 critères, 3 vérifications
    • Recommandation : dry-run contrôlé
  3. Deuxième passe après lecture 5 sources actives2026-05-26_2050_qwen-to-codex_DELTA-apres-lecture-sources-actives.md

    • Corrections : /api/analyse n'est pas un endpoint vision, orthographe Easily
    • 3 risques bloquants : extract_text_scroll, grounding maquette, sortie transposition
    • Proposition transposition : .xlsx via openpyxl, fallback .txt
  4. Audit technique dry-run + OnlyOffice2026-05-26_2101_qwen-to-codex_AUDIT-technique-dryrun-onlyoffice.md

    • 8 ancres critiques à valider
    • Seuils GO/NOGO par onglet
    • Fallbacks F1-F4
  5. Seuils et fallbacks après dry-run2026-05-26_2113_qwen-to-codex_SEUILS-fallbacks-apres-dryrun.md

    • Seuils affinés sur données réelles du dry-run
    • 4 fallbacks techniques documentés
  6. Rapport P0 OCR écran2026-05-26_2117_qwen-to-codex_RAPPORT-P0-ocr-ecran.md

    • Diagnostic pipeline OCR (EasyOCR, docTR, Tesseract)
    • Architecture multi-moteur par zone
    • Cold start vs interface apprise
    • Mis à jour : docTR CPU repositionné comme moteur de zonage P0
  7. Retour benchmark OCR2026-05-26_2148_qwen-to-codex_RETOUR-benchmark-ocr-capitalisation.md

    • Tesseract 11/11 IPP en 0,47s
    • EasyOCR 8/11 IPP, bon sur texte continu
    • Preprocessing OpenCV : régression, pas d'amélioration
    • Architecture multi-moteur : chiffres→Tesseract, texte→EasyOCR, structure→docTR
    • 5 règles de capitalisation
  8. ACK apprentissage scroll sécurisé2026-05-26_2149_qwen-to-codex_ACK-apprentissage-scroll-securise.md

    • GO/NOGO sur marqueurs après scroll (CCMU, GEMSA, J12.1, Consultation externe)
    • Scroll réussi = geste + changement visuel + données relues

Exploration web (solutions similaires)

  • Agent-S : réflexion in-context, Best-of-N sampling, grounding dédié
  • UI-TARS : grounding GUI par coordonnées, reinforcement learning
  • Claude Computer Use : 22% OSWorld, scroll/drag difficiles
  • OpenAI Operator : abandonné (août 2025)
  • Différentiateur Aiva-vision : "l'agent qui sait s'arrêter" — défendable en domaine réglementé

Exploration codebase

  • Agent explorateur a scanné 880 fichiers Python, 39 sous-modules core/
  • Pipeline complet compris : capture → streaming → analyse → grounding → execution → replay

État technique connu — décisions actives

OCR

  • EasyOCR brut : moteur par défaut pour texte continu (inchangé)
  • Tesseract : patch appliqué pour IPP/chiffres (extract_digits_tesseract_from_image(), extract_table(engine="tesseract"))
  • docTR CPU : moteur de zonage pour band patient, synthèse, bboxes
  • Preprocessing OpenCV : reporté (régression mesurée)
  • PaddleOCR : post-démo
  • VLM OCR texte : exclu J-6

Workflow

  • Demo_urgence_3_db / wf_483910cdd851_1778750587 : step extract_table → Tesseract
  • BDD backupée : workflows.db.backup_2026-05-26_ocr_tesseract_demo3
  • 5 onglets préparés, live prudent possible en 4 si scroll échoue

Démo

  • Cible : 2026-06-01
  • Répétition humaine : demain (Dom challengeur)
  • Dossier cible : MOREL Catherine / IPP 25003284
  • Sortie : .xlsx ouvert dans OnlyOffice (/snap/bin/onlyoffice-desktopeditors)
  • Profil démo Linux actif (flags skip vision, EasyOCR CPU)

Documents actifs à connaître

Sources actives prioritaires

  1. docs/coordination/active/2026-05-26_cadrage-produit-aiva-vision.md
  2. docs/coordination/active/2026-05-26_arbitrage-dom-demo-reelle-poc.md
  3. docs/coordination/active/2026-05-26_principe-dom-apprentissage-fail-safe.md
  4. docs/coordination/active/2026-05-26_scenario-operatoire-demo-lea-v2-collecte-transposition.md
  5. docs/coordination/active/2026-05-26_audit-ancien-workflow-urgence-aiva.md

Documents ajoutés ce soir

  • docs/coordination/active/2026-05-26_benchmark-ocr-local-captures-easily.md
  • docs/coordination/active/2026-05-26_arbitrage-scroll-vwb-reference.md
  • docs/coordination/active/2026-05-26_principe-apprentissage-scroll-securise.md
  • docs/coordination/active/2026-05-26_synthese-retours-claude-qwen-demo-v2-ocr.md
  • docs/coordination/active/2026-05-26_dryrun-easily-v2-captures-ocr-onlyoffice.md
  • docs/coordination/active/2026-05-26_arbitrage-sortie-transposition-onlyoffice.md
  • docs/coordination/active/2026-05-26_mission-p0-ocr-ecran-lea.md
  • docs/coordination/active/2026-05-26_mission-P0-ocr-ecran-qwen.md

Runbook

  • docs/coordination/active/2026-05-26_runbook-repetition-humain-challenge-demo-v2.md

Fichiers produits ce soir (inbox_codex)

Fichier Type
2026-05-26_2044_qwen-to-codex_REPRISE-analyse-scenario-v2.md Analyse initiale
2026-05-26_2050_qwen-to-codex_DELTA-apres-lecture-sources-actives.md Delta sources
2026-05-26_2101_qwen-to-codex_AUDIT-technique-dryrun-onlyoffice.md Audit technique
2026-05-26_2113_qwen-to-codex_SEUILS-fallbacks-apres-dryrun.md Seuils/fallbacks
2026-05-26_2117_qwen-to-codex_RAPPORT-P0-ocr-ecran.md Rapport OCR (mis à jour)
2026-05-26_2137_qwen-to-codex_SYNTHESE-benchmark-5-onglets.md Synthèse collectif
2026-05-26_2148_qwen-to-codex_RETOUR-benchmark-ocr-capitalisation.md Retour benchmark
2026-05-26_2149_qwen-to-codex_ACK-apprentissage-scroll-securise.md ACK scroll

Ce qui reste à faire / à surveiller demain

  1. Répétition humaine — Dom challengeur, critères GO/NOGO stricts
  2. Résultats de la répétition — ajuster si nécessaire
  3. Patchs potentiels — selon résultats répétition (scroll, grounding)
  4. Préparation démo 2026-06-01 — J-5 après demain

Mémoire construite ce soir

  • user/dom_constraints.md — Limites non négociables Dom
  • project/aiva_vision_demo.md — Contexte démo Aiva-vision
  • feedback/qwen_avoidances.md — Ce que Qwen doit éviter
  • feedback/dom_doctr_preference.md — DocTR puissant pour zonage
  • feedback/qwen_proactive_improvements.md — Qwen doit proposer des idées
  • project/aiva_vision_product_philosophy.md — Collaborateur administratif, pas RPA
  • reference/coordination_process.md — Coordination par fichiers Markdown

Notes personnelles Qwen

  • Le positionnement produit est collaborateur administratif supervisé, pas RPA "boîte à clic"
  • Notre avantage : "l'agent qui sait s'arrêter" — pas un bug, une feature en domaine réglementé
  • Architecture : Aiva-vision (socle universel) + plugins métier (accélérateurs d'apprentissage)
  • Cycle Léa : apprendre → essayer → se planter → humain rattrape → consolide → indépendant
  • L'exploration web montre que personne n'a résolu le computer use fiable (Claude 22%, OpenAI a abandonné)

Auteur : Qwen