Concept internals

Parité agentique GPT-5.5 / Codex

OpenClaw fonctionnait déjà bien avec les modèles de pointe utilisant des outils, mais GPT-5.5 et les modèles de style Codex restaient moins performants sur quelques points pratiques :

  • ils pouvaient s’arrêter après la planification au lieu d’effectuer le travail
  • ils pouvaient utiliser incorrectement les schémas d’outils OpenAI/Codex stricts
  • ils pouvaient demander /elevated full même lorsque l’accès complet était impossible
  • ils pouvaient perdre l’état des tâches de longue durée pendant la relecture ou la Compaction
  • les affirmations de parité avec Claude Opus 4.6 reposaient sur des anecdotes plutôt que sur des scénarios reproductibles

Ce programme de parité corrige ces écarts en quatre volets révisables.

Ce qui a changé

PR A : exécution agentique stricte

Ce volet ajoute un contrat d’exécution strict-agentic activable pour les exécutions GPT-5 Pi intégrées.

Lorsqu’il est activé, OpenClaw cesse d’accepter les tours limités à un plan comme une fin « suffisante ». Si le modèle se contente de dire ce qu’il compte faire sans réellement utiliser d’outils ni progresser, OpenClaw réessaie avec une orientation d’action immédiate, puis échoue de façon fermée avec un état bloqué explicite au lieu de terminer silencieusement la tâche.

Cela améliore surtout l’expérience GPT-5.5 sur :

  • les suivis courts du type « ok fais-le »
  • les tâches de code où la première étape est évidente
  • les flux où update_plan devrait suivre la progression plutôt que produire du texte de remplissage

PR B : véracité du runtime

Ce volet fait en sorte qu’OpenClaw dise la vérité sur deux choses :

  • pourquoi l’appel au fournisseur/runtime a échoué
  • si /elevated full est réellement disponible

Cela signifie que GPT-5.5 reçoit de meilleurs signaux runtime pour les portées manquantes, les échecs de renouvellement d’authentification, les échecs d’authentification HTML 403, les problèmes de proxy, les échecs DNS ou de délai d’attente, et les modes d’accès complet bloqués. Le modèle est moins susceptible d’halluciner la mauvaise correction ou de continuer à demander un mode d’autorisation que le runtime ne peut pas fournir.

PR C : exactitude de l’exécution

Ce volet améliore deux types d’exactitude :

  • la compatibilité des schémas d’outils OpenAI/Codex appartenant au fournisseur
  • l’exposition de la vivacité lors de la relecture et des tâches longues

Le travail sur la compatibilité des outils réduit les frictions de schéma pour l’enregistrement strict des outils OpenAI/Codex, en particulier autour des outils sans paramètres et des attentes strictes d’objet racine. Le travail sur la relecture/vivacité rend les tâches de longue durée plus observables, de sorte que les états en pause, bloqués et abandonnés sont visibles au lieu de disparaître dans un texte d’échec générique.

PR D : harnais de parité

Ce volet ajoute le premier pack de parité QA-lab afin que GPT-5.5 et Opus 4.6 puissent être exercés à travers les mêmes scénarios et comparés avec des preuves partagées.

Le pack de parité est la couche de preuve. Il ne change pas le comportement runtime à lui seul.

Après avoir deux artefacts qa-suite-summary.json, générez la comparaison de porte de publication avec :

pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity

Cette commande écrit :

  • un rapport Markdown lisible par un humain
  • un verdict JSON lisible par machine
  • un résultat de porte explicite pass / fail

Pourquoi cela améliore GPT-5.5 en pratique

Avant ce travail, GPT-5.5 sur OpenClaw pouvait sembler moins agentique qu’Opus dans de vraies sessions de codage, car le runtime tolérait des comportements particulièrement nuisibles aux modèles de style GPT-5 :

  • des tours composés uniquement de commentaires
  • des frictions de schéma autour des outils
  • des retours d’autorisation vagues
  • des ruptures silencieuses de relecture ou de Compaction

L’objectif n’est pas de faire imiter Opus par GPT-5.5. L’objectif est de donner à GPT-5.5 un contrat runtime qui récompense la progression réelle, fournit une sémantique plus claire pour les outils et les autorisations, et transforme les modes d’échec en états explicites lisibles par machine et par humain.

Cela fait passer l’expérience utilisateur de :

  • « le modèle avait un bon plan mais s’est arrêté »

à :

  • « le modèle a agi, ou OpenClaw a exposé la raison exacte pour laquelle il ne pouvait pas »

Avant/après pour les utilisateurs de GPT-5.5

Avant ce programme Après les PR A-D
GPT-5.5 pouvait s’arrêter après un plan raisonnable sans effectuer l’étape d’outil suivante La PR A transforme « plan seulement » en « agir maintenant ou exposer un état bloqué »
Les schémas d’outils stricts pouvaient rejeter des outils sans paramètres ou de forme OpenAI/Codex de manière confuse La PR C rend l’enregistrement et l’invocation des outils appartenant au fournisseur plus prévisibles
Les indications /elevated full pouvaient être vagues ou erronées dans les runtimes bloqués La PR B donne à GPT-5.5 et à l’utilisateur des indices runtime et d’autorisation véridiques
Les échecs de relecture ou de Compaction pouvaient donner l’impression que la tâche avait disparu silencieusement La PR C expose explicitement les résultats en pause, bloqués, abandonnés et invalides à la relecture
« GPT-5.5 semble moins bon qu’Opus » était surtout anecdotique La PR D transforme cela en un même pack de scénarios, les mêmes métriques et une porte stricte réussite/échec

Architecture

flowchart TD
    A["User request"] --> B["Embedded Pi runtime"]
    B --> C["Strict-agentic execution contract"]
    B --> D["Provider-owned tool compatibility"]
    B --> E["Runtime truthfulness"]
    B --> F["Replay and liveness state"]
    C --> G["Tool call or explicit blocked state"]
    D --> G
    E --> G
    F --> G
    G --> H["QA-lab parity pack"]
    H --> I["Scenario report and parity gate"]

Flux de publication

flowchart LR
    A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.6 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["openclaw qa parity-report"]
    E --> F
    F --> G["qa-agentic-parity-report.md"]
    F --> H["qa-agentic-parity-summary.json"]
    H --> I{"Gate pass?"}
    I -- "yes" --> J["Evidence-backed parity claim"]
    I -- "no" --> K["Keep runtime/review loop open"]

Pack de scénarios

Le premier pack de parité couvre actuellement cinq scénarios :

approval-turn-tool-followthrough

Vérifie que le modèle ne s’arrête pas à « Je vais faire cela » après une courte approbation. Il doit effectuer la première action concrète dans le même tour.

model-switch-tool-continuity

Vérifie que le travail utilisant des outils reste cohérent au-delà des frontières de changement de modèle/runtime, au lieu de revenir à du commentaire ou de perdre le contexte d’exécution.

source-docs-discovery-report

Vérifie que le modèle peut lire la source et les docs, synthétiser les résultats et poursuivre la tâche de manière agentique plutôt que de produire un résumé superficiel et de s’arrêter trop tôt.

image-understanding-attachment

Vérifie que les tâches mixtes impliquant des pièces jointes restent exploitables et ne se réduisent pas à une narration vague.

compaction-retry-mutating-tool

Vérifie qu’une tâche comportant une vraie écriture mutante conserve explicitement l’insécurité de relecture au lieu de sembler discrètement sûre à relire si l’exécution est compactée, réessayée ou perd l’état de réponse sous pression.

Matrice des scénarios

Scénario Ce qu’il teste Bon comportement GPT-5.5 Signal d’échec
approval-turn-tool-followthrough Tours d’approbation courts après un plan Démarre immédiatement la première action d’outil concrète au lieu de reformuler l’intention suivi limité au plan, aucune activité d’outil, ou tour bloqué sans vrai bloqueur
model-switch-tool-continuity Changement runtime/modèle pendant l’utilisation d’outils Préserve le contexte de tâche et continue à agir de manière cohérente revient à du commentaire, perd le contexte d’outil, ou s’arrête après le changement
source-docs-discovery-report Lecture de source + synthèse + action Trouve les sources, utilise les outils et produit un rapport utile sans bloquer résumé superficiel, travail d’outil manquant, ou arrêt de tour incomplet
image-understanding-attachment Travail agentique guidé par pièce jointe Interprète la pièce jointe, la relie aux outils et poursuit la tâche narration vague, pièce jointe ignorée, ou aucune action suivante concrète
compaction-retry-mutating-tool Travail mutant sous pression de Compaction Effectue une vraie écriture et conserve explicitement l’insécurité de relecture après l’effet de bord l’écriture mutante se produit mais la sécurité de relecture est implicite, absente ou contradictoire

Porte de publication

GPT-5.5 ne peut être considéré à parité ou meilleur que lorsque le runtime fusionné réussit simultanément le pack de parité et les régressions de véracité runtime.

Résultats requis :

  • aucun blocage limité au plan lorsque la prochaine action d’outil est claire
  • aucune fausse complétion sans exécution réelle
  • aucune indication /elevated full incorrecte
  • aucun abandon silencieux lors de la relecture ou de la Compaction
  • des métriques du pack de parité au moins aussi fortes que la référence Opus 4.6 convenue

Pour le harnais de première vague, la porte compare :

  • le taux de complétion
  • le taux d’arrêt involontaire
  • le taux d’appels d’outils valides
  • le nombre de faux succès

Les preuves de parité sont volontairement réparties sur deux couches :

  • la PR D prouve le comportement GPT-5.5 vs Opus 4.6 sur les mêmes scénarios avec QA-lab
  • les suites déterministes de la PR B prouvent la véracité pour l’authentification, le proxy, le DNS et /elevated full hors du harnais

Matrice objectif-preuve

Élément de porte de complétion PR propriétaire Source de preuve Signal de réussite
GPT-5.5 ne bloque plus après la planification PR A approval-turn-tool-followthrough plus les suites runtime de la PR A les tours d’approbation déclenchent un vrai travail ou un état bloqué explicite
GPT-5.5 ne simule plus la progression ou la complétion d’outil PR A + PR D résultats des scénarios du rapport de parité et nombre de faux succès aucun résultat de réussite suspect et aucune complétion composée uniquement de commentaires
GPT-5.5 ne donne plus de fausses indications /elevated full PR B suites déterministes de véracité les raisons de blocage et les indices d’accès complet restent exacts côté runtime
Les échecs de relecture/vivacité restent explicites PR C + PR D suites cycle de vie/relecture de la PR C plus compaction-retry-mutating-tool le travail mutant conserve explicitement l’insécurité de relecture au lieu de disparaître silencieusement
GPT-5.5 égale ou dépasse Opus 4.6 sur les métriques convenues PR D qa-agentic-parity-report.md et qa-agentic-parity-summary.json même couverture de scénarios et aucune régression sur la complétion, le comportement d’arrêt ou l’utilisation valide des outils

Comment lire le verdict de parité

Utilisez le verdict dans qa-agentic-parity-summary.json comme décision finale lisible par machine pour le premier pack de parité.

  • pass signifie que GPT-5.5 a couvert les mêmes scénarios qu’Opus 4.6 et n’a pas régressé sur les métriques agrégées convenues.
  • fail signifie qu’au moins une barrière stricte a été déclenchée : achèvement plus faible, arrêts involontaires plus nombreux, utilisation valide des outils plus faible, tout cas de faux succès ou couverture de scénarios non concordante.
  • « problème CI partagé/de base » n’est pas en soi un résultat de parité. Si du bruit CI en dehors de la PR D bloque une exécution, le verdict doit attendre une exécution propre du runtime fusionné au lieu d’être déduit de journaux datant de la branche.
  • La véracité concernant l’authentification, le proxy, le DNS et /elevated full provient toujours des suites déterministes de la PR B ; l’affirmation finale de publication nécessite donc les deux : un verdict de parité PR D réussi et une couverture de véracité PR B au vert.

Qui doit activer strict-agentic

Utilisez strict-agentic lorsque :

  • l’agent est censé agir immédiatement quand une étape suivante est évidente
  • GPT-5.5 ou les modèles de la famille Codex constituent le runtime principal
  • vous préférez des états bloqués explicites aux réponses « utiles » qui se limitent à récapituler

Conservez le contrat par défaut lorsque :

  • vous voulez le comportement existant plus souple
  • vous n’utilisez pas les modèles de la famille GPT-5
  • vous testez des prompts plutôt que l’application par le runtime

Connexe