Concept internals
Notes de maintenance sur la parité GPT-5.5 / Codex
Cette note explique comment examiner le programme de parité GPT-5.5 / Codex sous forme de quatre unités de fusion sans perdre l’architecture d’origine à six contrats.
Unités de fusion
PR A : exécution agentique stricte
Possède :
executionContract- suivi au même tour, axé d’abord sur GPT-5
update_plancomme suivi de progression non terminal- états bloqués explicites au lieu d’arrêts silencieux limités au plan
Ne possède pas :
- classification des échecs d’authentification/d’exécution
- véracité des permissions
- refonte de la relecture/continuation
- évaluation comparative de la parité
PR B : véracité de l’exécution
Possède :
- exactitude des portées OAuth de Codex
- classification typée des échecs fournisseur/exécution
- disponibilité véridique de
/elevated fullet raisons de blocage
Ne possède pas :
- normalisation du schéma d’outil
- état de relecture/vivacité
- verrouillage par évaluation comparative
PR C : exactitude de l’exécution
Possède :
- compatibilité des outils OpenAI/Codex gérée par le fournisseur
- gestion stricte des schémas sans paramètres
- exposition des relectures invalides
- visibilité des états de longue tâche en pause, bloquée et abandonnée
Ne possède pas :
- continuation auto-sélectionnée
- comportement générique du dialecte Codex en dehors des hooks fournisseur
- verrouillage par évaluation comparative
PR D : harnais de parité
Possède :
- premier pack de scénarios GPT-5.5 vs Opus 4.6
- documentation de parité
- rapport de parité et mécanismes de verrouillage de release
Ne possède pas :
- changements de comportement d’exécution hors QA-lab
- simulation auth/proxy/DNS dans le harnais
Correspondance avec les six contrats d’origine
| Contrat d’origine | Unité de fusion |
|---|---|
| Exactitude transport/auth fournisseur | PR B |
| Compatibilité contrat/schéma d’outil | PR C |
| Exécution au même tour | PR A |
| Véracité des permissions | PR B |
| Exactitude relecture/continuation/vivacité | PR C |
| Verrou d’évaluation comparative/release | PR D |
Ordre de revue
- PR A
- PR B
- PR C
- PR D
PR D est la couche de preuve. Elle ne doit pas retarder les PR d’exactitude de l’exécution.
Points à vérifier
PR A
- Les exécutions GPT-5 agissent ou échouent de manière fermée au lieu de s’arrêter aux commentaires
update_planne ressemble plus à une progression à lui seul- le comportement reste axé d’abord sur GPT-5 et limité au Pi embarqué
PR B
- les échecs auth/proxy/exécution cessent d’être rabattus sur une gestion générique de type « modèle en échec »
/elevated fullest décrit comme disponible uniquement lorsqu’il est réellement disponible- les raisons de blocage sont visibles à la fois pour le modèle et pour l’exécution côté utilisateur
PR C
- l’enregistrement strict des outils OpenAI/Codex se comporte de façon prévisible
- les outils sans paramètres n’échouent pas aux vérifications strictes de schéma
- les résultats de relecture et de compaction préservent un état de vivacité véridique
PR D
- le pack de scénarios est compréhensible et reproductible
- le pack inclut une voie de sécurité de relecture mutante, pas seulement des flux en lecture seule
- les rapports sont lisibles par les humains et l’automatisation
- les affirmations de parité sont étayées par des preuves, pas anecdotiques
Artefacts attendus de PR D :
qa-suite-report.md/qa-suite-summary.jsonpour chaque exécution de modèleqa-agentic-parity-report.mdavec comparaison agrégée et par scénarioqa-agentic-parity-summary.jsonavec un verdict lisible par machine
Verrou de release
Ne revendiquez pas la parité ou la supériorité de GPT-5.5 par rapport à Opus 4.6 tant que :
- PR A, PR B et PR C ne sont pas fusionnées
- PR D n’exécute pas proprement le premier pack de parité
- les suites de régression de véracité de l’exécution restent vertes
- le rapport de parité ne montre aucun cas de faux succès et aucune régression du comportement d’arrêt
flowchart LR
A["PR A-C merged"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["qa parity-report"]
E --> F
F --> G["Markdown report + JSON verdict"]
G --> H{"Pass?"}
H -- "yes" --> I["Parity claim allowed"]
H -- "no" --> J["Keep runtime fixes / review loop open"]
Le harnais de parité n’est pas la seule source de preuves. Gardez cette séparation explicite pendant la revue :
- PR D possède la comparaison GPT-5.5 vs Opus 4.6 basée sur des scénarios
- les suites déterministes de PR B possèdent toujours les preuves auth/proxy/DNS et de véracité de l’accès complet
Flux de fusion rapide pour mainteneur
Utilisez ceci lorsque vous êtes prêt à intégrer une PR de parité et souhaitez une séquence répétable à faible risque.
- Confirmer que le niveau de preuve requis est atteint avant la fusion :
- symptôme reproductible ou test en échec
- cause racine vérifiée dans le code touché
- correctif dans le chemin impliqué
- test de régression ou note explicite de vérification manuelle
- Trier/étiqueter avant la fusion :
- appliquer toute étiquette de fermeture automatique
r:*lorsque la PR ne doit pas être intégrée - garder les candidates à la fusion exemptes de fils bloquants non résolus
- appliquer toute étiquette de fermeture automatique
- Valider localement sur la surface touchée :
pnpm check:changedpnpm test:changedlorsque des tests ont changé ou que la confiance dans le correctif dépend de la couverture de tests
- Intégrer avec le flux mainteneur standard (processus
/landpr), puis vérifier :- comportement de fermeture automatique des issues liées
- CI et état post-fusion sur
main
- Après l’intégration, lancer une recherche de doublons pour les PR/issues ouvertes liées et ne fermer qu’avec une référence canonique.
S’il manque un seul élément du niveau de preuve requis, demandez des changements au lieu de fusionner.
Carte objectif-preuve
| Élément du verrou de complétion | Propriétaire principal | Artefact de revue |
|---|---|---|
| Aucun blocage limité au plan | PR A | tests d’exécution agentique stricte et approval-turn-tool-followthrough |
| Aucune fausse progression ni fausse complétion d’outil | PR A + PR D | nombre de faux succès de parité plus détails du rapport par scénario |
Aucune indication fausse pour /elevated full |
PR B | suites déterministes de véracité de l’exécution |
| Les échecs de relecture/vivacité restent explicites | PR C + PR D | suites cycle de vie/relecture plus compaction-retry-mutating-tool |
| GPT-5.5 égale ou dépasse Opus 4.6 | PR D | qa-agentic-parity-report.md et qa-agentic-parity-summary.json |
Raccourci de revue : avant vs après
| Problème visible par l’utilisateur avant | Signal de revue après |
|---|---|
| GPT-5.5 s’arrêtait après la planification | PR A montre un comportement agir-ou-bloquer au lieu d’une complétion limitée aux commentaires |
| L’utilisation des outils semblait fragile avec les schémas stricts OpenAI/Codex | PR C garde l’enregistrement des outils et l’invocation sans paramètres prévisibles |
Les indications /elevated full étaient parfois trompeuses |
PR B lie l’aide à la capacité d’exécution réelle et aux raisons de blocage |
| Les longues tâches pouvaient disparaître dans l’ambiguïté relecture/compaction | PR C émet des états explicites en pause, bloqué, abandonné et relecture invalide |
| Les affirmations de parité étaient anecdotiques | PR D produit un rapport plus un verdict JSON avec la même couverture de scénarios sur les deux modèles |