Concept internals
Note per i manutentori sulla parità GPT-5.5 / Codex
Questa nota spiega come rivedere il programma di parità GPT-5.5 / Codex come quattro unità di merge senza perdere l'architettura originale a sei contratti.
Unità di merge
PR A: esecuzione agentica rigorosa
Possiede:
executionContract- proseguimento nello stesso turno con priorità a GPT-5
update_plancome tracciamento di avanzamento non terminale- stati bloccati espliciti invece di arresti silenziosi con solo piano
Non possiede:
- classificazione degli errori di auth/runtime
- veridicità dei permessi
- riprogettazione di replay/continuazione
- benchmarking di parità
PR B: veridicità del runtime
Possiede:
- correttezza degli scope OAuth di Codex
- classificazione tipizzata degli errori di provider/runtime
- disponibilità veritiera di
/elevated fulle motivi di blocco
Non possiede:
- normalizzazione dello schema degli strumenti
- stato di replay/liveness
- gate di benchmark
PR C: correttezza dell'esecuzione
Possiede:
- compatibilità degli strumenti OpenAI/Codex di proprietà del provider
- gestione dello schema rigoroso senza parametri
- emersione dei replay non validi
- visibilità dello stato di task lunghi in pausa, bloccati e abbandonati
Non possiede:
- continuazione scelta autonomamente
- comportamento generico del dialetto Codex fuori dagli hook del provider
- gate di benchmark
PR D: harness di parità
Possiede:
- primo pacchetto di scenari GPT-5.5 vs Opus 4.6
- documentazione di parità
- report di parità e meccaniche del gate di release
Non possiede:
- modifiche al comportamento del runtime fuori da QA-lab
- simulazione auth/proxy/DNS dentro l'harness
Mappatura sui sei contratti originali
| Contratto originale | Unità di merge |
|---|---|
| Correttezza transport/auth del provider | PR B |
| Compatibilità contratto/schema strumenti | PR C |
| Esecuzione nello stesso turno | PR A |
| Veridicità dei permessi | PR B |
| Correttezza replay/continuazione/liveness | PR C |
| Benchmark/gate di release | PR D |
Ordine di revisione
- PR A
- PR B
- PR C
- PR D
PR D è il livello di prova. Non dovrebbe essere il motivo per cui le PR di correttezza del runtime vengono ritardate.
Cosa cercare
PR A
- le esecuzioni GPT-5 agiscono o falliscono in modo chiuso invece di fermarsi al commento
update_plannon appare più come avanzamento di per sé- il comportamento resta con priorità a GPT-5 e limitato al Pi integrato
PR B
- gli errori di auth/proxy/runtime smettono di collassare in una gestione generica "modello non riuscito"
/elevated fullviene descritto come disponibile solo quando è effettivamente disponibile- i motivi di blocco sono visibili sia al modello sia al runtime rivolto all'utente
PR C
- la registrazione rigorosa degli strumenti OpenAI/Codex si comporta in modo prevedibile
- gli strumenti senza parametri non falliscono i controlli dello schema rigoroso
- gli esiti di replay e Compaction preservano uno stato di liveness veritiero
PR D
- il pacchetto di scenari è comprensibile e riproducibile
- il pacchetto include una lane di sicurezza replay mutante, non solo flussi di sola lettura
- i report sono leggibili da esseri umani e automazione
- le affermazioni di parità sono supportate da evidenze, non aneddotiche
Artefatti attesi da PR D:
qa-suite-report.md/qa-suite-summary.jsonper ogni esecuzione del modelloqa-agentic-parity-report.mdcon confronto aggregato e a livello di scenarioqa-agentic-parity-summary.jsoncon un verdetto leggibile dalla macchina
Gate di release
Non affermare parità o superiorità di GPT-5.5 rispetto a Opus 4.6 finché:
- PR A, PR B e PR C non sono state unite
- PR D esegue pulitamente il primo pacchetto di parità
- le suite di regressione della veridicità del runtime restano verdi
- il report di parità non mostra casi di falso successo né regressioni nel comportamento di arresto
flowchart LR
A["PR A-C merged"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["qa parity-report"]
E --> F
F --> G["Markdown report + JSON verdict"]
G --> H{"Pass?"}
H -- "yes" --> I["Parity claim allowed"]
H -- "no" --> J["Keep runtime fixes / review loop open"]
L'harness di parità non è l'unica fonte di evidenze. Mantieni esplicita questa separazione nella revisione:
- PR D possiede il confronto basato su scenari GPT-5.5 vs Opus 4.6
- le suite deterministiche di PR B possiedono ancora le evidenze di veridicità su auth/proxy/DNS e accesso completo
Workflow rapido di merge per maintainer
Usalo quando sei pronto a integrare una PR di parità e vuoi una sequenza ripetibile e a basso rischio.
- Conferma che la soglia di evidenza sia soddisfatta prima del merge:
- sintomo riproducibile o test fallito
- causa radice verificata nel codice toccato
- correzione nel percorso implicato
- test di regressione o nota esplicita di verifica manuale
- Fai triage/applica label prima del merge:
- applica eventuali label di chiusura automatica
r:*quando la PR non dovrebbe essere integrata - mantieni i candidati al merge privi di thread bloccanti non risolti
- applica eventuali label di chiusura automatica
- Valida localmente sulla superficie toccata:
pnpm check:changedpnpm test:changedquando i test sono cambiati o la fiducia nel bug fix dipende dalla copertura dei test
- Integra con il flusso standard dei maintainer (processo
/landpr), poi verifica:- comportamento di chiusura automatica delle issue collegate
- CI e stato post-merge su
main
- Dopo il merge, esegui la ricerca di duplicati per PR/issue aperte correlate e chiudi solo con un riferimento canonico.
Se manca anche solo uno degli elementi della soglia di evidenza, richiedi modifiche invece di fare merge.
Mappa obiettivo-evidenza
| Elemento del gate di completamento | Proprietario principale | Artefatto di revisione |
|---|---|---|
| Nessuno stallo con solo piano | PR A | test runtime agentici rigorosi e approval-turn-tool-followthrough |
| Nessun falso avanzamento o falso completamento degli strumenti | PR A + PR D | conteggio dei falsi successi di parità più dettagli del report a livello di scenario |
Nessuna guida falsa su /elevated full |
PR B | suite deterministiche di veridicità del runtime |
| Gli errori di replay/liveness restano espliciti | PR C + PR D | suite lifecycle/replay più compaction-retry-mutating-tool |
| GPT-5.5 eguaglia o supera Opus 4.6 | PR D | qa-agentic-parity-report.md e qa-agentic-parity-summary.json |
Sintesi per reviewer: prima vs dopo
| Problema visibile all'utente prima | Segnale di revisione dopo |
|---|---|
| GPT-5.5 si fermava dopo la pianificazione | PR A mostra comportamento agisci-o-bloccati invece di completamento solo a commento |
| L'uso degli strumenti sembrava fragile con schemi rigorosi OpenAI/Codex | PR C mantiene prevedibili registrazione degli strumenti e invocazione senza parametri |
I suggerimenti su /elevated full erano talvolta fuorvianti |
PR B lega la guida alla capacità effettiva del runtime e ai motivi di blocco |
| I task lunghi potevano sparire nell'ambiguità di replay/Compaction | PR C emette stati espliciti in pausa, bloccati, abbandonati e replay-invalid |
| Le affermazioni di parità erano aneddotiche | PR D produce un report più un verdetto JSON con la stessa copertura di scenari su entrambi i modelli |