Concept internals
Notas de mantenedor sobre a paridade GPT-5.5 / Codex
Esta nota explica como revisar o programa de paridade GPT-5.5 / Codex como quatro unidades de merge sem perder a arquitetura original de seis contratos.
Unidades de merge
PR A: execução agêntica estrita
Responsável por:
executionContract- acompanhamento no mesmo turno priorizando GPT-5
update_plancomo acompanhamento de progresso não terminal- estados bloqueados explícitos em vez de paradas silenciosas apenas com plano
Não é responsável por:
- classificação de falha de auth/runtime
- veracidade de permissões
- redesign de replay/continuação
- benchmarking de paridade
PR B: veracidade de runtime
Responsável por:
- correção de escopo OAuth do Codex
- classificação tipada de falhas de provider/runtime
- disponibilidade verdadeira de
/elevated fulle motivos de bloqueio
Não é responsável por:
- normalização de schema de ferramentas
- estado de replay/liveness
- bloqueio por benchmark
PR C: correção de execução
Responsável por:
- compatibilidade de ferramentas OpenAI/Codex de propriedade do provider
- tratamento de schema estrito sem parâmetros
- exposição de replay inválido
- visibilidade de estado de tarefa longa pausada, bloqueada e abandonada
Não é responsável por:
- continuação autoeleita
- comportamento genérico de dialeto Codex fora dos hooks do provider
- bloqueio por benchmark
PR D: harness de paridade
Responsável por:
- pacote de cenários da primeira onda GPT-5.5 vs Opus 4.6
- documentação de paridade
- relatório de paridade e mecânica de gate de release
Não é responsável por:
- mudanças de comportamento de runtime fora do QA-lab
- simulação de auth/proxy/DNS dentro do harness
Mapeamento de volta aos seis contratos originais
| Contrato original | Unidade de merge |
|---|---|
| Correção de transport/auth do provider | PR B |
| Compatibilidade de contrato/schema de ferramenta | PR C |
| Execução no mesmo turno | PR A |
| Veracidade de permissões | PR B |
| Correção de replay/continuação/liveness | PR C |
| Gate de benchmark/release | PR D |
Ordem de revisão
- PR A
- PR B
- PR C
- PR D
PR D é a camada de prova. Ela não deve ser o motivo para atrasar PRs de correção de runtime.
O que procurar
PR A
- execuções GPT-5 agem ou falham fechadas em vez de parar em comentários
update_plannão parece mais progresso por si só- o comportamento continua priorizando GPT-5 e com escopo de Pi embarcado
PR B
- falhas de auth/proxy/runtime deixam de colapsar em tratamento genérico de "modelo falhou"
/elevated fullsó é descrito como disponível quando realmente está disponível- motivos de bloqueio ficam visíveis tanto para o modelo quanto para o runtime voltado ao usuário
PR C
- registro estrito de ferramentas OpenAI/Codex se comporta de forma previsível
- ferramentas sem parâmetros não falham em verificações de schema estrito
- resultados de replay e Compaction preservam estado de liveness verdadeiro
PR D
- o pacote de cenários é compreensível e reproduzível
- o pacote inclui uma lane mutante de segurança de replay, não apenas fluxos somente leitura
- relatórios são legíveis por humanos e automação
- alegações de paridade são respaldadas por evidências, não anedóticas
Artefatos esperados do PR D:
qa-suite-report.md/qa-suite-summary.jsonpara cada execução de modeloqa-agentic-parity-report.mdcom comparação agregada e por cenárioqa-agentic-parity-summary.jsoncom um veredito legível por máquina
Gate de release
Não alegue paridade ou superioridade do GPT-5.5 sobre o Opus 4.6 até que:
- PR A, PR B e PR C estejam mesclados
- PR D execute o pacote de paridade da primeira onda sem falhas
- suítes de regressão de veracidade de runtime permaneçam verdes
- o relatório de paridade não mostre casos de falso sucesso nem regressão no comportamento de parada
flowchart LR
A["PR A-C merged"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["qa parity-report"]
E --> F
F --> G["Markdown report + JSON verdict"]
G --> H{"Pass?"}
H -- "yes" --> I["Parity claim allowed"]
H -- "no" --> J["Keep runtime fixes / review loop open"]
O harness de paridade não é a única fonte de evidências. Mantenha esta divisão explícita na revisão:
- PR D é responsável pela comparação baseada em cenários GPT-5.5 vs Opus 4.6
- as suítes determinísticas do PR B ainda são responsáveis por evidências de auth/proxy/DNS e veracidade de acesso completo
Fluxo rápido de merge para mantenedores
Use isto quando estiver pronto para fazer landing de um PR de paridade e quiser uma sequência repetível e de baixo risco.
- Confirme que o nível de evidência foi atendido antes do merge:
- sintoma reproduzível ou teste falhando
- causa raiz verificada no código tocado
- correção no caminho implicado
- teste de regressão ou nota explícita de verificação manual
- Faça triagem/rotulagem antes do merge:
- aplique quaisquer labels de fechamento automático
r:*quando o PR não deve fazer landing - mantenha candidatos a merge sem threads bloqueadoras não resolvidas
- aplique quaisquer labels de fechamento automático
- Valide localmente na superfície tocada:
pnpm check:changedpnpm test:changedquando testes mudaram ou a confiança na correção de bug depende de cobertura de testes
- Faça landing com o fluxo padrão de mantenedores (processo
/landpr) e depois verifique:- comportamento de fechamento automático de issues vinculadas
- CI e status pós-merge em
main
- Após o landing, execute busca de duplicados para PRs/issues abertos relacionados e feche apenas com uma referência canônica.
Se qualquer um dos itens do nível de evidência estiver faltando, solicite mudanças em vez de fazer merge.
Mapa de objetivo para evidência
| Item do gate de conclusão | Responsável primário | Artefato de revisão |
|---|---|---|
| Sem travamentos apenas em plano | PR A | testes de runtime agêntico estrito e approval-turn-tool-followthrough |
| Sem progresso falso ou conclusão falsa de ferramenta | PR A + PR D | contagem de falso sucesso de paridade mais detalhes do relatório por cenário |
Sem orientação falsa de /elevated full |
PR B | suítes determinísticas de veracidade de runtime |
| Falhas de replay/liveness permanecem explícitas | PR C + PR D | suítes de lifecycle/replay mais compaction-retry-mutating-tool |
| GPT-5.5 iguala ou supera Opus 4.6 | PR D | qa-agentic-parity-report.md e qa-agentic-parity-summary.json |
Atalho para revisores: antes vs depois
| Problema visível ao usuário antes | Sinal de revisão depois |
|---|---|
| GPT-5.5 parava depois do planejamento | PR A mostra comportamento de agir ou bloquear em vez de conclusão apenas com comentários |
| Uso de ferramentas parecia frágil com schemas estritos OpenAI/Codex | PR C mantém previsíveis o registro de ferramentas e a invocação sem parâmetros |
Dicas de /elevated full às vezes eram enganosas |
PR B vincula a orientação à capacidade real de runtime e aos motivos de bloqueio |
| Tarefas longas podiam desaparecer em ambiguidade de replay/Compaction | PR C emite estado explícito pausado, bloqueado, abandonado e de replay inválido |
| Alegações de paridade eram anedóticas | PR D produz um relatório mais veredito JSON com a mesma cobertura de cenários em ambos os modelos |