Concept internals

GPT-5.5 / Codex 對等性維護者備註

此說明解釋如何將 GPT-5.5 / Codex 對等性計畫視為四個合併單元來審查，同時不丟失原本的六項合約架構。

合併單元

PR A：嚴格 agentic 執行

負責：

executionContract
GPT-5 優先的同一輪後續執行
update_plan 作為非終止性的進度追蹤
使用明確的受阻狀態，而非只有計畫後默默停止

不負責：

驗證/執行階段失敗分類
權限真實性
重播/延續重新設計
對等性基準測試

PR B：執行階段真實性

負責：

Codex OAuth 範圍正確性
型別化的供應者/執行階段失敗分類
如實呈現 /elevated full 可用性與受阻原因

不負責：

工具結構描述正規化
重播/存活狀態
基準測試閘門

PR C：執行正確性

負責：

供應者擁有的 OpenAI/Codex 工具相容性
無參數的嚴格結構描述處理
重播無效狀態呈現
已暫停、已受阻與已放棄的長任務狀態可見性

不負責：

自行選擇的延續
供應者掛鉤之外的通用 Codex 方言行為
基準測試閘門

PR D：對等性框架

負責：

第一波 GPT-5.5 與 Opus 4.6 情境套件
對等性文件
對等性報告與發行閘門機制

不負責：

QA-lab 之外的執行階段行為變更
框架內的驗證/代理/DNS 模擬

對應回原本的六項合約

原始合約	合併單元
供應者傳輸/驗證正確性	PR B
工具合約/結構描述相容性	PR C
同一輪執行	PR A
權限真實性	PR B
重播/延續/存活正確性	PR C
基準測試/發行閘門	PR D

審查順序

PR A
PR B
PR C
PR D

PR D 是證明層。它不應成為延遲執行階段正確性 PR 的理由。

審查重點

PR A

GPT-5 執行會採取行動或安全失敗，而不是停在評論
update_plan 不再看起來本身就是進度
行為維持 GPT-5 優先，且範圍限於嵌入式 Pi

PR B

驗證/代理/執行階段失敗不再坍縮成通用的「模型失敗」處理
只有在實際可用時才將 /elevated full 描述為可用
模型與面向使用者的執行階段都能看見受阻原因

PR C

嚴格的 OpenAI/Codex 工具註冊行為可預期
無參數工具不會在嚴格結構描述檢查中失敗
重播與 Compaction 結果會保留真實的存活狀態

PR D

情境套件易於理解且可重現
套件包含會變更狀態的重播安全性路徑，而不只是唯讀流程
報告可供人類與自動化讀取
對等性聲明有證據支持，而非軼聞式說法

PR D 的預期產物：

每次模型執行的 qa-suite-report.md / qa-suite-summary.json
含彙總與情境層級比較的 qa-agentic-parity-report.md
含機器可讀判定的 qa-agentic-parity-summary.json

發行閘門

在符合以下條件前，不要聲稱 GPT-5.5 與 Opus 4.6 對等或優於 Opus 4.6：

PR A、PR B 和 PR C 已合併
PR D 乾淨地跑完第一波對等性套件
執行階段真實性回歸套件維持綠燈
對等性報告顯示沒有假成功案例，且停止行為沒有回歸

flowchart LR
    A["PR A-C merged"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.6 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["qa parity-report"]
    E --> F
    F --> G["Markdown report + JSON verdict"]
    G --> H{"Pass?"}
    H -- "yes" --> I["Parity claim allowed"]
    H -- "no" --> J["Keep runtime fixes / review loop open"]

對等性框架不是唯一的證據來源。審查時請明確保留此分工：

PR D 負責以情境為基礎的 GPT-5.5 與 Opus 4.6 比較
PR B 的決定性套件仍負責驗證/代理/DNS 與完整存取真實性的證據

快速維護者合併工作流程

當你準備落地某個對等性 PR，並想要可重複、低風險的流程時，請使用此流程。

合併前確認已達到證據門檻：
- 可重現的症狀或失敗測試
- 已在受影響程式碼中驗證根本原因
- 修正位於相關路徑
- 回歸測試或明確的手動驗證說明
合併前進行分流/標籤：
- 當 PR 不應落地時，套用任何 r:* 自動關閉標籤
- 讓合併候選項目沒有未解決的阻擋討論串
在受影響表面本機驗證：
- pnpm check:changed
- 當測試有變更或錯誤修正信心取決於測試覆蓋率時，執行 pnpm test:changed
使用標準維護者流程落地（/landpr 流程），然後驗證：
- 連結議題的自動關閉行為
- main 上的 CI 與合併後狀態
落地後，針對相關開啟中的 PR/議題執行重複搜尋，並且只用正式參照關閉。

如果缺少任何一項證據門檻項目，請要求變更而不是合併。

目標到證據對照表

完成閘門項目	主要擁有者	審查產物
沒有只有計畫的停滯	PR A	嚴格 agentic 執行階段測試與 `approval-turn-tool-followthrough`
沒有假進度或假工具完成	PR A + PR D	對等性假成功計數加上情境層級報告細節
沒有錯誤的 `/elevated full` 指引	PR B	決定性的執行階段真實性套件
重播/存活失敗維持明確	PR C + PR D	生命週期/重播套件加上 `compaction-retry-mutating-tool`
GPT-5.5 符合或超越 Opus 4.6	PR D	`qa-agentic-parity-report.md` 與 `qa-agentic-parity-summary.json`

審查者速記：之前與之後

之前的使用者可見問題	之後的審查訊號
GPT-5.5 在規劃後停止	PR A 顯示採取行動或受阻的行為，而不是只有評論即完成
使用嚴格 OpenAI/Codex 結構描述時，工具使用感覺脆弱	PR C 讓工具註冊與無參數呼叫維持可預期
`/elevated full` 提示有時具誤導性	PR B 將指引連結到實際執行階段能力與受阻原因
長任務可能消失在重播/Compaction 的模糊狀態中	PR C 發出明確的已暫停、已受阻、已放棄與重播無效狀態
對等性聲明是軼聞式的	PR D 產出報告加上 JSON 判定，並在兩個模型上使用相同的情境覆蓋

# 合併單元

# PR A：嚴格 agentic 執行

# PR B：執行階段真實性

# PR C：執行正確性

# PR D：對等性框架

# 對應回原本的六項合約

# 審查順序

# 審查重點

# PR A

# PR B

# PR C

# PR D

# 發行閘門

# 快速維護者合併工作流程

# 目標到證據對照表

# 審查者速記：之前與之後

# 相關

合併單元

PR A：嚴格 agentic 執行

PR B：執行階段真實性

PR C：執行正確性

PR D：對等性框架

對應回原本的六項合約

審查順序

審查重點

PR A

PR B

PR C

PR D

發行閘門

快速維護者合併工作流程

目標到證據對照表

審查者速記：之前與之後

相關