Concept internals
GPT-5.5 / Codex 對等性維護者備註
此說明解釋如何將 GPT-5.5 / Codex 對等性計畫視為四個合併單元來審查,同時不丟失原本的六項合約架構。
合併單元
PR A:嚴格 agentic 執行
負責:
executionContract- GPT-5 優先的同一輪後續執行
update_plan作為非終止性的進度追蹤- 使用明確的受阻狀態,而非只有計畫後默默停止
不負責:
- 驗證/執行階段失敗分類
- 權限真實性
- 重播/延續重新設計
- 對等性基準測試
PR B:執行階段真實性
負責:
- Codex OAuth 範圍正確性
- 型別化的供應者/執行階段失敗分類
- 如實呈現
/elevated full可用性與受阻原因
不負責:
- 工具結構描述正規化
- 重播/存活狀態
- 基準測試閘門
PR C:執行正確性
負責:
- 供應者擁有的 OpenAI/Codex 工具相容性
- 無參數的嚴格結構描述處理
- 重播無效狀態呈現
- 已暫停、已受阻與已放棄的長任務狀態可見性
不負責:
- 自行選擇的延續
- 供應者掛鉤之外的通用 Codex 方言行為
- 基準測試閘門
PR D:對等性框架
負責:
- 第一波 GPT-5.5 與 Opus 4.6 情境套件
- 對等性文件
- 對等性報告與發行閘門機制
不負責:
- QA-lab 之外的執行階段行為變更
- 框架內的驗證/代理/DNS 模擬
對應回原本的六項合約
| 原始合約 | 合併單元 |
|---|---|
| 供應者傳輸/驗證正確性 | PR B |
| 工具合約/結構描述相容性 | PR C |
| 同一輪執行 | PR A |
| 權限真實性 | PR B |
| 重播/延續/存活正確性 | PR C |
| 基準測試/發行閘門 | PR D |
審查順序
- PR A
- PR B
- PR C
- PR D
PR D 是證明層。它不應成為延遲執行階段正確性 PR 的理由。
審查重點
PR A
- GPT-5 執行會採取行動或安全失敗,而不是停在評論
update_plan不再看起來本身就是進度- 行為維持 GPT-5 優先,且範圍限於嵌入式 Pi
PR B
- 驗證/代理/執行階段失敗不再坍縮成通用的「模型失敗」處理
- 只有在實際可用時才將
/elevated full描述為可用 - 模型與面向使用者的執行階段都能看見受阻原因
PR C
- 嚴格的 OpenAI/Codex 工具註冊行為可預期
- 無參數工具不會在嚴格結構描述檢查中失敗
- 重播與 Compaction 結果會保留真實的存活狀態
PR D
- 情境套件易於理解且可重現
- 套件包含會變更狀態的重播安全性路徑,而不只是唯讀流程
- 報告可供人類與自動化讀取
- 對等性聲明有證據支持,而非軼聞式說法
PR D 的預期產物:
- 每次模型執行的
qa-suite-report.md/qa-suite-summary.json - 含彙總與情境層級比較的
qa-agentic-parity-report.md - 含機器可讀判定的
qa-agentic-parity-summary.json
發行閘門
在符合以下條件前,不要聲稱 GPT-5.5 與 Opus 4.6 對等或優於 Opus 4.6:
- PR A、PR B 和 PR C 已合併
- PR D 乾淨地跑完第一波對等性套件
- 執行階段真實性回歸套件維持綠燈
- 對等性報告顯示沒有假成功案例,且停止行為沒有回歸
flowchart LR
A["PR A-C merged"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["qa parity-report"]
E --> F
F --> G["Markdown report + JSON verdict"]
G --> H{"Pass?"}
H -- "yes" --> I["Parity claim allowed"]
H -- "no" --> J["Keep runtime fixes / review loop open"]
對等性框架不是唯一的證據來源。審查時請明確保留此分工:
- PR D 負責以情境為基礎的 GPT-5.5 與 Opus 4.6 比較
- PR B 的決定性套件仍負責驗證/代理/DNS 與完整存取真實性的證據
快速維護者合併工作流程
當你準備落地某個對等性 PR,並想要可重複、低風險的流程時,請使用此流程。
- 合併前確認已達到證據門檻:
- 可重現的症狀或失敗測試
- 已在受影響程式碼中驗證根本原因
- 修正位於相關路徑
- 回歸測試或明確的手動驗證說明
- 合併前進行分流/標籤:
- 當 PR 不應落地時,套用任何
r:*自動關閉標籤 - 讓合併候選項目沒有未解決的阻擋討論串
- 當 PR 不應落地時,套用任何
- 在受影響表面本機驗證:
pnpm check:changed- 當測試有變更或錯誤修正信心取決於測試覆蓋率時,執行
pnpm test:changed
- 使用標準維護者流程落地(
/landpr流程),然後驗證:- 連結議題的自動關閉行為
main上的 CI 與合併後狀態
- 落地後,針對相關開啟中的 PR/議題執行重複搜尋,並且只用正式參照關閉。
如果缺少任何一項證據門檻項目,請要求變更而不是合併。
目標到證據對照表
| 完成閘門項目 | 主要擁有者 | 審查產物 |
|---|---|---|
| 沒有只有計畫的停滯 | PR A | 嚴格 agentic 執行階段測試與 approval-turn-tool-followthrough |
| 沒有假進度或假工具完成 | PR A + PR D | 對等性假成功計數加上情境層級報告細節 |
沒有錯誤的 /elevated full 指引 |
PR B | 決定性的執行階段真實性套件 |
| 重播/存活失敗維持明確 | PR C + PR D | 生命週期/重播套件加上 compaction-retry-mutating-tool |
| GPT-5.5 符合或超越 Opus 4.6 | PR D | qa-agentic-parity-report.md 與 qa-agentic-parity-summary.json |
審查者速記:之前與之後
| 之前的使用者可見問題 | 之後的審查訊號 |
|---|---|
| GPT-5.5 在規劃後停止 | PR A 顯示採取行動或受阻的行為,而不是只有評論即完成 |
| 使用嚴格 OpenAI/Codex 結構描述時,工具使用感覺脆弱 | PR C 讓工具註冊與無參數呼叫維持可預期 |
/elevated full 提示有時具誤導性 |
PR B 將指引連結到實際執行階段能力與受阻原因 |
| 長任務可能消失在重播/Compaction 的模糊狀態中 | PR C 發出明確的已暫停、已受阻、已放棄與重播無效狀態 |
| 對等性聲明是軼聞式的 | PR D 產出報告加上 JSON 判定,並在兩個模型上使用相同的情境覆蓋 |