Concept internals
บันทึกผู้ดูแลเกี่ยวกับความเท่าเทียมของ GPT-5.5 / Codex
บันทึกนี้อธิบายวิธีตรวจทานโปรแกรมความเท่าเทียม GPT-5.5 / Codex เป็นหน่วย merge สี่หน่วย โดยไม่สูญเสียสถาปัตยกรรมหกสัญญาเดิม
หน่วย merge
PR A: การดำเนินการแบบ agentic ที่เข้มงวด
รับผิดชอบ:
executionContract- การติดตามงานให้จบภายใน turn เดียวกันแบบเน้น GPT-5 เป็นอันดับแรก
update_planในฐานะการติดตามความคืบหน้าแบบไม่ใช่สถานะปลายทาง- สถานะถูกบล็อกที่ชัดเจนแทนการหยุดเงียบแบบมีแต่แผน
ไม่รับผิดชอบ:
- การจัดประเภทความล้มเหลวของ auth/runtime
- ความซื่อตรงของ permission
- การออกแบบ replay/continuation ใหม่
- การวัดเปรียบเทียบความเท่าเทียม
PR B: ความซื่อตรงของ runtime
รับผิดชอบ:
- ความถูกต้องของ scope OAuth ของ Codex
- การจัดประเภทความล้มเหลวของ provider/runtime แบบมีชนิด
- ความพร้อมใช้งานและเหตุผลการถูกบล็อกของ
/elevated fullที่ตรงความจริง
ไม่รับผิดชอบ:
- การทำ normalization ของ tool schema
- สถานะ replay/liveness
- การตั้ง gate สำหรับ benchmark
PR C: ความถูกต้องของการดำเนินการ
รับผิดชอบ:
- ความเข้ากันได้ของเครื่องมือ OpenAI/Codex ที่ provider เป็นเจ้าของ
- การจัดการ strict schema แบบไม่มี parameter
- การแสดง replay-invalid
- การมองเห็นสถานะงานยาวที่ paused, blocked และ abandoned
ไม่รับผิดชอบ:
- continuation ที่เลือกเอง
- พฤติกรรม dialect ทั่วไปของ Codex นอก provider hooks
- การตั้ง gate สำหรับ benchmark
PR D: ชุดทดสอบความเท่าเทียม
รับผิดชอบ:
- ชุด scenario ระลอกแรกสำหรับ GPT-5.5 เทียบกับ Opus 4.6
- เอกสารความเท่าเทียม
- รายงานความเท่าเทียมและกลไก release-gate
ไม่รับผิดชอบ:
- การเปลี่ยนแปลงพฤติกรรม runtime นอก QA-lab
- การจำลอง auth/proxy/DNS ภายในชุดทดสอบ
การแมปกลับไปยังหกสัญญาเดิม
| สัญญาเดิม | หน่วย merge |
|---|---|
| ความถูกต้องของ transport/auth ของ provider | PR B |
| ความเข้ากันได้ของ tool contract/schema | PR C |
| การดำเนินการใน turn เดียวกัน | PR A |
| ความซื่อตรงของ permission | PR B |
| ความถูกต้องของ replay/continuation/liveness | PR C |
| Benchmark/release gate | PR D |
ลำดับการตรวจทาน
- PR A
- PR B
- PR C
- PR D
PR D คือชั้นพิสูจน์ ไม่ควรเป็นเหตุให้ PR ด้านความถูกต้องของ runtime ล่าช้า
สิ่งที่ต้องตรวจดู
PR A
- การรัน GPT-5 ลงมือทำหรือ fail closed แทนการหยุดที่ commentary
update_planไม่ดูเหมือนความคืบหน้าโดยตัวมันเองอีกต่อไป- พฤติกรรมยังคงเน้น GPT-5 เป็นอันดับแรกและจำกัดขอบเขตกับ Pi แบบฝังตัว
PR B
- ความล้มเหลวของ auth/proxy/runtime ไม่ถูกยุบเป็นการจัดการแบบทั่วไปว่า "model failed" อีกต่อไป
/elevated fullถูกอธิบายว่าพร้อมใช้งานก็ต่อเมื่อพร้อมใช้งานจริง- เหตุผลการถูกบล็อกมองเห็นได้ทั้งกับโมเดลและ runtime ที่ผู้ใช้เห็น
PR C
- การลงทะเบียนเครื่องมือ OpenAI/Codex แบบเข้มงวดมีพฤติกรรมคาดเดาได้
- เครื่องมือที่ไม่มี parameter ไม่ล้มเหลวในการตรวจ strict schema
- ผลลัพธ์ของ replay และ Compaction รักษาสถานะ liveness ที่ตรงความจริง
PR D
- ชุด scenario เข้าใจได้และทำซ้ำได้
- ชุดนี้มี lane ความปลอดภัยของ replay แบบมีการเปลี่ยนแปลง ไม่ใช่เฉพาะ flow แบบอ่านอย่างเดียว
- รายงานอ่านได้ทั้งโดยมนุษย์และระบบอัตโนมัติ
- คำกล่าวอ้างเรื่องความเท่าเทียมมีหลักฐานรองรับ ไม่ใช่เรื่องเล่าจากประสบการณ์
artifact ที่คาดหวังจาก PR D:
qa-suite-report.md/qa-suite-summary.jsonสำหรับการรันแต่ละโมเดลqa-agentic-parity-report.mdพร้อมการเปรียบเทียบระดับรวมและระดับ scenarioqa-agentic-parity-summary.jsonพร้อมคำตัดสินที่เครื่องอ่านได้
Release gate
อย่าอ้างว่า GPT-5.5 เท่าเทียมหรือเหนือกว่า Opus 4.6 จนกว่า:
- PR A, PR B และ PR C จะ merge แล้ว
- PR D รันชุดความเท่าเทียมระลอกแรกได้สะอาด
- ชุด regression ด้านความซื่อตรงของ runtime ยังคงผ่าน
- รายงานความเท่าเทียมไม่แสดงกรณี fake-success และไม่มี regression ในพฤติกรรมการหยุด
flowchart LR
A["PR A-C merged"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["qa parity-report"]
E --> F
F --> G["Markdown report + JSON verdict"]
G --> H{"Pass?"}
H -- "yes" --> I["Parity claim allowed"]
H -- "no" --> J["Keep runtime fixes / review loop open"]
ชุดทดสอบความเท่าเทียมไม่ใช่แหล่งหลักฐานเพียงแหล่งเดียว ให้แยกเรื่องนี้ไว้อย่างชัดเจนในการตรวจทาน:
- PR D รับผิดชอบการเปรียบเทียบ GPT-5.5 กับ Opus 4.6 ตาม scenario
- ชุด deterministic ของ PR B ยังคงรับผิดชอบหลักฐานด้าน auth/proxy/DNS และความซื่อตรงของ full-access
Workflow merge ด่วนสำหรับ maintainer
ใช้ส่วนนี้เมื่อคุณพร้อม land PR ความเท่าเทียมและต้องการลำดับที่ทำซ้ำได้และความเสี่ยงต่ำ
- ยืนยันว่าเกณฑ์หลักฐานผ่านก่อน merge:
- symptom ที่ทำซ้ำได้หรือ test ที่ล้มเหลว
- root cause ที่ตรวจยืนยันแล้วใน code ที่แตะ
- fix ใน path ที่เกี่ยวข้อง
- regression test หรือบันทึกการยืนยันด้วยมือที่ชัดเจน
- Triage/label ก่อน merge:
- ใช้ label auto-close
r:*ใด ๆ เมื่อ PR ไม่ควร land - รักษา merge candidates ให้ไม่มี thread ตัวบล็อกที่ยังไม่ resolved
- ใช้ label auto-close
- ตรวจสอบในเครื่องบนพื้นผิวที่แตะ:
pnpm check:changedpnpm test:changedเมื่อ test เปลี่ยนหรือความมั่นใจของ bug-fix ขึ้นกับ coverage ของ test
- Land ด้วย flow มาตรฐานของ maintainer (กระบวนการ
/landpr) แล้วตรวจสอบ:- พฤติกรรม auto-close ของ issue ที่ลิงก์ไว้
- CI และสถานะหลัง merge บน
main
- หลัง land แล้ว ให้ค้นหา duplicate สำหรับ PR/issue เปิดที่เกี่ยวข้อง และปิดเฉพาะเมื่อมี reference มาตรฐานเท่านั้น
หากมีรายการใดรายการหนึ่งในเกณฑ์หลักฐานที่ขาดไป ให้ request changes แทนการ merge
แผนที่เป้าหมายสู่หลักฐาน
| รายการ completion gate | เจ้าของหลัก | artifact สำหรับตรวจทาน |
|---|---|---|
| ไม่มีการค้างแบบมีแต่แผน | PR A | test runtime แบบ strict-agentic และ approval-turn-tool-followthrough |
| ไม่มีความคืบหน้าปลอมหรือการทำเครื่องมือเสร็จปลอม | PR A + PR D | จำนวน fake-success ของความเท่าเทียมพร้อมรายละเอียดรายงานระดับ scenario |
ไม่มีคำแนะนำ /elevated full ที่ผิดพลาด |
PR B | ชุด deterministic ด้านความซื่อตรงของ runtime |
| ความล้มเหลวของ replay/liveness ยังคงชัดเจน | PR C + PR D | ชุด lifecycle/replay พร้อม compaction-retry-mutating-tool |
| GPT-5.5 เทียบเท่าหรือดีกว่า Opus 4.6 | PR D | qa-agentic-parity-report.md และ qa-agentic-parity-summary.json |
คำย่อสำหรับ reviewer: ก่อนเทียบกับหลัง
| ปัญหาที่ผู้ใช้มองเห็นก่อนหน้า | สัญญาณการตรวจทานหลังแก้ไข |
|---|---|
| GPT-5.5 หยุดหลังวางแผน | PR A แสดงพฤติกรรม act-or-block แทนการจบแบบมีแต่ commentary |
| การใช้เครื่องมือรู้สึกเปราะกับ schema OpenAI/Codex แบบเข้มงวด | PR C ทำให้การลงทะเบียนเครื่องมือและการเรียกแบบไม่มี parameter คาดเดาได้ |
คำใบ้ /elevated full บางครั้งทำให้เข้าใจผิด |
PR B ผูกคำแนะนำกับ capability ของ runtime จริงและเหตุผลการถูกบล็อก |
| งานยาวอาจหายไปในความกำกวมของ replay/Compaction | PR C emit สถานะ paused, blocked, abandoned และ replay-invalid ที่ชัดเจน |
| คำกล่าวอ้างเรื่องความเท่าเทียมเป็นเรื่องเล่าจากประสบการณ์ | PR D สร้างรายงานพร้อมคำตัดสิน JSON โดยมี coverage ของ scenario เดียวกันบนทั้งสองโมเดล |