Concept internals

ความเท่าเทียมเชิงเอเจนต์ของ GPT-5.5 / Codex

OpenClaw ทำงานได้ดีอยู่แล้วกับโมเดล frontier ที่ใช้เครื่องมือได้ แต่ GPT-5.5 และโมเดลสไตล์ Codex ยังทำได้ต่ำกว่าที่ควรในเชิงปฏิบัติบางด้าน:

  • อาจหยุดหลังจากวางแผนแทนที่จะลงมือทำงาน
  • อาจใช้ schema เครื่องมือแบบเข้มงวดของ OpenAI/Codex ไม่ถูกต้อง
  • อาจขอ /elevated full แม้ในกรณีที่การเข้าถึงแบบเต็มเป็นไปไม่ได้
  • อาจสูญเสียสถานะของงานที่ใช้เวลานานระหว่างการเล่นซ้ำหรือ Compaction
  • คำกล่าวอ้างเรื่องความทัดเทียมกับ Claude Opus 4.6 อิงจากเรื่องเล่าแทนที่จะเป็นสถานการณ์ที่ทำซ้ำได้

โปรแกรมความทัดเทียมนี้แก้ช่องว่างเหล่านั้นเป็นสี่ส่วนที่ตรวจทานได้

สิ่งที่เปลี่ยนแปลง

PR A: การทำงานแบบ strict-agentic

ส่วนนี้เพิ่มสัญญาการทำงาน strict-agentic แบบเลือกเปิดใช้สำหรับการรัน GPT-5 ที่ฝังอยู่ใน Pi

เมื่อเปิดใช้ OpenClaw จะหยุดยอมรับรอบที่มีแต่แผนว่าเป็นการทำงานเสร็จที่ "ดีพอ" หากโมเดลเพียงบอกว่าตั้งใจจะทำอะไร แต่ไม่ได้ใช้เครื่องมือจริงหรือทำให้เกิดความคืบหน้า OpenClaw จะลองใหม่ด้วยการชี้นำให้ลงมือทันที แล้วปิดแบบล้มเหลวด้วยสถานะถูกบล็อกที่ชัดเจน แทนที่จะจบงานแบบเงียบ ๆ

สิ่งนี้ช่วยปรับปรุงประสบการณ์ GPT-5.5 มากที่สุดในกรณีต่อไปนี้:

  • การตอบต่อสั้น ๆ แบบ "โอเค ทำเลย"
  • งานโค้ดที่ขั้นตอนแรกชัดเจน
  • โฟลว์ที่ update_plan ควรเป็นการติดตามความคืบหน้า ไม่ใช่ข้อความเติมพื้นที่

PR B: ความซื่อตรงของรันไทม์

ส่วนนี้ทำให้ OpenClaw บอกความจริงเกี่ยวกับสองเรื่อง:

  • เหตุผลที่การเรียก provider/runtime ล้มเหลว
  • /elevated full ใช้งานได้จริงหรือไม่

นั่นหมายความว่า GPT-5.5 จะได้รับสัญญาณรันไทม์ที่ดีขึ้นสำหรับ scope ที่ขาดหาย ความล้มเหลวในการรีเฟรช auth ความล้มเหลวของ HTML 403 auth ปัญหา proxy ความล้มเหลวของ DNS หรือ timeout และโหมด full-access ที่ถูกบล็อก โมเดลจึงมีโอกาสน้อยลงที่จะหลอนวิธีแก้ไขผิด ๆ หรือขอโหมดสิทธิ์ที่รันไทม์ไม่สามารถจัดให้ได้ซ้ำ ๆ

PR C: ความถูกต้องของการทำงาน

ส่วนนี้ปรับปรุงความถูกต้องสองประเภท:

  • ความเข้ากันได้ของ schema เครื่องมือ OpenAI/Codex ที่ provider เป็นเจ้าของ
  • การแสดงสภาพพร้อมทำงานของการเล่นซ้ำและงานระยะยาว

งานด้านความเข้ากันได้ของเครื่องมือลดแรงเสียดทานของ schema สำหรับการลงทะเบียนเครื่องมือ OpenAI/Codex แบบเข้มงวด โดยเฉพาะกับเครื่องมือที่ไม่มีพารามิเตอร์และความคาดหวังเรื่อง root แบบ object ที่เข้มงวด งานด้านการเล่นซ้ำ/สภาพพร้อมทำงานทำให้งานที่ใช้เวลานานสังเกตเห็นได้มากขึ้น เพื่อให้สถานะที่หยุดพัก ถูกบล็อก และถูกละทิ้งมองเห็นได้ แทนที่จะหายไปในข้อความล้มเหลวทั่วไป

PR D: ชุดทดสอบความทัดเทียม

ส่วนนี้เพิ่มแพ็กความทัดเทียม QA-lab ระลอกแรก เพื่อให้ GPT-5.5 และ Opus 4.6 ถูกทดสอบผ่านสถานการณ์เดียวกันและเปรียบเทียบด้วยหลักฐานร่วมกันได้

แพ็กความทัดเทียมคือชั้นพิสูจน์ผล มันไม่ได้เปลี่ยนพฤติกรรมรันไทม์ด้วยตัวเอง

หลังจากคุณมี artifact qa-suite-summary.json สองรายการแล้ว ให้สร้างการเปรียบเทียบ release-gate ด้วย:

pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity

คำสั่งนั้นจะเขียน:

  • รายงาน Markdown ที่มนุษย์อ่านได้
  • verdict แบบ JSON ที่เครื่องอ่านได้
  • ผล gate pass / fail ที่ชัดเจน

เหตุผลที่สิ่งนี้ปรับปรุง GPT-5.5 ในทางปฏิบัติ

ก่อนงานนี้ GPT-5.5 บน OpenClaw อาจให้ความรู้สึกเป็น agentic น้อยกว่า Opus ในเซสชันเขียนโค้ดจริง เพราะรันไทม์ยอมทนต่อพฤติกรรมที่เป็นอันตรายเป็นพิเศษสำหรับโมเดลสไตล์ GPT-5:

  • รอบที่มีแต่คำอธิบาย
  • แรงเสียดทานของ schema รอบเครื่องมือ
  • feedback เรื่องสิทธิ์ที่คลุมเครือ
  • การเล่นซ้ำหรือ Compaction ที่เสียหายแบบเงียบ ๆ

เป้าหมายไม่ใช่การทำให้ GPT-5.5 เลียนแบบ Opus เป้าหมายคือการให้สัญญารันไทม์แก่ GPT-5.5 ที่ให้รางวัลกับความคืบหน้าจริง จัดเตรียม semantics ของเครื่องมือและสิทธิ์ที่สะอาดขึ้น และเปลี่ยนโหมดความล้มเหลวให้เป็นสถานะที่เครื่องและมนุษย์อ่านได้อย่างชัดเจน

สิ่งนั้นเปลี่ยนประสบการณ์ผู้ใช้จาก:

  • "โมเดลมีแผนที่ดีแต่หยุดไป"

เป็น:

  • "โมเดลลงมือทำ หรือ OpenClaw แสดงเหตุผลที่แน่ชัดว่าทำไมจึงทำไม่ได้"

ก่อนและหลังสำหรับผู้ใช้ GPT-5.5

ก่อนโปรแกรมนี้ หลัง PR A-D
GPT-5.5 อาจหยุดหลังจากให้แผนที่สมเหตุสมผลโดยไม่ทำขั้นตอนเครื่องมือถัดไป PR A เปลี่ยน "มีแต่แผน" เป็น "ลงมือเดี๋ยวนี้หรือแสดงสถานะถูกบล็อก"
schema เครื่องมือแบบเข้มงวดอาจปฏิเสธเครื่องมือที่ไม่มีพารามิเตอร์หรือเครื่องมือรูปแบบ OpenAI/Codex ด้วยวิธีที่สับสน PR C ทำให้การลงทะเบียนและการเรียกใช้เครื่องมือที่ provider เป็นเจ้าของคาดเดาได้มากขึ้น
คำแนะนำ /elevated full อาจคลุมเครือหรือผิดในรันไทม์ที่ถูกบล็อก PR B ให้คำใบ้รันไทม์และสิทธิ์ที่ตรงจริงแก่ GPT-5.5 และผู้ใช้
ความล้มเหลวของการเล่นซ้ำหรือ Compaction อาจให้ความรู้สึกเหมือนงานหายไปเงียบ ๆ PR C แสดงผลลัพธ์ที่หยุดพัก ถูกบล็อก ถูกละทิ้ง และ replay-invalid อย่างชัดเจน
"GPT-5.5 รู้สึกแย่กว่า Opus" ส่วนใหญ่เป็นเรื่องเล่า PR D เปลี่ยนสิ่งนั้นให้เป็นแพ็กสถานการณ์เดียวกัน เมตริกเดียวกัน และ gate ผ่าน/ไม่ผ่านที่ชัดเจน

สถาปัตยกรรม

flowchart TD
    A["User request"] --> B["Embedded Pi runtime"]
    B --> C["Strict-agentic execution contract"]
    B --> D["Provider-owned tool compatibility"]
    B --> E["Runtime truthfulness"]
    B --> F["Replay and liveness state"]
    C --> G["Tool call or explicit blocked state"]
    D --> G
    E --> G
    F --> G
    G --> H["QA-lab parity pack"]
    H --> I["Scenario report and parity gate"]

โฟลว์การ release

flowchart LR
    A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.6 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["openclaw qa parity-report"]
    E --> F
    F --> G["qa-agentic-parity-report.md"]
    F --> H["qa-agentic-parity-summary.json"]
    H --> I{"Gate pass?"}
    I -- "yes" --> J["Evidence-backed parity claim"]
    I -- "no" --> K["Keep runtime/review loop open"]

แพ็กสถานการณ์

แพ็กความทัดเทียมระลอกแรกในปัจจุบันครอบคลุมห้าสถานการณ์:

approval-turn-tool-followthrough

ตรวจสอบว่าโมเดลไม่หยุดที่ "ฉันจะทำให้" หลังจากการอนุมัติสั้น ๆ ควรลงมือทำการกระทำที่เป็นรูปธรรมแรกในรอบเดียวกัน

model-switch-tool-continuity

ตรวจสอบว่างานที่ใช้เครื่องมือยังคงสอดคล้องกันข้ามขอบเขตการสลับโมเดล/รันไทม์ แทนที่จะรีเซ็ตเป็นคำอธิบายหรือสูญเสียบริบทการทำงาน

source-docs-discovery-report

ตรวจสอบว่าโมเดลสามารถอ่านซอร์สและเอกสาร สังเคราะห์ข้อค้นพบ และทำงานต่อแบบ agentic แทนที่จะสร้างสรุปบาง ๆ แล้วหยุดก่อนเวลา

image-understanding-attachment

ตรวจสอบว่างานแบบผสมโหมดที่เกี่ยวข้องกับไฟล์แนบยังคงนำไปปฏิบัติได้ และไม่ยุบเหลือเพียงคำบรรยายคลุมเครือ

compaction-retry-mutating-tool

ตรวจสอบว่างานที่มีการเขียนเปลี่ยนแปลงจริงยังคงแสดงความไม่ปลอดภัยต่อการเล่นซ้ำอย่างชัดเจน แทนที่จะดูเหมือนปลอดภัยต่อการเล่นซ้ำอย่างเงียบ ๆ หากการรันเกิดการ compact, retry หรือสูญเสียสถานะการตอบกลับภายใต้แรงกดดัน

เมทริกซ์สถานการณ์

สถานการณ์ สิ่งที่ทดสอบ พฤติกรรม GPT-5.5 ที่ดี สัญญาณความล้มเหลว
approval-turn-tool-followthrough รอบอนุมัติสั้น ๆ หลังจากแผน เริ่มการกระทำเครื่องมือที่เป็นรูปธรรมแรกทันทีแทนที่จะย้ำเจตนา การตอบต่อที่มีแต่แผน ไม่มีกิจกรรมเครื่องมือ หรือรอบที่ถูกบล็อกโดยไม่มีตัวบล็อกจริง
model-switch-tool-continuity การสลับรันไทม์/โมเดลขณะใช้เครื่องมือ รักษาบริบทงานและลงมือทำต่ออย่างสอดคล้อง รีเซ็ตเป็นคำอธิบาย สูญเสียบริบทเครื่องมือ หรือหยุดหลังจากสลับ
source-docs-discovery-report การอ่านซอร์ส + การสังเคราะห์ + การลงมือทำ หาแหล่งข้อมูล ใช้เครื่องมือ และสร้างรายงานที่มีประโยชน์โดยไม่ชะงัก สรุปบาง ๆ งานเครื่องมือหายไป หรือหยุดทั้งที่รอบยังไม่สมบูรณ์
image-understanding-attachment งาน agentic ที่ขับเคลื่อนด้วยไฟล์แนบ ตีความไฟล์แนบ เชื่อมโยงกับเครื่องมือ และทำงานต่อ คำบรรยายคลุมเครือ มองข้ามไฟล์แนบ หรือไม่มีการกระทำถัดไปที่เป็นรูปธรรม
compaction-retry-mutating-tool งานที่เปลี่ยนแปลงข้อมูลภายใต้แรงกดดันจาก Compaction ทำการเขียนจริงและคงความไม่ปลอดภัยต่อการเล่นซ้ำไว้อย่างชัดเจนหลัง side effect มีการเขียนเปลี่ยนแปลงเกิดขึ้น แต่บอกเป็นนัยว่าปลอดภัยต่อการเล่นซ้ำ ขาดหาย หรือขัดแย้งกัน

Release gate

GPT-5.5 จะถือว่าทัดเทียมหรือดีกว่าได้ก็ต่อเมื่อรันไทม์ที่ merge แล้วผ่านทั้งแพ็กความทัดเทียมและ regression ด้านความซื่อตรงของรันไทม์พร้อมกัน

ผลลัพธ์ที่ต้องมี:

  • ไม่มีการชะงักแบบมีแต่แผนเมื่อการกระทำเครื่องมือถัดไปชัดเจน
  • ไม่มีการจบปลอมโดยไม่มีการทำงานจริง
  • ไม่มีคำแนะนำ /elevated full ที่ไม่ถูกต้อง
  • ไม่มีการละทิ้งการเล่นซ้ำหรือ Compaction แบบเงียบ ๆ
  • เมตริกของแพ็กความทัดเทียมที่อย่างน้อยแข็งแรงเท่ากับ baseline Opus 4.6 ที่ตกลงกันไว้

สำหรับชุดทดสอบระลอกแรก gate จะเปรียบเทียบ:

  • อัตราการทำสำเร็จ
  • อัตราการหยุดโดยไม่ตั้งใจ
  • อัตราการเรียกเครื่องมือที่ถูกต้อง
  • จำนวน fake-success

หลักฐานความทัดเทียมตั้งใจแยกออกเป็นสองชั้น:

  • PR D พิสูจน์พฤติกรรม GPT-5.5 เทียบกับ Opus 4.6 ในสถานการณ์เดียวกันด้วย QA-lab
  • ชุดทดสอบ deterministic ของ PR B พิสูจน์ความซื่อตรงด้าน auth, proxy, DNS และ /elevated full นอกชุดทดสอบหลัก

เมทริกซ์เป้าหมายสู่หลักฐาน

รายการ gate การทำสำเร็จ PR เจ้าของ แหล่งหลักฐาน สัญญาณผ่าน
GPT-5.5 ไม่ชะงักหลังจากวางแผนอีกต่อไป PR A approval-turn-tool-followthrough รวมถึงชุดทดสอบรันไทม์ PR A รอบอนุมัติกระตุ้นงานจริงหรือสถานะถูกบล็อกที่ชัดเจน
GPT-5.5 ไม่แกล้งทำว่าคืบหน้าหรือแกล้งทำว่าเครื่องมือเสร็จอีกต่อไป PR A + PR D ผลลัพธ์สถานการณ์ในรายงานความทัดเทียมและจำนวน fake-success ไม่มีผลผ่านที่น่าสงสัยและไม่มีการทำสำเร็จที่มีแต่คำอธิบาย
GPT-5.5 ไม่ให้คำแนะนำ /elevated full ที่ผิดอีกต่อไป PR B ชุดทดสอบความซื่อตรงแบบ deterministic เหตุผลที่ถูกบล็อกและคำใบ้ full-access ยังคงตรงกับรันไทม์
ความล้มเหลวของการเล่นซ้ำ/สภาพพร้อมทำงานยังคงชัดเจน PR C + PR D ชุดทดสอบ lifecycle/replay ของ PR C รวมถึง compaction-retry-mutating-tool งานที่เปลี่ยนแปลงข้อมูลคงความไม่ปลอดภัยต่อการเล่นซ้ำไว้อย่างชัดเจนแทนที่จะหายไปเงียบ ๆ
GPT-5.5 เท่ากับหรือเหนือกว่า Opus 4.6 ในเมตริกที่ตกลงกันไว้ PR D qa-agentic-parity-report.md และ qa-agentic-parity-summary.json ครอบคลุมสถานการณ์เดียวกันและไม่มี regression ด้านการทำสำเร็จ พฤติกรรมการหยุด หรือการใช้เครื่องมือที่ถูกต้อง

วิธีอ่าน verdict ความทัดเทียม

ใช้ verdict ใน qa-agentic-parity-summary.json เป็นการตัดสินใจขั้นสุดท้ายที่เครื่องอ่านได้สำหรับแพ็กความทัดเทียมระลอกแรก

  • pass หมายความว่า GPT-5.5 ครอบคลุมสถานการณ์เดียวกันกับ Opus 4.6 และไม่มีการถดถอยในเมตริกรวมที่ตกลงกันไว้
  • fail หมายความว่ามี hard gate อย่างน้อยหนึ่งรายการที่ถูกกระตุ้น: completion อ่อนกว่า, การหยุดโดยไม่ตั้งใจแย่ลง, การใช้เครื่องมือที่ถูกต้องอ่อนกว่า, มีกรณี fake-success ใด ๆ, หรือการครอบคลุมสถานการณ์ไม่ตรงกัน
  • "ปัญหา CI shared/base" ไม่ใช่ผลลัพธ์ parity ในตัวเอง หากสัญญาณรบกวนของ CI นอก PR D บล็อกการรัน คำตัดสินควรรอการประมวลผล merged-runtime ที่สะอาด แทนที่จะอนุมานจากล็อกในยุคของ branch
  • Auth, proxy, DNS และความตรงตามความจริงของ /elevated full ยังคงมาจากชุดทดสอบแบบกำหนดผลได้ของ PR B ดังนั้นคำกล่าวอ้างสำหรับรีลีสสุดท้ายต้องมีทั้งสองอย่าง: คำตัดสิน parity ของ PR D ที่ผ่าน และการครอบคลุมความตรงตามความจริงของ PR B ที่เป็นสีเขียว

ใครควรเปิดใช้ strict-agentic

ใช้ strict-agentic เมื่อ:

  • คาดหวังให้ agent ลงมือทันทีเมื่อขั้นตอนถัดไปชัดเจน
  • GPT-5.5 หรือโมเดลตระกูล Codex เป็น runtime หลัก
  • คุณชอบสถานะที่ระบุชัดเจนว่าถูกบล็อก มากกว่าการตอบกลับที่มีเพียงสรุปย้อนหลังแบบ "ช่วยเหลือ"

คง contract เริ่มต้นไว้เมื่อ:

  • คุณต้องการพฤติกรรมเดิมที่ผ่อนปรนกว่า
  • คุณไม่ได้ใช้โมเดลตระกูล GPT-5
  • คุณกำลังทดสอบ prompt แทนการบังคับใช้ที่ระดับ runtime

ที่เกี่ยวข้อง