Concept internals

Paritas agentik GPT-5.5 / Codex

OpenClaw sudah bekerja dengan baik dengan model frontier yang menggunakan alat, tetapi model bergaya GPT-5.5 dan Codex masih berkinerja kurang baik dalam beberapa cara praktis:

model bisa berhenti setelah membuat rencana alih-alih mengerjakan tugas
model bisa menggunakan skema alat OpenAI/Codex yang ketat secara keliru
model bisa meminta /elevated full bahkan ketika akses penuh tidak mungkin
model bisa kehilangan status tugas yang berjalan lama selama replay atau compaction
klaim paritas terhadap Claude Opus 4.6 didasarkan pada anekdot, bukan skenario yang dapat diulang

Program paritas ini memperbaiki celah tersebut dalam empat bagian yang dapat ditinjau.

Yang berubah

PR A: eksekusi strict-agentic

Bagian ini menambahkan kontrak eksekusi strict-agentic opsional untuk proses Pi GPT-5 tertanam.

Saat diaktifkan, OpenClaw berhenti menerima giliran yang hanya berisi rencana sebagai penyelesaian yang "cukup baik". Jika model hanya mengatakan apa yang ingin dilakukannya dan tidak benar-benar menggunakan alat atau membuat kemajuan, OpenClaw mencoba ulang dengan arahan untuk bertindak sekarang, lalu gagal tertutup dengan status terblokir eksplisit alih-alih mengakhiri tugas secara diam-diam.

Ini paling meningkatkan pengalaman GPT-5.5 pada:

tindak lanjut singkat seperti "ok lakukan"
tugas kode ketika langkah pertama sudah jelas
alur saat update_plan seharusnya menjadi pelacakan kemajuan, bukan teks pengisi

PR B: kebenaran runtime

Bagian ini membuat OpenClaw menyampaikan kebenaran tentang dua hal:

mengapa panggilan provider/runtime gagal
apakah /elevated full benar-benar tersedia

Artinya, GPT-5.5 mendapat sinyal runtime yang lebih baik untuk cakupan yang hilang, kegagalan penyegaran auth, kegagalan auth HTML 403, masalah proxy, kegagalan DNS atau timeout, dan mode akses penuh yang diblokir. Model menjadi lebih kecil kemungkinannya menghalusinasikan perbaikan yang salah atau terus meminta mode izin yang tidak dapat disediakan runtime.

PR C: ketepatan eksekusi

Bagian ini meningkatkan dua jenis ketepatan:

kompatibilitas skema alat OpenAI/Codex yang dimiliki provider
pemunculan liveness untuk replay dan tugas panjang

Pekerjaan kompatibilitas alat mengurangi gesekan skema untuk pendaftaran alat OpenAI/Codex yang ketat, terutama di sekitar alat tanpa parameter dan ekspektasi root objek yang ketat. Pekerjaan replay/liveness membuat tugas yang berjalan lama lebih mudah diamati, sehingga status dijeda, terblokir, dan ditinggalkan terlihat alih-alih menghilang ke dalam teks kegagalan generik.

PR D: harness paritas

Bagian ini menambahkan paket paritas QA-lab gelombang pertama sehingga GPT-5.5 dan Opus 4.6 dapat dijalankan melalui skenario yang sama dan dibandingkan menggunakan bukti bersama.

Paket paritas adalah lapisan pembuktian. Paket ini tidak mengubah perilaku runtime dengan sendirinya.

Setelah Anda memiliki dua artefak qa-suite-summary.json, buat perbandingan release-gate dengan:

pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity

Perintah tersebut menulis:

laporan Markdown yang dapat dibaca manusia
putusan JSON yang dapat dibaca mesin
hasil gate pass / fail yang eksplisit

Mengapa ini meningkatkan GPT-5.5 dalam praktik

Sebelum pekerjaan ini, GPT-5.5 di OpenClaw bisa terasa kurang agentic dibanding Opus dalam sesi coding nyata karena runtime menoleransi perilaku yang sangat merugikan untuk model bergaya GPT-5:

giliran yang hanya berisi komentar
gesekan skema di sekitar alat
umpan balik izin yang samar
kerusakan replay atau compaction yang diam-diam

Tujuannya bukan membuat GPT-5.5 meniru Opus. Tujuannya adalah memberi GPT-5.5 kontrak runtime yang menghargai kemajuan nyata, menyediakan semantik alat dan izin yang lebih bersih, serta mengubah mode kegagalan menjadi status eksplisit yang dapat dibaca mesin dan manusia.

Itu mengubah pengalaman pengguna dari:

"model punya rencana yang bagus tetapi berhenti"

menjadi:

"model bertindak, atau OpenClaw memunculkan alasan persis mengapa model tidak bisa bertindak"

Sebelum vs sesudah untuk pengguna GPT-5.5

Sebelum program ini	Setelah PR A-D
GPT-5.5 bisa berhenti setelah rencana yang masuk akal tanpa mengambil langkah alat berikutnya	PR A mengubah "hanya rencana" menjadi "bertindak sekarang atau munculkan status terblokir"
Skema alat yang ketat bisa menolak alat tanpa parameter atau berbentuk OpenAI/Codex dengan cara yang membingungkan	PR C membuat pendaftaran dan pemanggilan alat yang dimiliki provider lebih dapat diprediksi
Panduan `/elevated full` bisa samar atau salah di runtime yang diblokir	PR B memberi GPT-5.5 dan pengguna petunjuk runtime dan izin yang benar
Kegagalan replay atau compaction bisa terasa seperti tugas menghilang secara diam-diam	PR C memunculkan hasil dijeda, terblokir, ditinggalkan, dan replay-invalid secara eksplisit
"GPT-5.5 terasa lebih buruk daripada Opus" sebagian besar bersifat anekdotal	PR D mengubahnya menjadi paket skenario yang sama, metrik yang sama, dan gate pass/fail yang tegas

Arsitektur

flowchart TD
    A["User request"] --> B["Embedded Pi runtime"]
    B --> C["Strict-agentic execution contract"]
    B --> D["Provider-owned tool compatibility"]
    B --> E["Runtime truthfulness"]
    B --> F["Replay and liveness state"]
    C --> G["Tool call or explicit blocked state"]
    D --> G
    E --> G
    F --> G
    G --> H["QA-lab parity pack"]
    H --> I["Scenario report and parity gate"]

Alur rilis

flowchart LR
    A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.6 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["openclaw qa parity-report"]
    E --> F
    F --> G["qa-agentic-parity-report.md"]
    F --> H["qa-agentic-parity-summary.json"]
    H --> I{"Gate pass?"}
    I -- "yes" --> J["Evidence-backed parity claim"]
    I -- "no" --> K["Keep runtime/review loop open"]

Paket skenario

Paket paritas gelombang pertama saat ini mencakup lima skenario:

`approval-turn-tool-followthrough`

Memeriksa bahwa model tidak berhenti di "I'll do that" setelah persetujuan singkat. Model harus mengambil tindakan konkret pertama dalam giliran yang sama.

`model-switch-tool-continuity`

Memeriksa bahwa pekerjaan yang menggunakan alat tetap koheren melintasi batas pergantian model/runtime alih-alih direset menjadi komentar atau kehilangan konteks eksekusi.

`source-docs-discovery-report`

Memeriksa bahwa model dapat membaca sumber dan dokumen, menyintesis temuan, serta melanjutkan tugas secara agentic alih-alih menghasilkan ringkasan tipis dan berhenti lebih awal.

`image-understanding-attachment`

Memeriksa bahwa tugas mode campuran yang melibatkan lampiran tetap dapat ditindaklanjuti dan tidak runtuh menjadi narasi samar.

`compaction-retry-mutating-tool`

Memeriksa bahwa tugas dengan penulisan mutasi nyata menjaga ketidakamanan replay tetap eksplisit alih-alih diam-diam tampak aman untuk replay jika proses mengalami compaction, mencoba ulang, atau kehilangan status balasan di bawah tekanan.

Matriks skenario

Skenario	Yang diuji	Perilaku GPT-5.5 yang baik	Sinyal kegagalan
`approval-turn-tool-followthrough`	Giliran persetujuan singkat setelah rencana	Segera memulai tindakan alat konkret pertama alih-alih menyatakan ulang niat	tindak lanjut hanya rencana, tidak ada aktivitas alat, atau giliran terblokir tanpa pemblokir nyata
`model-switch-tool-continuity`	Pergantian runtime/model saat menggunakan alat	Mempertahankan konteks tugas dan terus bertindak secara koheren	reset menjadi komentar, kehilangan konteks alat, atau berhenti setelah pergantian
`source-docs-discovery-report`	Pembacaan sumber + sintesis + tindakan	Menemukan sumber, menggunakan alat, dan menghasilkan laporan yang berguna tanpa macet	ringkasan tipis, pekerjaan alat hilang, atau penghentian giliran yang belum selesai
`image-understanding-attachment`	Pekerjaan agentic berbasis lampiran	Menafsirkan lampiran, menghubungkannya ke alat, dan melanjutkan tugas	narasi samar, lampiran diabaikan, atau tidak ada tindakan konkret berikutnya
`compaction-retry-mutating-tool`	Pekerjaan mutasi di bawah tekanan compaction	Melakukan penulisan nyata dan menjaga ketidakamanan replay tetap eksplisit setelah efek samping	penulisan mutasi terjadi tetapi keamanan replay tersirat, hilang, atau kontradiktif

Gate rilis

GPT-5.5 hanya dapat dianggap setara atau lebih baik ketika runtime yang digabungkan melewati paket paritas dan regresi kebenaran runtime pada saat yang sama.

Hasil yang diperlukan:

tidak ada macet hanya-rencana ketika tindakan alat berikutnya jelas
tidak ada penyelesaian palsu tanpa eksekusi nyata
tidak ada panduan /elevated full yang salah
tidak ada pengabaian replay atau compaction secara diam-diam
metrik paket paritas yang setidaknya sekuat baseline Opus 4.6 yang disepakati

Untuk harness gelombang pertama, gate membandingkan:

tingkat penyelesaian
tingkat penghentian tak disengaja
tingkat panggilan alat yang valid
jumlah fake-success

Bukti paritas sengaja dipisah dalam dua lapisan:

PR D membuktikan perilaku GPT-5.5 vs Opus 4.6 pada skenario yang sama dengan QA-lab
Suite deterministik PR B membuktikan kebenaran auth, proxy, DNS, dan /elevated full di luar harness

Matriks tujuan-ke-bukti

Item gate penyelesaian	PR pemilik	Sumber bukti	Sinyal lolos
GPT-5.5 tidak lagi macet setelah perencanaan	PR A	`approval-turn-tool-followthrough` plus suite runtime PR A	giliran persetujuan memicu pekerjaan nyata atau status terblokir eksplisit
GPT-5.5 tidak lagi memalsukan kemajuan atau penyelesaian alat palsu	PR A + PR D	hasil skenario laporan paritas dan jumlah fake-success	tidak ada hasil lolos yang mencurigakan dan tidak ada penyelesaian hanya-komentar
GPT-5.5 tidak lagi memberi panduan `/elevated full` yang salah	PR B	suite kebenaran deterministik	alasan terblokir dan petunjuk akses penuh tetap akurat terhadap runtime
Kegagalan replay/liveness tetap eksplisit	PR C + PR D	suite lifecycle/replay PR C plus `compaction-retry-mutating-tool`	pekerjaan mutasi menjaga ketidakamanan replay tetap eksplisit alih-alih menghilang secara diam-diam
GPT-5.5 menyamai atau mengalahkan Opus 4.6 pada metrik yang disepakati	PR D	`qa-agentic-parity-report.md` dan `qa-agentic-parity-summary.json`	cakupan skenario yang sama dan tidak ada regresi pada penyelesaian, perilaku berhenti, atau penggunaan alat yang valid

Cara membaca putusan paritas

Gunakan putusan di qa-agentic-parity-summary.json sebagai keputusan akhir yang dapat dibaca mesin untuk paket paritas gelombang pertama.

pass berarti GPT-5.5 mencakup skenario yang sama seperti Opus 4.6 dan tidak mengalami regresi pada metrik agregat yang disepakati.
fail berarti setidaknya satu hard gate terpicu: penyelesaian yang lebih lemah, penghentian tidak disengaja yang lebih buruk, penggunaan alat valid yang lebih lemah, kasus keberhasilan palsu apa pun, atau cakupan skenario yang tidak cocok.
"masalah CI bersama/dasar" bukan merupakan hasil paritas itu sendiri. Jika gangguan CI di luar PR D memblokir suatu run, putusan harus menunggu eksekusi runtime tergabung yang bersih, bukan disimpulkan dari log era branch.
Autentikasi, proksi, DNS, dan kejujuran /elevated full masih berasal dari suite deterministik PR B, jadi klaim rilis final membutuhkan keduanya: putusan paritas PR D yang lulus dan cakupan kejujuran PR B yang hijau.

Siapa yang harus mengaktifkan `strict-agentic`

Gunakan strict-agentic ketika:

agen diharapkan bertindak segera ketika langkah berikutnya sudah jelas
GPT-5.5 atau model keluarga Codex adalah runtime utama
Anda lebih memilih status terblokir yang eksplisit daripada balasan yang "membantu" tetapi hanya berupa rangkuman ulang

Pertahankan kontrak default ketika:

Anda menginginkan perilaku longgar yang sudah ada
Anda tidak menggunakan model keluarga GPT-5
Anda sedang menguji prompt, bukan penegakan runtime

Terkait

Catatan maintainer paritas GPT-5.5 / Codex

# Yang berubah

# PR A: eksekusi strict-agentic

# PR B: kebenaran runtime

# PR C: ketepatan eksekusi

# PR D: harness paritas

# Mengapa ini meningkatkan GPT-5.5 dalam praktik

# Sebelum vs sesudah untuk pengguna GPT-5.5

# Arsitektur

# Alur rilis

# Paket skenario

# approval-turn-tool-followthrough

# model-switch-tool-continuity

# source-docs-discovery-report

# image-understanding-attachment

# compaction-retry-mutating-tool

# Matriks skenario

# Gate rilis

# Matriks tujuan-ke-bukti

# Cara membaca putusan paritas

# Siapa yang harus mengaktifkan strict-agentic

# Terkait