Concept internals
Paritas agentik GPT-5.5 / Codex
OpenClaw sudah bekerja dengan baik dengan model frontier yang menggunakan alat, tetapi model bergaya GPT-5.5 dan Codex masih berkinerja kurang baik dalam beberapa cara praktis:
- model bisa berhenti setelah membuat rencana alih-alih mengerjakan tugas
- model bisa menggunakan skema alat OpenAI/Codex yang ketat secara keliru
- model bisa meminta
/elevated fullbahkan ketika akses penuh tidak mungkin - model bisa kehilangan status tugas yang berjalan lama selama replay atau compaction
- klaim paritas terhadap Claude Opus 4.6 didasarkan pada anekdot, bukan skenario yang dapat diulang
Program paritas ini memperbaiki celah tersebut dalam empat bagian yang dapat ditinjau.
Yang berubah
PR A: eksekusi strict-agentic
Bagian ini menambahkan kontrak eksekusi strict-agentic opsional untuk proses Pi GPT-5 tertanam.
Saat diaktifkan, OpenClaw berhenti menerima giliran yang hanya berisi rencana sebagai penyelesaian yang "cukup baik". Jika model hanya mengatakan apa yang ingin dilakukannya dan tidak benar-benar menggunakan alat atau membuat kemajuan, OpenClaw mencoba ulang dengan arahan untuk bertindak sekarang, lalu gagal tertutup dengan status terblokir eksplisit alih-alih mengakhiri tugas secara diam-diam.
Ini paling meningkatkan pengalaman GPT-5.5 pada:
- tindak lanjut singkat seperti "ok lakukan"
- tugas kode ketika langkah pertama sudah jelas
- alur saat
update_planseharusnya menjadi pelacakan kemajuan, bukan teks pengisi
PR B: kebenaran runtime
Bagian ini membuat OpenClaw menyampaikan kebenaran tentang dua hal:
- mengapa panggilan provider/runtime gagal
- apakah
/elevated fullbenar-benar tersedia
Artinya, GPT-5.5 mendapat sinyal runtime yang lebih baik untuk cakupan yang hilang, kegagalan penyegaran auth, kegagalan auth HTML 403, masalah proxy, kegagalan DNS atau timeout, dan mode akses penuh yang diblokir. Model menjadi lebih kecil kemungkinannya menghalusinasikan perbaikan yang salah atau terus meminta mode izin yang tidak dapat disediakan runtime.
PR C: ketepatan eksekusi
Bagian ini meningkatkan dua jenis ketepatan:
- kompatibilitas skema alat OpenAI/Codex yang dimiliki provider
- pemunculan liveness untuk replay dan tugas panjang
Pekerjaan kompatibilitas alat mengurangi gesekan skema untuk pendaftaran alat OpenAI/Codex yang ketat, terutama di sekitar alat tanpa parameter dan ekspektasi root objek yang ketat. Pekerjaan replay/liveness membuat tugas yang berjalan lama lebih mudah diamati, sehingga status dijeda, terblokir, dan ditinggalkan terlihat alih-alih menghilang ke dalam teks kegagalan generik.
PR D: harness paritas
Bagian ini menambahkan paket paritas QA-lab gelombang pertama sehingga GPT-5.5 dan Opus 4.6 dapat dijalankan melalui skenario yang sama dan dibandingkan menggunakan bukti bersama.
Paket paritas adalah lapisan pembuktian. Paket ini tidak mengubah perilaku runtime dengan sendirinya.
Setelah Anda memiliki dua artefak qa-suite-summary.json, buat perbandingan release-gate dengan:
pnpm openclaw qa parity-report \
--repo-root . \
--candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
--baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
--output-dir .artifacts/qa-e2e/parity
Perintah tersebut menulis:
- laporan Markdown yang dapat dibaca manusia
- putusan JSON yang dapat dibaca mesin
- hasil gate
pass/failyang eksplisit
Mengapa ini meningkatkan GPT-5.5 dalam praktik
Sebelum pekerjaan ini, GPT-5.5 di OpenClaw bisa terasa kurang agentic dibanding Opus dalam sesi coding nyata karena runtime menoleransi perilaku yang sangat merugikan untuk model bergaya GPT-5:
- giliran yang hanya berisi komentar
- gesekan skema di sekitar alat
- umpan balik izin yang samar
- kerusakan replay atau compaction yang diam-diam
Tujuannya bukan membuat GPT-5.5 meniru Opus. Tujuannya adalah memberi GPT-5.5 kontrak runtime yang menghargai kemajuan nyata, menyediakan semantik alat dan izin yang lebih bersih, serta mengubah mode kegagalan menjadi status eksplisit yang dapat dibaca mesin dan manusia.
Itu mengubah pengalaman pengguna dari:
- "model punya rencana yang bagus tetapi berhenti"
menjadi:
- "model bertindak, atau OpenClaw memunculkan alasan persis mengapa model tidak bisa bertindak"
Sebelum vs sesudah untuk pengguna GPT-5.5
| Sebelum program ini | Setelah PR A-D |
|---|---|
| GPT-5.5 bisa berhenti setelah rencana yang masuk akal tanpa mengambil langkah alat berikutnya | PR A mengubah "hanya rencana" menjadi "bertindak sekarang atau munculkan status terblokir" |
| Skema alat yang ketat bisa menolak alat tanpa parameter atau berbentuk OpenAI/Codex dengan cara yang membingungkan | PR C membuat pendaftaran dan pemanggilan alat yang dimiliki provider lebih dapat diprediksi |
Panduan /elevated full bisa samar atau salah di runtime yang diblokir |
PR B memberi GPT-5.5 dan pengguna petunjuk runtime dan izin yang benar |
| Kegagalan replay atau compaction bisa terasa seperti tugas menghilang secara diam-diam | PR C memunculkan hasil dijeda, terblokir, ditinggalkan, dan replay-invalid secara eksplisit |
| "GPT-5.5 terasa lebih buruk daripada Opus" sebagian besar bersifat anekdotal | PR D mengubahnya menjadi paket skenario yang sama, metrik yang sama, dan gate pass/fail yang tegas |
Arsitektur
flowchart TD
A["User request"] --> B["Embedded Pi runtime"]
B --> C["Strict-agentic execution contract"]
B --> D["Provider-owned tool compatibility"]
B --> E["Runtime truthfulness"]
B --> F["Replay and liveness state"]
C --> G["Tool call or explicit blocked state"]
D --> G
E --> G
F --> G
G --> H["QA-lab parity pack"]
H --> I["Scenario report and parity gate"]
Alur rilis
flowchart LR
A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["openclaw qa parity-report"]
E --> F
F --> G["qa-agentic-parity-report.md"]
F --> H["qa-agentic-parity-summary.json"]
H --> I{"Gate pass?"}
I -- "yes" --> J["Evidence-backed parity claim"]
I -- "no" --> K["Keep runtime/review loop open"]
Paket skenario
Paket paritas gelombang pertama saat ini mencakup lima skenario:
approval-turn-tool-followthrough
Memeriksa bahwa model tidak berhenti di "I'll do that" setelah persetujuan singkat. Model harus mengambil tindakan konkret pertama dalam giliran yang sama.
model-switch-tool-continuity
Memeriksa bahwa pekerjaan yang menggunakan alat tetap koheren melintasi batas pergantian model/runtime alih-alih direset menjadi komentar atau kehilangan konteks eksekusi.
source-docs-discovery-report
Memeriksa bahwa model dapat membaca sumber dan dokumen, menyintesis temuan, serta melanjutkan tugas secara agentic alih-alih menghasilkan ringkasan tipis dan berhenti lebih awal.
image-understanding-attachment
Memeriksa bahwa tugas mode campuran yang melibatkan lampiran tetap dapat ditindaklanjuti dan tidak runtuh menjadi narasi samar.
compaction-retry-mutating-tool
Memeriksa bahwa tugas dengan penulisan mutasi nyata menjaga ketidakamanan replay tetap eksplisit alih-alih diam-diam tampak aman untuk replay jika proses mengalami compaction, mencoba ulang, atau kehilangan status balasan di bawah tekanan.
Matriks skenario
| Skenario | Yang diuji | Perilaku GPT-5.5 yang baik | Sinyal kegagalan |
|---|---|---|---|
approval-turn-tool-followthrough |
Giliran persetujuan singkat setelah rencana | Segera memulai tindakan alat konkret pertama alih-alih menyatakan ulang niat | tindak lanjut hanya rencana, tidak ada aktivitas alat, atau giliran terblokir tanpa pemblokir nyata |
model-switch-tool-continuity |
Pergantian runtime/model saat menggunakan alat | Mempertahankan konteks tugas dan terus bertindak secara koheren | reset menjadi komentar, kehilangan konteks alat, atau berhenti setelah pergantian |
source-docs-discovery-report |
Pembacaan sumber + sintesis + tindakan | Menemukan sumber, menggunakan alat, dan menghasilkan laporan yang berguna tanpa macet | ringkasan tipis, pekerjaan alat hilang, atau penghentian giliran yang belum selesai |
image-understanding-attachment |
Pekerjaan agentic berbasis lampiran | Menafsirkan lampiran, menghubungkannya ke alat, dan melanjutkan tugas | narasi samar, lampiran diabaikan, atau tidak ada tindakan konkret berikutnya |
compaction-retry-mutating-tool |
Pekerjaan mutasi di bawah tekanan compaction | Melakukan penulisan nyata dan menjaga ketidakamanan replay tetap eksplisit setelah efek samping | penulisan mutasi terjadi tetapi keamanan replay tersirat, hilang, atau kontradiktif |
Gate rilis
GPT-5.5 hanya dapat dianggap setara atau lebih baik ketika runtime yang digabungkan melewati paket paritas dan regresi kebenaran runtime pada saat yang sama.
Hasil yang diperlukan:
- tidak ada macet hanya-rencana ketika tindakan alat berikutnya jelas
- tidak ada penyelesaian palsu tanpa eksekusi nyata
- tidak ada panduan
/elevated fullyang salah - tidak ada pengabaian replay atau compaction secara diam-diam
- metrik paket paritas yang setidaknya sekuat baseline Opus 4.6 yang disepakati
Untuk harness gelombang pertama, gate membandingkan:
- tingkat penyelesaian
- tingkat penghentian tak disengaja
- tingkat panggilan alat yang valid
- jumlah fake-success
Bukti paritas sengaja dipisah dalam dua lapisan:
- PR D membuktikan perilaku GPT-5.5 vs Opus 4.6 pada skenario yang sama dengan QA-lab
- Suite deterministik PR B membuktikan kebenaran auth, proxy, DNS, dan
/elevated fulldi luar harness
Matriks tujuan-ke-bukti
| Item gate penyelesaian | PR pemilik | Sumber bukti | Sinyal lolos |
|---|---|---|---|
| GPT-5.5 tidak lagi macet setelah perencanaan | PR A | approval-turn-tool-followthrough plus suite runtime PR A |
giliran persetujuan memicu pekerjaan nyata atau status terblokir eksplisit |
| GPT-5.5 tidak lagi memalsukan kemajuan atau penyelesaian alat palsu | PR A + PR D | hasil skenario laporan paritas dan jumlah fake-success | tidak ada hasil lolos yang mencurigakan dan tidak ada penyelesaian hanya-komentar |
GPT-5.5 tidak lagi memberi panduan /elevated full yang salah |
PR B | suite kebenaran deterministik | alasan terblokir dan petunjuk akses penuh tetap akurat terhadap runtime |
| Kegagalan replay/liveness tetap eksplisit | PR C + PR D | suite lifecycle/replay PR C plus compaction-retry-mutating-tool |
pekerjaan mutasi menjaga ketidakamanan replay tetap eksplisit alih-alih menghilang secara diam-diam |
| GPT-5.5 menyamai atau mengalahkan Opus 4.6 pada metrik yang disepakati | PR D | qa-agentic-parity-report.md dan qa-agentic-parity-summary.json |
cakupan skenario yang sama dan tidak ada regresi pada penyelesaian, perilaku berhenti, atau penggunaan alat yang valid |
Cara membaca putusan paritas
Gunakan putusan di qa-agentic-parity-summary.json sebagai keputusan akhir yang dapat dibaca mesin untuk paket paritas gelombang pertama.
passberarti GPT-5.5 mencakup skenario yang sama seperti Opus 4.6 dan tidak mengalami regresi pada metrik agregat yang disepakati.failberarti setidaknya satu hard gate terpicu: penyelesaian yang lebih lemah, penghentian tidak disengaja yang lebih buruk, penggunaan alat valid yang lebih lemah, kasus keberhasilan palsu apa pun, atau cakupan skenario yang tidak cocok.- "masalah CI bersama/dasar" bukan merupakan hasil paritas itu sendiri. Jika gangguan CI di luar PR D memblokir suatu run, putusan harus menunggu eksekusi runtime tergabung yang bersih, bukan disimpulkan dari log era branch.
- Autentikasi, proksi, DNS, dan kejujuran
/elevated fullmasih berasal dari suite deterministik PR B, jadi klaim rilis final membutuhkan keduanya: putusan paritas PR D yang lulus dan cakupan kejujuran PR B yang hijau.
Siapa yang harus mengaktifkan strict-agentic
Gunakan strict-agentic ketika:
- agen diharapkan bertindak segera ketika langkah berikutnya sudah jelas
- GPT-5.5 atau model keluarga Codex adalah runtime utama
- Anda lebih memilih status terblokir yang eksplisit daripada balasan yang "membantu" tetapi hanya berupa rangkuman ulang
Pertahankan kontrak default ketika:
- Anda menginginkan perilaku longgar yang sudah ada
- Anda tidak menggunakan model keluarga GPT-5
- Anda sedang menguji prompt, bukan penegakan runtime