Concept internals
GPT-5.5 / Codex のエージェント機能の同等性
OpenClaw は、ツールを使う frontier model ではすでに十分に機能していましたが、GPT-5.5 と Codex スタイルのモデルには、まだいくつかの実用面で不足がありました。
- 作業を実行せず、計画の後で停止することがあった
- 厳密な OpenAI/Codex ツールスキーマを誤って使うことがあった
- フルアクセスが不可能な場合でも
/elevated fullを求めることがあった - replay や compaction の間に、長時間実行タスクの状態を失うことがあった
- Claude Opus 4.6 に対する parity 主張が、再現可能なシナリオではなく逸話に基づいていた
この parity プログラムは、これらの不足をレビュー可能な 4 つの slice で修正します。
変更点
PR A: strict-agentic 実行
この slice は、埋め込み Pi GPT-5 実行向けに、オプトインの strict-agentic 実行契約を追加します。
有効にすると、OpenClaw は計画だけの turn を「十分な」完了として受け入れなくなります。モデルが実行意図だけを述べ、実際にツールを使ったり進捗を作ったりしない場合、OpenClaw は即時実行を促す steer で再試行し、タスクを黙って終了する代わりに、明示的な blocked 状態で fail closed します。
これにより、GPT-5.5 体験は特に次の場面で改善されます。
- 短い「ok do it」フォローアップ
- 最初の手順が明らかなコードタスク
update_planが埋め草のテキストではなく進捗トラッキングであるべき flow
PR B: runtime の正直性
この slice は、OpenClaw が次の 2 点について正確に伝えるようにします。
- provider/runtime 呼び出しが失敗した理由
/elevated fullが実際に利用可能かどうか
つまり、GPT-5.5 は、scope 不足、auth refresh 失敗、HTML 403 auth 失敗、proxy 問題、DNS または timeout 失敗、ブロックされた full-access mode について、より良い runtime signal を得られます。モデルが誤った remediation を hallucinate したり、runtime が提供できない permission mode を求め続けたりする可能性が低くなります。
PR C: 実行の正確性
この slice は、2 種類の正確性を改善します。
- provider 所有の OpenAI/Codex ツールスキーマ互換性
- replay と長時間タスクの liveness 表面化
ツール互換性の作業により、厳密な OpenAI/Codex ツール登録における schema friction が減ります。特に、パラメーターなしのツールや、厳密な object-root 期待値の周辺で効果があります。replay/liveness の作業により、長時間実行タスクがより観測しやすくなり、paused、blocked、abandoned の状態が、汎用的な失敗テキストに消えるのではなく可視化されます。
PR D: parity harness
この slice は、GPT-5.5 と Opus 4.6 を同じシナリオで実行し、共有 evidence を使って比較できるように、最初の QA-lab parity pack を追加します。
parity pack は proof layer です。それ自体は runtime の挙動を変更しません。
2 つの qa-suite-summary.json artifact が揃ったら、次で release-gate 比較を生成します。
pnpm openclaw qa parity-report \
--repo-root . \
--candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
--baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
--output-dir .artifacts/qa-e2e/parity
このコマンドは次を書き出します。
- 人間が読める Markdown レポート
- 機械可読の JSON verdict
- 明示的な
pass/failgate 結果
これが実践上 GPT-5.5 を改善する理由
この作業以前、OpenClaw 上の GPT-5.5 は、実際のコーディングセッションで Opus より agentic さが低く感じられることがありました。runtime が、GPT-5 スタイルのモデルに特に有害な挙動を許容していたためです。
- commentary のみの turn
- ツール周辺の schema friction
- 曖昧な permission feedback
- silent な replay または compaction 破損
目標は、GPT-5.5 に Opus を模倣させることではありません。目標は、GPT-5.5 に、実際の進捗を促進し、より明確なツールと permission semantics を提供し、failure mode を明示的で機械と人間が読める状態に変換する runtime 契約を与えることです。
これにより、ユーザー体験は次から変わります。
- 「モデルは良い計画を持っていたが停止した」
次のようになります。
- 「モデルは実行したか、OpenClaw が実行できなかった正確な理由を表面化した」
GPT-5.5 ユーザーにとっての before と after
| このプログラム以前 | PR A-D 後 |
|---|---|
| GPT-5.5 は妥当な計画の後、次のツール手順を実行せずに停止することがあった | PR A は「計画のみ」を「今すぐ実行するか、blocked 状態を表面化する」に変える |
| 厳密なツールスキーマが、パラメーターなし、または OpenAI/Codex 形状のツールを分かりにくい形で拒否することがあった | PR C は provider 所有のツール登録と invocation をより予測可能にする |
ブロックされた runtime で、/elevated full guidance が曖昧または誤っていることがあった |
PR B は GPT-5.5 とユーザーに、runtime と permission の正確な hint を与える |
| replay または compaction 失敗により、タスクが黙って消えたように感じられることがあった | PR C は paused、blocked、abandoned、replay-invalid の結果を明示的に表面化する |
| 「GPT-5.5 は Opus より悪く感じる」は、ほとんど逸話に基づいていた | PR D はそれを、同じ scenario pack、同じ metrics、hard pass/fail gate に変える |
アーキテクチャ
flowchart TD
A["User request"] --> B["Embedded Pi runtime"]
B --> C["Strict-agentic execution contract"]
B --> D["Provider-owned tool compatibility"]
B --> E["Runtime truthfulness"]
B --> F["Replay and liveness state"]
C --> G["Tool call or explicit blocked state"]
D --> G
E --> G
F --> G
G --> H["QA-lab parity pack"]
H --> I["Scenario report and parity gate"]
リリース flow
flowchart LR
A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["openclaw qa parity-report"]
E --> F
F --> G["qa-agentic-parity-report.md"]
F --> H["qa-agentic-parity-summary.json"]
H --> I{"Gate pass?"}
I -- "yes" --> J["Evidence-backed parity claim"]
I -- "no" --> K["Keep runtime/review loop open"]
シナリオ pack
first-wave parity pack は現在 5 つのシナリオを対象にしています。
approval-turn-tool-followthrough
短い approval の後、モデルが「I'll do that」で停止しないことを確認します。同じ turn で最初の具体的な action を取るべきです。
model-switch-tool-continuity
ツールを使う作業が、model/runtime の切り替え境界をまたいでも coherent なままであり、commentary に戻ったり execution context を失ったりしないことを確認します。
source-docs-discovery-report
モデルが source と docs を読み、findings を統合し、薄い summary を出して早期停止するのではなく、agentic にタスクを継続できることを確認します。
image-understanding-attachment
attachment を含む mixed-mode タスクが actionable なままであり、曖昧な narration に崩れないことを確認します。
compaction-retry-mutating-tool
実際の mutating write を伴うタスクが、run が compaction、retry、または圧力下で reply state を失った場合でも、静かに replay-safe に見えるのではなく、replay-unsafety を明示したままにすることを確認します。
シナリオ matrix
| シナリオ | テスト内容 | 良い GPT-5.5 の挙動 | failure signal |
|---|---|---|---|
approval-turn-tool-followthrough |
計画後の短い approval turn | intent を言い直す代わりに、最初の具体的なツール action をすぐに開始する | plan-only follow-up、ツール activity なし、または実際の blocker なしの blocked turn |
model-switch-tool-continuity |
ツール使用中の runtime/model 切り替え | タスク context を保持し、coherent に実行を続ける | commentary にリセットする、ツール context を失う、または切り替え後に停止する |
source-docs-discovery-report |
source 読み取り + synthesis + action | source を見つけ、ツールを使い、stall せず有用な report を生成する | 薄い summary、ツール作業の欠落、または incomplete-turn stop |
image-understanding-attachment |
attachment 駆動の agentic work | attachment を解釈し、それをツールに接続し、タスクを継続する | 曖昧な narration、attachment 無視、または具体的な next action なし |
compaction-retry-mutating-tool |
compaction 圧力下の mutating work | 実際の write を実行し、副作用後も replay-unsafety を明示したままにする | mutating write は発生するが、replay safety が implied、missing、または contradictory |
リリース gate
GPT-5.5 は、統合済み runtime が parity pack と runtime-truthfulness regression を同時に pass した場合にのみ、parity 以上と見なせます。
必須の outcome:
- 次のツール action が明確なときに plan-only stall がない
- 実際の実行なしの fake completion がない
- 誤った
/elevated fullguidance がない - silent な replay または compaction abandonment がない
- 合意済みの Opus 4.6 baseline と少なくとも同等に強い parity-pack metrics
first-wave harness では、gate は次を比較します。
- completion rate
- unintended-stop rate
- valid-tool-call rate
- fake-success count
parity evidence は意図的に 2 つの layer に分割されています。
- PR D は QA-lab により、同一シナリオでの GPT-5.5 vs Opus 4.6 の挙動を証明する
- PR B の deterministic suite は、harness の外側で auth、proxy、DNS、
/elevated fullの正直性を証明する
目標から evidence への matrix
| completion gate item | 所有 PR | evidence source | pass signal |
|---|---|---|---|
| GPT-5.5 が計画後に stall しなくなる | PR A | approval-turn-tool-followthrough と PR A runtime suite |
approval turn が実際の作業、または明示的な blocked state を trigger する |
| GPT-5.5 が progress または tool completion を fake しなくなる | PR A + PR D | parity report scenario outcome と fake-success count | suspicious な pass result がなく、commentary-only completion もない |
GPT-5.5 が誤った /elevated full guidance を出さなくなる |
PR B | deterministic truthfulness suite | blocked reason と full-access hint が runtime-accurate なままである |
| Replay/liveness failure が明示されたままになる | PR C + PR D | PR C lifecycle/replay suite と compaction-retry-mutating-tool |
mutating work が silent に消えるのではなく、replay-unsafety を明示したままにする |
| GPT-5.5 が合意済み metrics で Opus 4.6 と同等以上になる | PR D | qa-agentic-parity-report.md と qa-agentic-parity-summary.json |
同じ scenario coverage があり、completion、stop behavior、valid tool use で regression がない |
parity verdict の読み方
first-wave parity pack の最終的な機械可読 decision として、qa-agentic-parity-summary.json の verdict を使用してください。
passは、GPT-5.5 が Opus 4.6 と同じシナリオをカバーし、合意済みの集計メトリクスで退行しなかったことを意味します。failは、少なくとも 1 つのハードゲートが発火したことを意味します。完了性能の低下、意図しない停止の悪化、有効なツール使用の低下、偽の成功ケース、またはシナリオカバレッジの不一致です。- 「共有/ベース CI の問題」は、それ自体では同等性の結果ではありません。PR D 外の CI ノイズが実行を妨げる場合、判定はブランチ期間のログから推測するのではなく、クリーンなマージ済みランタイム実行を待つべきです。
- 認証、プロキシ、DNS、および
/elevated fullの真実性は引き続き PR B の決定的スイートに由来するため、最終リリースの主張には両方が必要です。PR D の同等性判定が合格していることと、PR B の真実性カバレッジがグリーンであることです。
strict-agentic を有効にすべき人
次の場合は strict-agentic を使用します。
- 次のステップが明らかなときに、エージェントが即座に行動することが期待される
- GPT-5.5 または Codex 系モデルが主要なランタイムである
- 「親切な」要約だけの返信よりも、明示的なブロック状態を好む
次の場合はデフォルトのコントラクトを維持します。
- 既存のより緩い挙動を望む
- GPT-5 系モデルを使用していない
- ランタイム強制ではなくプロンプトをテストしている