Concept internals
GPT-5.5 / агентний паритет Codex
OpenClaw уже добре працював із передовими моделями, що використовують інструменти, але GPT-5.5 і моделі у стилі Codex усе ще поступалися в кількох практичних аспектах:
- вони могли зупинятися після планування замість виконання роботи
- вони могли неправильно використовувати строгі схеми інструментів OpenAI/Codex
- вони могли просити
/elevated full, навіть коли повний доступ був неможливий - вони могли втрачати стан довготривалого завдання під час replay або compaction
- твердження про паритет із Claude Opus 4.6 ґрунтувалися на окремих прикладах, а не на повторюваних сценаріях
Ця програма паритету усуває ці прогалини в чотирьох придатних для перегляду частинах.
Що змінилося
PR A: виконання strict-agentic
Ця частина додає опціональний контракт виконання strict-agentic для вбудованих запусків Pi GPT-5.
Коли його ввімкнено, OpenClaw перестає приймати ходи лише з планом як достатньо добрі для завершення. Якщо модель лише каже, що має намір зробити, але фактично не використовує інструменти й не робить поступу, OpenClaw повторює спробу з підказкою діяти негайно, а потім завершує закрито з явним заблокованим станом замість того, щоб тихо завершити завдання.
Це найбільше покращує досвід GPT-5.5 у:
- коротких подальших відповідях на кшталт "ок, зроби це"
- кодових завданнях, де перший крок очевидний
- потоках, де
update_planмає бути відстеженням поступу, а не текстом-заповнювачем
PR B: правдивість runtime
Ця частина змушує OpenClaw правдиво повідомляти про дві речі:
- чому виклик provider/runtime зазнав невдачі
- чи
/elevated fullсправді доступний
Це означає, що GPT-5.5 отримує кращі runtime-сигнали для відсутнього scope, збоїв оновлення auth, HTML 403 auth-помилок, проблем із proxy, DNS або timeout-збоїв і заблокованих режимів повного доступу. Модель із меншою ймовірністю вигадує неправильне виправлення або продовжує просити режим дозволів, який runtime не може надати.
PR C: коректність виконання
Ця частина покращує два типи коректності:
- сумісність схем інструментів OpenAI/Codex, якими володіє provider
- відображення replay і живучості довгих завдань
Робота над сумісністю інструментів зменшує тертя схем для строгій реєстрації інструментів OpenAI/Codex, особливо навколо інструментів без параметрів і строгих очікувань щодо кореневого об’єкта. Робота над replay/живучістю робить довготривалі завдання помітнішими, тому призупинені, заблоковані й покинуті стани видимі замість того, щоб зникати в узагальненому тексті помилки.
PR D: parity harness
Ця частина додає parity pack першої хвилі для QA-lab, щоб GPT-5.5 і Opus 4.6 можна було проганяти через ті самі сценарії та порівнювати за спільними доказами.
Parity pack є шаром доказів. Сам по собі він не змінює поведінку runtime.
Після того як у вас є два артефакти qa-suite-summary.json, згенеруйте порівняння для release gate за допомогою:
pnpm openclaw qa parity-report \
--repo-root . \
--candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
--baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
--output-dir .artifacts/qa-e2e/parity
Ця команда записує:
- зручний для читання Markdown-звіт
- машиночитний JSON-вердикт
- явний результат gate
pass/fail
Чому це покращує GPT-5.5 на практиці
До цієї роботи GPT-5.5 в OpenClaw міг здаватися менш агентним, ніж Opus, у реальних сеансах кодування, бо runtime допускав поведінку, особливо шкідливу для моделей у стилі GPT-5:
- ходи лише з коментарями
- тертя схем навколо інструментів
- нечіткий зворотний зв’язок щодо дозволів
- непомітні збої replay або compaction
Мета не в тому, щоб змусити GPT-5.5 імітувати Opus. Мета — дати GPT-5.5 runtime-контракт, який винагороджує реальний поступ, надає чистішу семантику інструментів і дозволів та перетворює режими відмови на явні машино- й людиночитні стани.
Це змінює досвід користувача з:
- "модель мала добрий план, але зупинилася"
на:
- "модель або діяла, або OpenClaw показав точну причину, чому вона не могла"
До й після для користувачів GPT-5.5
| До цієї програми | Після PR A-D |
|---|---|
| GPT-5.5 міг зупинятися після розумного плану, не виконуючи наступний крок інструментом | PR A перетворює "лише план" на "дій зараз або покажи заблокований стан" |
| Строгі схеми інструментів могли відхиляти інструменти без параметрів або форми OpenAI/Codex у заплутаний спосіб | PR C робить реєстрацію та виклик інструментів, якими володіє provider, передбачуванішими |
Підказки щодо /elevated full могли бути нечіткими або неправильними в заблокованих runtime |
PR B дає GPT-5.5 і користувачу правдиві runtime-підказки та підказки щодо дозволів |
| Збої replay або compaction могли виглядати так, ніби завдання тихо зникло | PR C явно показує призупинені, заблоковані, покинуті та replay-invalid результати |
| "GPT-5.5 здається гіршим за Opus" було переважно анекдотичним твердженням | PR D перетворює це на той самий набір сценаріїв, ті самі метрики й жорсткий gate pass/fail |
Архітектура
flowchart TD
A["User request"] --> B["Embedded Pi runtime"]
B --> C["Strict-agentic execution contract"]
B --> D["Provider-owned tool compatibility"]
B --> E["Runtime truthfulness"]
B --> F["Replay and liveness state"]
C --> G["Tool call or explicit blocked state"]
D --> G
E --> G
F --> G
G --> H["QA-lab parity pack"]
H --> I["Scenario report and parity gate"]
Процес release
flowchart LR
A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
A --> C["Run Opus 4.6 parity pack"]
B --> D["qa-suite-summary.json"]
C --> E["qa-suite-summary.json"]
D --> F["openclaw qa parity-report"]
E --> F
F --> G["qa-agentic-parity-report.md"]
F --> H["qa-agentic-parity-summary.json"]
H --> I{"Gate pass?"}
I -- "yes" --> J["Evidence-backed parity claim"]
I -- "no" --> K["Keep runtime/review loop open"]
Набір сценаріїв
Parity pack першої хвилі наразі охоплює п’ять сценаріїв:
approval-turn-tool-followthrough
Перевіряє, що модель не зупиняється на "я це зроблю" після короткого схвалення. Вона має виконати першу конкретну дію в тому самому ході.
model-switch-tool-continuity
Перевіряє, що робота з використанням інструментів залишається узгодженою на межах перемикання model/runtime замість того, щоб скидатися до коментарів або втрачати контекст виконання.
source-docs-discovery-report
Перевіряє, що модель може читати source і docs, синтезувати висновки та продовжувати завдання агентно, а не створювати поверховий підсумок і передчасно зупинятися.
image-understanding-attachment
Перевіряє, що змішанорежимні завдання з вкладеннями залишаються придатними до дії й не зводяться до нечіткої оповіді.
compaction-retry-mutating-tool
Перевіряє, що завдання з реальною мутуючою операцією запису зберігає явну replay-небезпечність замість того, щоб тихо виглядати replay-безпечним, якщо запуск зазнає compaction, retry або втратить стан відповіді під тиском.
Матриця сценаріїв
| Сценарій | Що він тестує | Добра поведінка GPT-5.5 | Сигнал невдачі |
|---|---|---|---|
approval-turn-tool-followthrough |
Короткі ходи схвалення після плану | Негайно починає першу конкретну дію інструментом замість повторення наміру | подальший хід лише з планом, відсутність активності інструментів або заблокований хід без реальної перешкоди |
model-switch-tool-continuity |
Перемикання runtime/model під час використання інструментів | Зберігає контекст завдання й продовжує діяти узгоджено | скидання до коментарів, втрата контексту інструментів або зупинка після перемикання |
source-docs-discovery-report |
Читання source + синтез + дія | Знаходить джерела, використовує інструменти й створює корисний звіт без зависання | поверховий підсумок, відсутня робота інструментами або зупинка на незавершеному ході |
image-understanding-attachment |
Агентна робота, керована вкладенням | Інтерпретує вкладення, пов’язує його з інструментами й продовжує завдання | нечітка оповідь, вкладення проігноровано або немає конкретної наступної дії |
compaction-retry-mutating-tool |
Мутуюча робота під тиском compaction | Виконує реальний запис і зберігає явну replay-небезпечність після побічного ефекту | мутуючий запис відбувається, але replay-безпечність натякається, відсутня або суперечлива |
Release gate
GPT-5.5 можна вважати на рівні паритету або кращим лише тоді, коли об’єднаний runtime одночасно проходить parity pack і регресійні перевірки runtime-правдивості.
Обов’язкові результати:
- немає зависання лише на плані, коли наступна дія інструментом очевидна
- немає фальшивого завершення без реального виконання
- немає неправильних підказок щодо
/elevated full - немає тихого покидання replay або compaction
- метрики parity pack щонайменше такі самі сильні, як узгоджений baseline Opus 4.6
Для harness першої хвилі gate порівнює:
- completion rate
- unintended-stop rate
- valid-tool-call rate
- fake-success count
Докази паритету навмисно розділені на два шари:
- PR D доводить поведінку GPT-5.5 проти Opus 4.6 у тих самих сценаріях за допомогою QA-lab
- детерміновані набори PR B доводять правдивість auth, proxy, DNS і
/elevated fullпоза harness
Матриця цілей і доказів
| Елемент completion gate | Відповідальний PR | Джерело доказів | Сигнал проходження |
|---|---|---|---|
| GPT-5.5 більше не зависає після планування | PR A | approval-turn-tool-followthrough плюс runtime-набори PR A |
ходи схвалення запускають реальну роботу або явний заблокований стан |
| GPT-5.5 більше не імітує поступ або фальшиве завершення інструменту | PR A + PR D | результати сценаріїв parity report і fake-success count | немає підозрілих pass-результатів і немає завершення лише з коментарями |
GPT-5.5 більше не дає хибних підказок щодо /elevated full |
PR B | детерміновані набори правдивості | причини блокування й підказки full-access залишаються точними щодо runtime |
| Збої replay/живучості залишаються явними | PR C + PR D | lifecycle/replay-набори PR C плюс compaction-retry-mutating-tool |
мутуюча робота зберігає явну replay-небезпечність замість тихого зникнення |
| GPT-5.5 дорівнює або перевершує Opus 4.6 за узгодженими метриками | PR D | qa-agentic-parity-report.md і qa-agentic-parity-summary.json |
те саме покриття сценаріїв і відсутність регресії щодо completion, поведінки зупинок або валідного використання інструментів |
Як читати parity verdict
Використовуйте verdict у qa-agentic-parity-summary.json як фінальне машиночитне рішення для parity pack першої хвилі.
passозначає, що GPT-5.5 охопив ті самі сценарії, що й Opus 4.6, і не мав регресій за узгодженими агрегованими метриками.failозначає, що спрацював принаймні один жорсткий шлюз: слабше завершення, гірші ненавмисні зупинки, слабше коректне використання інструментів, будь-який випадок фальшивого успіху або невідповідне покриття сценаріїв.- "спільна/базова проблема CI" сама по собі не є результатом паритету. Якщо шум CI поза PR D блокує запуск, вердикт має чекати чистого виконання об’єднаного runtime, а не виводитися з журналів часів гілки.
- Автентифікація, проксі, DNS і правдивість
/elevated fullдосі походять із детермінованих наборів PR B, тому фінальне твердження про реліз потребує обох умов: успішного вердикту паритету PR D і зеленого покриття правдивості PR B.
Кому слід увімкнути strict-agentic
Використовуйте strict-agentic, коли:
- очікується, що агент діятиме негайно, коли наступний крок очевидний
- GPT-5.5 або моделі родини Codex є основним runtime
- ви віддаєте перевагу явним заблокованим станам замість "корисних" відповідей лише з підсумком
Залишайте типовий контракт, коли:
- вам потрібна наявна вільніша поведінка
- ви не використовуєте моделі родини GPT-5
- ви тестуєте промпти, а не примусове виконання на рівні runtime