Concept internals

Parytet agentowy GPT-5.5 / Codex

OpenClaw już dobrze współpracował z modelami frontier korzystającymi z narzędzi, ale GPT-5.5 i modele w stylu Codex nadal wypadały gorzej w kilku praktycznych aspektach:

mogły zatrzymać się po zaplanowaniu zamiast wykonać pracę
mogły nieprawidłowo używać ścisłych schematów narzędzi OpenAI/Codex
mogły prosić o /elevated full, nawet gdy pełny dostęp był niemożliwy
mogły tracić stan długotrwałego zadania podczas odtwarzania lub Compaction
twierdzenia o parytecie względem Claude Opus 4.6 opierały się na anegdotach zamiast na powtarzalnych scenariuszach

Ten program parytetu naprawia te braki w czterech możliwych do przejrzenia częściach.

Co się zmieniło

PR A: ścisłe agentowe wykonywanie

Ta część dodaje opcjonalny kontrakt wykonywania strict-agentic dla osadzonych uruchomień Pi GPT-5.

Po włączeniu OpenClaw przestaje akceptować tury zawierające tylko plan jako „wystarczająco dobre” zakończenie. Jeśli model tylko mówi, co zamierza zrobić, ale faktycznie nie używa narzędzi ani nie robi postępów, OpenClaw ponawia próbę z instrukcją działania od razu, a następnie kończy w sposób zamknięty z jawnym stanem zablokowania zamiast po cichu kończyć zadanie.

Najbardziej poprawia to działanie GPT-5.5 w przypadku:

krótkich odpowiedzi typu „ok, zrób to”
zadań kodowania, w których pierwszy krok jest oczywisty
przepływów, w których update_plan powinien śledzić postęp, a nie być tekstowym wypełniaczem

PR B: zgodność runtime z prawdą

Ta część sprawia, że OpenClaw rzetelnie informuje o dwóch rzeczach:

dlaczego wywołanie dostawcy/runtime się nie powiodło
czy /elevated full jest faktycznie dostępne

Oznacza to, że GPT-5.5 otrzymuje lepsze sygnały runtime dotyczące brakującego zakresu, błędów odświeżania uwierzytelniania, błędów uwierzytelniania HTML 403, problemów z proxy, błędów DNS lub timeoutów oraz zablokowanych trybów pełnego dostępu. Model rzadziej halucynuje niewłaściwy sposób naprawy albo nadal prosi o tryb uprawnień, którego runtime nie może zapewnić.

PR C: poprawność wykonywania

Ta część poprawia dwa rodzaje poprawności:

zgodność schematów narzędzi OpenAI/Codex należących do dostawcy
sygnalizowanie żywotności odtwarzania i długich zadań

Prace nad zgodnością narzędzi zmniejszają tarcia schematów przy ścisłej rejestracji narzędzi OpenAI/Codex, zwłaszcza wokół narzędzi bez parametrów i ścisłych oczekiwań dotyczących obiektowego korzenia. Prace nad odtwarzaniem i żywotnością sprawiają, że długotrwałe zadania są bardziej obserwowalne, więc stany wstrzymane, zablokowane i porzucone są widoczne zamiast znikać w ogólnym tekście błędu.

PR D: uprząż parytetu

Ta część dodaje pierwszy pakiet parytetu QA-lab, aby GPT-5.5 i Opus 4.6 mogły być wykonywane w tych samych scenariuszach i porównywane na podstawie wspólnych dowodów.

Pakiet parytetu jest warstwą dowodową. Samodzielnie nie zmienia zachowania runtime.

Gdy masz już dwa artefakty qa-suite-summary.json, wygeneruj porównanie bramki wydania za pomocą:

pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity

To polecenie zapisuje:

czytelny dla człowieka raport Markdown
możliwy do odczytu maszynowego werdykt JSON
jawny wynik bramki pass / fail

Dlaczego to poprawia GPT-5.5 w praktyce

Przed tymi pracami GPT-5.5 w OpenClaw mógł sprawiać wrażenie mniej agentowego niż Opus w rzeczywistych sesjach kodowania, ponieważ runtime tolerował zachowania szczególnie szkodliwe dla modeli w stylu GPT-5:

tury zawierające wyłącznie komentarz
tarcia schematów wokół narzędzi
niejasne informacje zwrotne o uprawnieniach
ciche uszkodzenia odtwarzania lub Compaction

Celem nie jest sprawienie, by GPT-5.5 naśladował Opus. Celem jest danie GPT-5.5 kontraktu runtime, który nagradza rzeczywisty postęp, zapewnia czytelniejsze semantyki narzędzi i uprawnień oraz zamienia tryby awarii w jawne stany czytelne dla maszyn i ludzi.

Zmienia to doświadczenie użytkownika z:

„model miał dobry plan, ale się zatrzymał”

na:

„model albo zadziałał, albo OpenClaw pokazał dokładny powód, dla którego nie mógł”

Przed i po dla użytkowników GPT-5.5

Przed tym programem	Po PR A-D
GPT-5.5 mógł zatrzymać się po rozsądnym planie bez wykonania następnego kroku narzędziowego	PR A zamienia „tylko plan” w „działaj teraz albo pokaż stan zablokowania”
Ścisłe schematy narzędzi mogły odrzucać narzędzia bez parametrów lub narzędzia w kształcie OpenAI/Codex w mylący sposób	PR C sprawia, że należące do dostawcy rejestrowanie i wywoływanie narzędzi jest bardziej przewidywalne
Wskazówki `/elevated full` mogły być niejasne lub błędne w zablokowanych runtime	PR B daje GPT-5.5 i użytkownikowi prawdziwe wskazówki runtime i uprawnień
Awarie odtwarzania lub Compaction mogły wyglądać tak, jakby zadanie po cichu zniknęło	PR C jawnie pokazuje wyniki wstrzymane, zablokowane, porzucone i nieprawidłowe przy odtwarzaniu
„GPT-5.5 wydaje się gorszy niż Opus” było głównie anegdotyczne	PR D zamienia to w ten sam pakiet scenariuszy, te same metryki i twardą bramkę pass/fail

Architektura

flowchart TD
    A["User request"] --> B["Embedded Pi runtime"]
    B --> C["Strict-agentic execution contract"]
    B --> D["Provider-owned tool compatibility"]
    B --> E["Runtime truthfulness"]
    B --> F["Replay and liveness state"]
    C --> G["Tool call or explicit blocked state"]
    D --> G
    E --> G
    F --> G
    G --> H["QA-lab parity pack"]
    H --> I["Scenario report and parity gate"]

Przepływ wydania

flowchart LR
    A["Merged runtime slices (PR A-C)"] --> B["Run GPT-5.5 parity pack"]
    A --> C["Run Opus 4.6 parity pack"]
    B --> D["qa-suite-summary.json"]
    C --> E["qa-suite-summary.json"]
    D --> F["openclaw qa parity-report"]
    E --> F
    F --> G["qa-agentic-parity-report.md"]
    F --> H["qa-agentic-parity-summary.json"]
    H --> I{"Gate pass?"}
    I -- "yes" --> J["Evidence-backed parity claim"]
    I -- "no" --> K["Keep runtime/review loop open"]

Pakiet scenariuszy

Pierwszy pakiet parytetu obejmuje obecnie pięć scenariuszy:

`approval-turn-tool-followthrough`

Sprawdza, że model nie zatrzymuje się na „Zrobię to” po krótkim zatwierdzeniu. Powinien podjąć pierwsze konkretne działanie w tej samej turze.

`model-switch-tool-continuity`

Sprawdza, że praca z użyciem narzędzi pozostaje spójna ponad granicami przełączania modelu/runtime, zamiast resetować się do komentarza albo tracić kontekst wykonywania.

`source-docs-discovery-report`

Sprawdza, że model potrafi czytać źródła i dokumentację, syntetyzować ustalenia oraz kontynuować zadanie agentowo zamiast tworzyć płytkie podsumowanie i wcześnie się zatrzymać.

`image-understanding-attachment`

Sprawdza, że zadania mieszane obejmujące załączniki pozostają wykonalne i nie zapadają się w niejasną narrację.

`compaction-retry-mutating-tool`

Sprawdza, że zadanie z rzeczywistym zapisem modyfikującym zachowuje jawną niebezpieczność odtwarzania zamiast po cichu wyglądać na bezpieczne do odtworzenia, jeśli uruchomienie przejdzie Compaction, ponowi próbę albo straci stan odpowiedzi pod presją.

Macierz scenariuszy

Scenariusz	Co testuje	Dobre zachowanie GPT-5.5	Sygnał awarii
`approval-turn-tool-followthrough`	Krótkie tury zatwierdzenia po planie	Natychmiast rozpoczyna pierwsze konkretne działanie narzędziowe zamiast powtarzać zamiar	odpowiedź tylko z planem, brak aktywności narzędzi albo zablokowana tura bez rzeczywistej blokady
`model-switch-tool-continuity`	Przełączanie runtime/modelu podczas użycia narzędzi	Zachowuje kontekst zadania i nadal działa spójnie	resetuje się do komentarza, traci kontekst narzędzi albo zatrzymuje się po przełączeniu
`source-docs-discovery-report`	Czytanie źródeł + synteza + działanie	Znajduje źródła, używa narzędzi i tworzy użyteczny raport bez zacinania się	płytkie podsumowanie, brak pracy narzędziowej albo zatrzymanie nieukończonej tury
`image-understanding-attachment`	Praca agentowa sterowana załącznikiem	Interpretuje załącznik, łączy go z narzędziami i kontynuuje zadanie	niejasna narracja, zignorowany załącznik albo brak konkretnego następnego działania
`compaction-retry-mutating-tool`	Praca modyfikująca pod presją Compaction	Wykonuje rzeczywisty zapis i zachowuje jawną niebezpieczność odtwarzania po efekcie ubocznym	zapis modyfikujący następuje, ale bezpieczeństwo odtwarzania jest sugerowane, brakujące albo sprzeczne

Bramka wydania

GPT-5.5 można uznać za osiągający parytet lub lepszy tylko wtedy, gdy scalony runtime jednocześnie przechodzi pakiet parytetu i regresje zgodności runtime z prawdą.

Wymagane wyniki:

brak zastoju na samym planie, gdy następne działanie narzędziowe jest jasne
brak fałszywego ukończenia bez rzeczywistego wykonania
brak nieprawidłowych wskazówek /elevated full
brak cichego porzucenia odtwarzania lub Compaction
metryki pakietu parytetu co najmniej tak silne jak uzgodniona linia bazowa Opus 4.6

Dla pierwszej wersji uprzęży bramka porównuje:

współczynnik ukończenia
współczynnik niezamierzonego zatrzymania
współczynnik prawidłowych wywołań narzędzi
liczbę fałszywych sukcesów

Dowody parytetu są celowo podzielone na dwie warstwy:

PR D dowodzi zachowania GPT-5.5 względem Opus 4.6 w tych samych scenariuszach za pomocą QA-lab
deterministyczne zestawy PR B dowodzą rzetelności uwierzytelniania, proxy, DNS i /elevated full poza uprzężą

Macierz celu i dowodów

Element bramki ukończenia	Właściciel PR	Źródło dowodów	Sygnał zaliczenia
GPT-5.5 nie zatrzymuje się już po planowaniu	PR A	`approval-turn-tool-followthrough` plus zestawy runtime PR A	tury zatwierdzenia wyzwalają rzeczywistą pracę albo jawny stan zablokowania
GPT-5.5 nie udaje już postępu ani fałszywego ukończenia narzędzia	PR A + PR D	wyniki scenariuszy raportu parytetu i liczba fałszywych sukcesów	brak podejrzanych wyników zaliczenia i brak ukończenia zawierającego wyłącznie komentarz
GPT-5.5 nie podaje już fałszywych wskazówek `/elevated full`	PR B	deterministyczne zestawy rzetelności	powody zablokowania i wskazówki pełnego dostępu pozostają zgodne z runtime
Awarie odtwarzania/żywotności pozostają jawne	PR C + PR D	zestawy cyklu życia/odtwarzania PR C plus `compaction-retry-mutating-tool`	praca modyfikująca zachowuje jawną niebezpieczność odtwarzania zamiast po cichu znikać
GPT-5.5 dorównuje Opus 4.6 lub go przewyższa w uzgodnionych metrykach	PR D	`qa-agentic-parity-report.md` i `qa-agentic-parity-summary.json`	to samo pokrycie scenariuszy i brak regresji w ukończeniu, zachowaniu zatrzymania lub prawidłowym użyciu narzędzi

Jak czytać werdykt parytetu

Użyj werdyktu w qa-agentic-parity-summary.json jako ostatecznej, możliwej do odczytu maszynowego decyzji dla pierwszego pakietu parytetu.

pass oznacza, że GPT-5.5 objął te same scenariusze co Opus 4.6 i nie pogorszył uzgodnionych metryk zbiorczych.
fail oznacza, że uruchomiła się co najmniej jedna twarda bramka: słabsze ukończenie, gorsze niezamierzone zatrzymania, słabsze prawidłowe użycie narzędzi, dowolny przypadek fałszywego sukcesu albo niezgodne pokrycie scenariuszy.
„wspólny/podstawowy problem CI” sam w sobie nie jest wynikiem parytetu. Jeśli szum CI poza PR D blokuje uruchomienie, werdykt powinien poczekać na czyste wykonanie w scalonym środowisku uruchomieniowym zamiast być wnioskowany z logów z okresu gałęzi.
Uwierzytelnianie, proxy, DNS i prawdomówność /elevated full nadal pochodzą z deterministycznych zestawów PR B, więc końcowa deklaracja wydania wymaga obu elementów: zaliczonego werdyktu parytetu PR D oraz zielonego pokrycia prawdomówności PR B.

Kto powinien włączyć `strict-agentic`

Używaj strict-agentic, gdy:

oczekuje się, że agent zadziała natychmiast, gdy następny krok jest oczywisty
GPT-5.5 lub modele z rodziny Codex są głównym środowiskiem uruchomieniowym
wolisz jawne stany zablokowania niż „pomocne” odpowiedzi ograniczone do podsumowania

Zachowaj domyślny kontrakt, gdy:

chcesz istniejącego luźniejszego zachowania
nie używasz modeli z rodziny GPT-5
testujesz prompty, a nie egzekwowanie w środowisku uruchomieniowym

Powiązane

Notatki opiekunów parytetu GPT-5.5 / Codex

# Co się zmieniło

# PR A: ścisłe agentowe wykonywanie

# PR B: zgodność runtime z prawdą

# PR C: poprawność wykonywania

# PR D: uprząż parytetu

# Dlaczego to poprawia GPT-5.5 w praktyce

# Przed i po dla użytkowników GPT-5.5

# Architektura

# Przepływ wydania

# Pakiet scenariuszy

# approval-turn-tool-followthrough

# model-switch-tool-continuity

# source-docs-discovery-report

# image-understanding-attachment

# compaction-retry-mutating-tool

# Macierz scenariuszy

# Bramka wydania

# Macierz celu i dowodów

# Jak czytać werdykt parytetu

# Kto powinien włączyć strict-agentic

# Powiązane