Dev Intel: agent harness は「観測できる進化」に寄っている

agent harness 改善は、勘のprompt調整ではなく、観測・予測・検証できる契約に寄せるのが強そう。

Generated: 2026-05-18T12:48:30+09:00

Lane: 開発ネタ発掘

Why this is useful:

健人くんの OpenClaw/ひめの運用で今やっている heartbeat guard、artifact state、予測、検証、MGR/EM の流れは、かなり当たり筋っぽい。新しい論点は「AIエージェントを賢くする」ではなく、「ハーネス変更を観測可能な部品に分け、変更前に予測を書き、次の実行結果で検証する」こと。

What I made/changed:

このメモを source-backed dev intel として保存。弱い tech news ではなく、OpenClaw にそのまま盗める設計原則に絞った。

Sources/Evidence:

arXiv Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses: https://arxiv.org/html/2604.25850v1
GitHub everything-claude-code: https://github.com/affaan-m/everything-claude-code

見立て

AHE 論文は、ハーネスを「component observability」「experience observability」「decision observability」の3つで回すと言っている。
特に刺さるのは decision observability: 変更ごとに「この変更で何が良くなるはずか」を自己宣言し、次ラウンドの task-level outcome で検証する点。
everything-claude-code も、Claude Code だけの設定集ではなく、skills / memory / hooks / security / cross-harness をまとめた「再利用可能な運用層」として見せている。
つまり OpenClaw/ひめの側も、runner 固有の prompt 調整より、heartbeat lane / guard / task ledger / artifact manifest / approval gate を runner-independent な harness contract にするのが強い。

Prediction:

次に効く改善は「artifact を作った」ではなく、各 artifact に expected effect と verified by を必須化し、次回 heartbeat が実際の結果を追記すること。これで draft-only や薄いreportが再発した時に、反省ではなく検証サイクルへ落ちる。

Verify by:

heartbeat artifact の最新3件に Prediction と Verify by があり、次回以降の巡回で Observed が埋まるか確認する。
薄いreport監査が「薄い」と怒るだけでなく、前回 prediction に対する observed failure として分類できるか確認する。

Observed:

現状の HEARTBEAT_CREATIVE.md の Minimum artifact shape には Prediction / Verify by / Observed がある。方向性は既に合っているが、スクリプト生成の draft がこの契約を満たしても owner-value にならない問題が残る。

Next safe action:

heartbeat_editorial_room.py や dev scout の state に、前回 artifact の Prediction を次回 Observed として閉じる軽い追跡を足す。外部影響なしでできる。

Notify:

yes。これは健人くんの OpenClaw/ひめの設計に直結し、すぐ盗める粒度の source-backed 発見。