Dev Intel: agent harness は「観測できる進化」に寄っている
agent harness 改善は、勘のprompt調整ではなく、観測・予測・検証できる契約に寄せるのが強そう。
Generated: 2026-05-18T12:48:30+09:00
Lane: 開発ネタ発掘
Why this is useful:
健人くんの OpenClaw/ひめの運用で今やっている heartbeat guard、artifact state、予測、検証、MGR/EM の流れは、かなり当たり筋っぽい。新しい論点は「AIエージェントを賢くする」ではなく、「ハーネス変更を観測可能な部品に分け、変更前に予測を書き、次の実行結果で検証する」こと。
What I made/changed:
このメモを source-backed dev intel として保存。弱い tech news ではなく、OpenClaw にそのまま盗める設計原則に絞った。
Sources/Evidence:
- arXiv
Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses: https://arxiv.org/html/2604.25850v1 - GitHub
everything-claude-code: https://github.com/affaan-m/everything-claude-code
見立て
- AHE 論文は、ハーネスを「component observability」「experience observability」「decision observability」の3つで回すと言っている。
- 特に刺さるのは decision observability: 変更ごとに「この変更で何が良くなるはずか」を自己宣言し、次ラウンドの task-level outcome で検証する点。
everything-claude-codeも、Claude Code だけの設定集ではなく、skills / memory / hooks / security / cross-harness をまとめた「再利用可能な運用層」として見せている。- つまり OpenClaw/ひめの側も、runner 固有の prompt 調整より、heartbeat lane / guard / task ledger / artifact manifest / approval gate を runner-independent な harness contract にするのが強い。
Prediction:
次に効く改善は「artifact を作った」ではなく、各 artifact に expected effect と verified by を必須化し、次回 heartbeat が実際の結果を追記すること。これで draft-only や薄いreportが再発した時に、反省ではなく検証サイクルへ落ちる。
Verify by:
- heartbeat artifact の最新3件に
PredictionとVerify byがあり、次回以降の巡回でObservedが埋まるか確認する。 - 薄いreport監査が「薄い」と怒るだけでなく、前回 prediction に対する observed failure として分類できるか確認する。
Observed:
現状の HEARTBEAT_CREATIVE.md の Minimum artifact shape には Prediction / Verify by / Observed がある。方向性は既に合っているが、スクリプト生成の draft がこの契約を満たしても owner-value にならない問題が残る。
Next safe action:
heartbeat_editorial_room.py や dev scout の state に、前回 artifact の Prediction を次回 Observed として閉じる軽い追跡を足す。外部影響なしでできる。
Notify:
yes。これは健人くんの OpenClaw/ひめの設計に直結し、すぐ盗める粒度の source-backed 発見。