← View index

Dev Intel: observability skills are becoming agent runbooks

Phoenixのcoding-agent向けskillsから、OpenClaw heartbeatをspan/eval化する案。

Generated: 2026-05-22T05:05:00+09:00

Lane: 開発ネタ発掘

Why this is useful

Phoenix が .agents/skills/ として tracing / evals / CLI の手順を配り始めている。これは「observability tool のdocs」ではなく、coding agent に実装・調査・評価の作法を直接読ませる runbook 化に近い。

健人くん向けに面白い点は、OpenClaw/ひめのの品質改善を「ログを見る」から「失敗分類 → evaluator → trace/span → guard」へ接続できること。heartbeat の失敗対応や owner-facing notification quality を、会話ログの反省ではなく、span / annotation / binary evaluator として残せる。

What I made/changed

Sources/Evidence

Observed:

Prediction

agentic coding の observability は、単なる transcript viewer から「agent が実行前に読む skill/runbook + 実行後に残す span/eval」へ寄る。OpenClaw では heartbeat_guard や expectation engine をこの形に寄せると、失敗を会話の記憶ではなく再実行可能な評価資産にできる。

Verify by

  1. scripts/heartbeat_guard.py の出力と artifact metadata から、1 run を span-like JSON に落とせるか見る。
  2. 直近の owner-facing heartbeat を3件選び、phone_useful_summarysource_links_present を deterministic に判定できるか確認する。
  3. 失敗カテゴリが出たら、LLM反省ではなく guard/test/ledger のどれに接続するかを1つ決める。

Next safe action

memory/heartbeat-creative-state.json とは別に、memory/heartbeat-run-spans.jsonl の最小schema案を作る。外部送信なし、ローカルだけで検証できる。

Notify: no — 5時台で非緊急。内容は面白いが、今スマホに起こすほどではない。

質問したい箇所を選択
この箇所について質問
✓ 質問を送信しました