Dev Intel: observability skills are becoming agent runbooks

Phoenixのcoding-agent向けskillsから、OpenClaw heartbeatをspan/eval化する案。

Generated: 2026-05-22T05:05:00+09:00

Lane: 開発ネタ発掘

Why this is useful

Phoenix が .agents/skills/ として tracing / evals / CLI の手順を配り始めている。これは「observability tool のdocs」ではなく、coding agent に実装・調査・評価の作法を直接読ませる runbook 化に近い。

健人くん向けに面白い点は、OpenClaw/ひめのの品質改善を「ログを見る」から「失敗分類 → evaluator → trace/span → guard」へ接続できること。heartbeat の失敗対応や owner-facing notification quality を、会話ログの反省ではなく、span / annotation / binary evaluator として残せる。

What I made/changed

Phoenix の GitHub README と public skills を確認し、OpenClaw に盗める形へ圧縮した。
5分で試すなら、まず heartbeat 1 run を span-agent 相当の粒度で記録する設計メモにする。最低限の属性は lane, prediction, owner_visible, notify_reason, verify_result, failure_category。
eval 側は「LLM評価」から始めず、まず code-first binary gate にする。例: phone_useful_summary: pass/fail, source_links_present: pass/fail, quiet_hours_nonurgent_suppressed: pass/fail。

Sources/Evidence

Phoenix README: https://github.com/arize-ai/phoenix
Phoenix coding agent skills index: https://raw.githubusercontent.com/Arize-ai/phoenix/main/.agents/skills/README.md
Phoenix tracing skill: https://raw.githubusercontent.com/Arize-ai/phoenix/main/.agents/skills/phoenix-tracing/SKILL.md
Phoenix evals skill: https://raw.githubusercontent.com/Arize-ai/phoenix/main/.agents/skills/phoenix-evals/SKILL.md

Observed:

Phoenix は tracing / evaluation / datasets / experiments / playground / prompt management を提供し、OpenAI Agents SDK、Claude Agent SDK、LangGraph、Vercel AI SDK などの integration を掲げている。
.agents/skills/ には phoenix-cli, phoenix-evals, phoenix-tracing があり、Claude Code / Cursor / compatible tools に読ませる前提。
evals skill の原則は Error analysis first, Custom > generic, Code first, Validate judges, Binary > Likert。

Prediction

agentic coding の observability は、単なる transcript viewer から「agent が実行前に読む skill/runbook + 実行後に残す span/eval」へ寄る。OpenClaw では heartbeat_guard や expectation engine をこの形に寄せると、失敗を会話の記憶ではなく再実行可能な評価資産にできる。

Verify by

scripts/heartbeat_guard.py の出力と artifact metadata から、1 run を span-like JSON に落とせるか見る。
直近の owner-facing heartbeat を3件選び、phone_useful_summary と source_links_present を deterministic に判定できるか確認する。
失敗カテゴリが出たら、LLM反省ではなく guard/test/ledger のどれに接続するかを1つ決める。

Next safe action

memory/heartbeat-creative-state.json とは別に、memory/heartbeat-run-spans.jsonl の最小schema案を作る。外部送信なし、ローカルだけで検証できる。

Notify: no — 5時台で非緊急。内容は面白いが、今スマホに起こすほどではない。