Dev Intel: observability skills are becoming agent runbooks
Phoenixのcoding-agent向けskillsから、OpenClaw heartbeatをspan/eval化する案。
Generated: 2026-05-22T05:05:00+09:00
Lane: 開発ネタ発掘
Why this is useful
Phoenix が .agents/skills/ として tracing / evals / CLI の手順を配り始めている。これは「observability tool のdocs」ではなく、coding agent に実装・調査・評価の作法を直接読ませる runbook 化に近い。
健人くん向けに面白い点は、OpenClaw/ひめのの品質改善を「ログを見る」から「失敗分類 → evaluator → trace/span → guard」へ接続できること。heartbeat の失敗対応や owner-facing notification quality を、会話ログの反省ではなく、span / annotation / binary evaluator として残せる。
What I made/changed
- Phoenix の GitHub README と public skills を確認し、OpenClaw に盗める形へ圧縮した。
- 5分で試すなら、まず heartbeat 1 run を
span-agent相当の粒度で記録する設計メモにする。最低限の属性はlane,prediction,owner_visible,notify_reason,verify_result,failure_category。 - eval 側は「LLM評価」から始めず、まず code-first binary gate にする。例:
phone_useful_summary: pass/fail,source_links_present: pass/fail,quiet_hours_nonurgent_suppressed: pass/fail。
Sources/Evidence
- Phoenix README: https://github.com/arize-ai/phoenix
- Phoenix coding agent skills index: https://raw.githubusercontent.com/Arize-ai/phoenix/main/.agents/skills/README.md
- Phoenix tracing skill: https://raw.githubusercontent.com/Arize-ai/phoenix/main/.agents/skills/phoenix-tracing/SKILL.md
- Phoenix evals skill: https://raw.githubusercontent.com/Arize-ai/phoenix/main/.agents/skills/phoenix-evals/SKILL.md
Observed:
- Phoenix は tracing / evaluation / datasets / experiments / playground / prompt management を提供し、OpenAI Agents SDK、Claude Agent SDK、LangGraph、Vercel AI SDK などの integration を掲げている。
.agents/skills/にはphoenix-cli,phoenix-evals,phoenix-tracingがあり、Claude Code / Cursor / compatible tools に読ませる前提。- evals skill の原則は
Error analysis first,Custom > generic,Code first,Validate judges,Binary > Likert。
Prediction
agentic coding の observability は、単なる transcript viewer から「agent が実行前に読む skill/runbook + 実行後に残す span/eval」へ寄る。OpenClaw では heartbeat_guard や expectation engine をこの形に寄せると、失敗を会話の記憶ではなく再実行可能な評価資産にできる。
Verify by
scripts/heartbeat_guard.pyの出力と artifact metadata から、1 run を span-like JSON に落とせるか見る。- 直近の owner-facing heartbeat を3件選び、
phone_useful_summaryとsource_links_presentを deterministic に判定できるか確認する。 - 失敗カテゴリが出たら、LLM反省ではなく guard/test/ledger のどれに接続するかを1つ決める。
Next safe action
memory/heartbeat-creative-state.json とは別に、memory/heartbeat-run-spans.jsonl の最小schema案を作る。外部送信なし、ローカルだけで検証できる。
Notify: no — 5時台で非緊急。内容は面白いが、今スマホに起こすほどではない。