← 一覧に戻る

chibabot Phase 3 — MCP拡張 + 画像読み取り

2026年3月4日 07:55 更新

一言でいうと

チバに「スレッド付き」で相談でき、画像の文字も読み取れるようになる

ここまでの流れ

Phase 1〜2 で、チバとの会話をスレッド(話題ごとの会話の部屋)で管理できる REST API(プログラム同士が会話する窓口)を10個作った。本番環境にデプロイ済みで、全エンドポイントの動作確認も完了している。

ただし、今のところこのAPIを使えるのは直接curlコマンドを叩く場合だけ。Claude Code の MCP(AIツールの共通規格)からは、まだ単発の質問しかできない。

Phase 3 で何が変わるか

1. MCP ツールが大幅に増える(1個 → 8個)

今まで MCP 経由では「チバに質問する」の1つしかなかった。Phase 3 で以下の機能が追加される:

ツールできること
チバに質問スレッド指定で過去の会話を踏まえた回答が可能に(既存を拡張)
スレッド作成新しい話題の部屋を作る
スレッド一覧自分のスレッドを確認する
スレッド更新タイトル変更・ピン留め・アーカイブ
スレッド削除不要なスレッドを消す(タイトル照合で誤削除防止)
メッセージ検索「前にチバに聞いたあれ」をキーワードで探す
会話エクスポートスレッドの会話をMarkdownやJSONで書き出す
画像テキスト抽出画像内の文字を読み取る(OCR

2. MCP リソース(読み取り専用データ)が3つ追加

MCP の「リソース」は、AIが自動的に参照できるデータのこと。Claude が「この人のスレッド一覧」や「特定スレッドの最近のやりとり」を、ツールを呼ばなくても把握できるようになる。

3. 認証の統合

BEFORE — 認証が2系統に分かれていた
MCP → 共有パスワード(全員同じ)で認証。誰がアクセスしたか区別できない
REST API → 個人トークン(ユーザーごとに違う)で認証
AFTER — 1つの認証に統合
MCP も REST API も同じ個人トークンで認証。誰のデータにアクセスしているか常に明確

これにより、MCP ツールが「あなた専用のスレッド」だけにアクセスできるようになる。他人のデータが見えてしまう心配がなくなる。

4. 画像の文字読み取り(OCR

Cloudflare の Workers AI(AIモデルをサーバー上で直接実行する仕組み)を使って、画像内のテキストを抽出する機能を追加する。日本語・英語に対応。

画像の送り方は2通り:

実装ステップ

1
Workers AI の有効化
設定ファイルにAIバインディング(サーバーとAIモデルの接続設定)を追加し、型定義を自動生成する
2
MCP 認証を個人トークンに切り替え
MCPの3つの受付窓口(/mcp, /sse, /messages)の認証方式を、REST APIと同じ個人トークン方式に統合する
3
MCP ツール8個 + リソース3個を実装
Phase 1-2 で作った D1(データベース)の関数をそのまま再利用して、MCPの薄いラッパー(中身は既存の機能を呼ぶだけの外側)として実装する
4
OCR エンドポイントを新設
画像読み取り専用の受付窓口を追加。Llama 3.2 Vision(Metaの画像理解AIモデル)を使用
5
テスト → デプロイ
ローカルで全ツールの動作確認後、本番環境にデプロイして最終検証

ポイント

破壊的変更あり: MCPの認証方式が変わるため、現在MCPを使っている場合は新しいトークンへの切り替えが必要。ただし、ローカルで動いている stdio 版(パソコン上で直接動かすタイプ)は影響なし。

トークンのスコープ(権限の範囲)は見送り: 「このトークンは読み取りだけ」「このトークンはOCRも使える」といった細かい権限管理は、今は不要なので実装しない(YAGNI原則 = 今必要なものだけ作る)。

MCP ツールは「薄いラッパー」: Phase 1-2 で作った D1 データベースの関数をそのまま呼ぶだけ。新しいロジックはほとんど書かない。これにより REST API と MCP で動作が完全に一致する。

📝 質問モード — テキストを選択してね
✓ 質問を送信しました