ボイスセルフモデリング — YouTube動画の声を自分の声に差し替える

2026年3月2日 21:54 更新

一言でいうと

上手い人の声かけ動画の「声」だけを自分に差し替え、脳に「自分はこう喋れる」と学習させるツール

なぜこれが必要なのか

心理学の研究で、「自分の声で理想の行動を聞くと、実際のパフォーマンスが上がる」ことが科学的に確認されている。これをFeedforward Self-Modeling（フィードフォワード・セルフモデリング = まだやったことがない行動を、自分ができるかのように脳にシミュレーションさせる手法）と呼ぶ。

2024年の研究では、Voice Cloning（ボイスクローニング = AIで特定の人の声を再現する技術）で自分の声を使って「理想の自分」の発話を聞いた人は、自信・モチベーション・レジリエンスがテキストを読むだけの場合より大幅に向上した。

具体的には、杉崎PUAの声かけ動画を使って「自分が堂々と声かけている音声」を作り、出撃前に聞くことで、現場で声が出やすくなることを狙う。

どうやるのか

YouTube動画の音声を分解して、男性の声だけを自分の声に差し替え、元のBGMや女性の声と再合成する。6つのステップで構成される。

1 YouTube から音声をダウンロード

yt-dlp（ワイティーディーエルピー = YouTubeなどの動画サイトから音声・動画をダウンロードするツール）を使って、動画の音声だけをWAVファイル（非圧縮の高音質音声ファイル）として取り出す。

2 BGM と人の声を分離する

Demucs（デミュークス = Meta社が開発した音源分離AI。音楽と声が混ざった音声から「人の声だけ」「BGMだけ」を取り出せる）で、ボーカルトラック（声だけ）とBGMトラック（音楽だけ）に分ける。これをやらないとBGMが邪魔で次のステップが上手くいかない。

3 文字起こし + 誰が喋っているか特定

WhisperX（ウィスパーエックス = OpenAIのWhisper音声認識をベースに、話者分離と単語タイムスタンプを追加した強化版）を使い、「何を」「誰が」「いつ」喋ったかを全て自動で記録する。話者分離（スピーカーダイアライゼーション = 音声の中で「ここはAさん、ここはBさん」と自動でラベル付けする技術）により、男性と女性の発言を区別できる。

4 男性の声を特定する（手動確認）

各話者のサンプル音声を再生して、どれが差し替えたい男性の声かを自分で指定する。AIだけでは「どの声を差し替えたいか」は判断できないため、ここだけ人間の判断が入る。

5 自分の声で再生成する

Qwen3-TTS（チウェンスリーティーティーエス = アリババが開発した音声合成AI。たった3秒の参照音声から、その人の声で任意のテキストを読み上げられる）に、自分の声のサンプルと男性の発話テキストを渡して「自分の声で同じ内容を喋った音声」を生成する。生成した音声の長さを元の発話と揃えることで、会話のテンポ感を保つ。

6 全部を合体させる

差し替えた自分の声 + 元の女性の声 + BGM を元のタイムライン通りに合成する。セグメント（発話の区切り）の境界にクロスフェード（音がふわっと切り替わる処理）をかけて、継ぎ目を自然にする。

ハイブリッドアプローチの工夫

単純に文字を読み上げるだけだと、元の話者の「自信に満ちた話し方」が失われてしまう。そこで以下の工夫を入れる：

発話速度マッチング：元の音声の「間」を再現するために、生成した音声の長さを元のセグメントに合わせて伸縮させる（ピッチは変えずに速度だけ調整）
無音パターン保持：元の音声で沈黙があった箇所は、差し替え後も同じタイミングで沈黙を入れる
テキストのニュアンス反映：Qwen3-TTSはテキストの意味から自動的にトーンや感情を調整する機能があるので、声かけの堂々とした雰囲気がある程度再現される

使うツール一覧

ステップ	ツール	ひとことで
音声取得	yt-dlp	YouTubeから音声をダウンロード
BGM分離	Demucs v4	Meta社製。声と音楽を分ける
文字起こし	WhisperX	誰が何をいつ喋ったか全部記録
声の生成	Qwen3-TTS 0.6B	3秒の音声サンプルで声をクローン
音声操作	pydub + ffmpeg	音声ファイルの切り貼り・合成

事前に準備するもの

1. 自分の声の録音（5〜10秒）

iPhoneのボイスメモで、静かな場所で自然に一文を読み上げる。例：「こんにちは、今日はいい天気ですね。ちょっとお話いいですか？」作り込まず普段通りの声でOK。録音後AirDropでMacに転送。

2. HuggingFace アカウント（無料）

HuggingFace（ハギングフェイス = AIモデルの共有プラットフォーム。GitHubのAIモデル版）でアカウントを作り、アクセストークン（外部ツールからログインするための鍵）を取得する。WhisperXの話者分離機能がこのトークンを要求する。

ポイント

処理時間の目安：5分の動画で合計15〜20分程度（M1 Mac、CPUモード）。重い処理だがバックグラウンドで走るので、待ってる間に他のことができる。

科学的根拠：Feedforward Self-Modeling（2024年の60人規模の実験）、AI-Cloneによるスキル向上（2025年のScienceDirect論文）、Mental Practiceのメタ分析（50年分）の3つが裏付け。テキストを読むより「自分の声で聞く」方が効果が高いことが一貫して確認されている。

限界：現在のAI音声は、元の話者の「自信に満ちた声の出し方」を100%再現はできない。しかし「自分の声で声かけシーンを聞く」こと自体に大きな効果があるので、完璧でなくても十分に機能する。