← 一覧に戻る
ボイスセルフモデリング — YouTube動画の声を自分の声に差し替える
2026年3月2日 21:54 更新
一言でいうと
上手い人の声かけ動画の「声」だけを自分に差し替え、脳に「自分はこう喋れる」と学習させるツール
なぜこれが必要なのか
心理学の研究で、「自分の声で理想の行動を聞くと、実際のパフォーマンスが上がる」ことが科学的に確認されている。これをFeedforward Self-Modeling(フィードフォワード・セルフモデリング = まだやったことがない行動を、自分ができるかのように脳にシミュレーションさせる手法)と呼ぶ。
2024年の研究では、Voice Cloning(ボイスクローニング = AIで特定の人の声を再現する技術)で自分の声を使って「理想の自分」の発話を聞いた人は、自信・モチベーション・レジリエンスがテキストを読むだけの場合より大幅に向上した。
具体的には、杉崎PUAの声かけ動画を使って「自分が堂々と声かけている音声」を作り、出撃前に聞くことで、現場で声が出やすくなることを狙う。
どうやるのか
YouTube動画の音声を分解して、男性の声だけを自分の声に差し替え、元のBGMや女性の声と再合成する。6つのステップで構成される。
1
YouTube から音声をダウンロード
yt-dlp(ワイティーディーエルピー = YouTubeなどの動画サイトから音声・動画をダウンロードするツール)を使って、動画の音声だけをWAVファイル(非圧縮の高音質音声ファイル)として取り出す。
2
BGM と人の声を分離する
Demucs(デミュークス = Meta社が開発した音源分離AI。音楽と声が混ざった音声から「人の声だけ」「BGMだけ」を取り出せる)で、ボーカルトラック(声だけ)とBGMトラック(音楽だけ)に分ける。これをやらないとBGMが邪魔で次のステップが上手くいかない。
3
文字起こし + 誰が喋っているか特定
WhisperX(ウィスパーエックス = OpenAIのWhisper音声認識をベースに、話者分離と単語タイムスタンプを追加した強化版)を使い、「何を」「誰が」「いつ」喋ったかを全て自動で記録する。話者分離(スピーカーダイアライゼーション = 音声の中で「ここはAさん、ここはBさん」と自動でラベル付けする技術)により、男性と女性の発言を区別できる。
4
男性の声を特定する(手動確認)
各話者のサンプル音声を再生して、どれが差し替えたい男性の声かを自分で指定する。AIだけでは「どの声を差し替えたいか」は判断できないため、ここだけ人間の判断が入る。
5
自分の声で再生成する
Qwen3-TTS(チウェンスリーティーティーエス = アリババが開発した音声合成AI。たった3秒の参照音声から、その人の声で任意のテキストを読み上げられる)に、自分の声のサンプルと男性の発話テキストを渡して「自分の声で同じ内容を喋った音声」を生成する。生成した音声の長さを元の発話と揃えることで、会話のテンポ感を保つ。
6
全部を合体させる
差し替えた自分の声 + 元の女性の声 + BGM を元のタイムライン通りに合成する。セグメント(発話の区切り)の境界にクロスフェード(音がふわっと切り替わる処理)をかけて、継ぎ目を自然にする。
ハイブリッドアプローチの工夫
単純に文字を読み上げるだけだと、元の話者の「自信に満ちた話し方」が失われてしまう。そこで以下の工夫を入れる:
- 発話速度マッチング:元の音声の「間」を再現するために、生成した音声の長さを元のセグメントに合わせて伸縮させる(ピッチは変えずに速度だけ調整)
- 無音パターン保持:元の音声で沈黙があった箇所は、差し替え後も同じタイミングで沈黙を入れる
- テキストのニュアンス反映:Qwen3-TTSはテキストの意味から自動的にトーンや感情を調整する機能があるので、声かけの堂々とした雰囲気がある程度再現される
使うツール一覧
| ステップ | ツール | ひとことで |
| 音声取得 | yt-dlp | YouTubeから音声をダウンロード |
| BGM分離 | Demucs v4 | Meta社製。声と音楽を分ける |
| 文字起こし | WhisperX | 誰が何をいつ喋ったか全部記録 |
| 声の生成 | Qwen3-TTS 0.6B | 3秒の音声サンプルで声をクローン |
| 音声操作 | pydub + ffmpeg | 音声ファイルの切り貼り・合成 |
事前に準備するもの
1. 自分の声の録音(5〜10秒)
iPhoneのボイスメモで、静かな場所で自然に一文を読み上げる。例:「こんにちは、今日はいい天気ですね。ちょっとお話いいですか?」作り込まず普段通りの声でOK。録音後AirDropでMacに転送。
2. HuggingFace アカウント(無料)
HuggingFace(ハギングフェイス = AIモデルの共有プラットフォーム。GitHubのAIモデル版)でアカウントを作り、アクセストークン(外部ツールからログインするための鍵)を取得する。WhisperXの話者分離機能がこのトークンを要求する。
ポイント
処理時間の目安:5分の動画で合計15〜20分程度(M1 Mac、CPUモード)。重い処理だがバックグラウンドで走るので、待ってる間に他のことができる。
科学的根拠:Feedforward Self-Modeling(2024年の60人規模の実験)、AI-Cloneによるスキル向上(2025年のScienceDirect論文)、Mental Practiceのメタ分析(50年分)の3つが裏付け。テキストを読むより「自分の声で聞く」方が効果が高いことが一貫して確認されている。
限界:現在のAI音声は、元の話者の「自信に満ちた声の出し方」を100%再現はできない。しかし「自分の声で声かけシーンを聞く」こと自体に大きな効果があるので、完璧でなくても十分に機能する。