← 一覧に戻る

ボイスセルフモデリング — YouTube動画の声を自分の声に差し替える

2026年3月2日 21:54 更新

一言でいうと

上手い人の声かけ動画の「声」だけを自分に差し替え、脳に「自分はこう喋れる」と学習させるツール

なぜこれが必要なのか

心理学の研究で、「自分の声で理想の行動を聞くと、実際のパフォーマンスが上がる」ことが科学的に確認されている。これをFeedforward Self-Modeling(フィードフォワード・セルフモデリング = まだやったことがない行動を、自分ができるかのように脳にシミュレーションさせる手法)と呼ぶ。

2024年の研究では、Voice Cloning(ボイスクローニング = AIで特定の人の声を再現する技術)で自分の声を使って「理想の自分」の発話を聞いた人は、自信・モチベーション・レジリエンスがテキストを読むだけの場合より大幅に向上した。

具体的には、杉崎PUAの声かけ動画を使って「自分が堂々と声かけている音声」を作り、出撃前に聞くことで、現場で声が出やすくなることを狙う。

どうやるのか

YouTube動画の音声を分解して、男性の声だけを自分の声に差し替え、元のBGMや女性の声と再合成する。6つのステップで構成される。

1 YouTube から音声をダウンロード
yt-dlp(ワイティーディーエルピー = YouTubeなどの動画サイトから音声・動画をダウンロードするツール)を使って、動画の音声だけをWAVファイル(非圧縮の高音質音声ファイル)として取り出す。
2 BGM と人の声を分離する
Demucs(デミュークス = Meta社が開発した音源分離AI。音楽と声が混ざった音声から「人の声だけ」「BGMだけ」を取り出せる)で、ボーカルトラック(声だけ)とBGMトラック(音楽だけ)に分ける。これをやらないとBGMが邪魔で次のステップが上手くいかない。
3 文字起こし + 誰が喋っているか特定
WhisperX(ウィスパーエックス = OpenAIのWhisper音声認識をベースに、話者分離と単語タイムスタンプを追加した強化版)を使い、「何を」「誰が」「いつ」喋ったかを全て自動で記録する。話者分離(スピーカーダイアライゼーション = 音声の中で「ここはAさん、ここはBさん」と自動でラベル付けする技術)により、男性と女性の発言を区別できる。
4 男性の声を特定する(手動確認)
各話者のサンプル音声を再生して、どれが差し替えたい男性の声かを自分で指定する。AIだけでは「どの声を差し替えたいか」は判断できないため、ここだけ人間の判断が入る。
5 自分の声で再生成する
Qwen3-TTS(チウェンスリーティーティーエス = アリババが開発した音声合成AI。たった3秒の参照音声から、その人の声で任意のテキストを読み上げられる)に、自分の声のサンプルと男性の発話テキストを渡して「自分の声で同じ内容を喋った音声」を生成する。生成した音声の長さを元の発話と揃えることで、会話のテンポ感を保つ。
6 全部を合体させる
差し替えた自分の声 + 元の女性の声 + BGM を元のタイムライン通りに合成する。セグメント(発話の区切り)の境界にクロスフェード(音がふわっと切り替わる処理)をかけて、継ぎ目を自然にする。

ハイブリッドアプローチの工夫

単純に文字を読み上げるだけだと、元の話者の「自信に満ちた話し方」が失われてしまう。そこで以下の工夫を入れる:

使うツール一覧

ステップツールひとことで
音声取得yt-dlpYouTubeから音声をダウンロード
BGM分離Demucs v4Meta社製。声と音楽を分ける
文字起こしWhisperX誰が何をいつ喋ったか全部記録
声の生成Qwen3-TTS 0.6B3秒の音声サンプルで声をクローン
音声操作pydub + ffmpeg音声ファイルの切り貼り・合成

事前に準備するもの

1. 自分の声の録音(5〜10秒)

iPhoneのボイスメモで、静かな場所で自然に一文を読み上げる。例:「こんにちは、今日はいい天気ですね。ちょっとお話いいですか?」作り込まず普段通りの声でOK。録音後AirDropでMacに転送。

2. HuggingFace アカウント(無料)

HuggingFace(ハギングフェイス = AIモデルの共有プラットフォーム。GitHubのAIモデル版)でアカウントを作り、アクセストークン(外部ツールからログインするための鍵)を取得する。WhisperXの話者分離機能がこのトークンを要求する。

ポイント

処理時間の目安:5分の動画で合計15〜20分程度(M1 Mac、CPUモード)。重い処理だがバックグラウンドで走るので、待ってる間に他のことができる。

科学的根拠:Feedforward Self-Modeling(2024年の60人規模の実験)、AI-Cloneによるスキル向上(2025年のScienceDirect論文)、Mental Practiceのメタ分析(50年分)の3つが裏付け。テキストを読むより「自分の声で聞く」方が効果が高いことが一貫して確認されている。

限界:現在のAI音声は、元の話者の「自信に満ちた声の出し方」を100%再現はできない。しかし「自分の声で声かけシーンを聞く」こと自体に大きな効果があるので、完璧でなくても十分に機能する。

質問モード -- テキストを選択してね
質問を送信しました