動画制作で動画編集機能が追加されて、音声トラックのアップロードができるようになって、動画のイベントも多くなってきているので、このタイミングで、私がシコシコと非公開で個人的に楽しんでいたAI音声の研究を記事を書いていこうと思います。
今回記事にするのは、複数人の音声のブレンドした研究レポートです。本記事は私個人がAI音声を226作ほど非公開でトレーニングをしていくうちに感じた、個人的感想や、これはこうなんじゃないか?という予想などであるため、事実に基づいた情報というわけではなく、間違っているところもあるかもしれない、あやふやな情報であるという事を留意してください。
また、間違っているところなどはコメント欄等で訂正していただけると幸いです。

https://www.seaart.ai/ja/ai-audio/detail/cec976d010195d601c7d3980466ac2cc
↑今回は、こちらのAI音声「ミナ」のデータを使用して説明していきます。
音声準備
ではまず、音声を準備しましょう!
今回音声は、実験という事で10人分くらいの音源を使用します。
アップロードできる最長が300Sなので、一人当たり30Sぐらいの音声を用意します。
基本情報入力
では次に基本情報を入力していきます。

複数の音声に該当するタグがないため、今回は声優タグに設定しておきます。
サンプルは音声の確認のために長めの文章にしておきます。
音声をアップロード
それでは音声をアップロードしていきます。

総音声の長さは、一人の音声データを作る際は、音声トレーニングに表示されているおすすめは45Sとなっていますが、経験上45Sだと音源のセリフをそのまま読み上げたり、カタコトなしゃべり方をする場合が多いような感じがするので、最長の300Sのギリギリまでアップロードしています。
case1
実験:今回は、実験という事で、女性9人分男性1人の割合で、細かく分割したセリフで、男性のボイスが最も長くてサイズも大きくして、最後にアップロードします。
結果:女性のAI音声が生成され、アップロードされた音声の中盤あたりの特に長くもなく、サイズも大きくない音声がベースになっている感じがしました。このことから、音声の長さや、サイズの大きさとは関係なく、アップロードされた音声ファイル全体から一部分をベースに音声を生成していることがわかります。
case2
実験:次に、人数を減らして、女性4人分男性2人分の割合で、細かく分割したセリフで、男性のボイスが最も長くてサイズも大きくして、最後にアップロードします。
結果:女性のAI音声が生成され、アップロードされた音声の中盤あたりの特に長くもなく、サイズも大きくない音声がベースになっている感じがしました。このことから、割合で多いほうの中央の音声を生成しているか、アップロードされた音声の中から、ランダムに生成していることがわかります。
case3
実験:最後に、女性9人分男性1人の割合で、細かく分割したセリフで、先頭に男性の音声をアップロードして、男性のボイスが最も短くてサイズも小さくしてアップロードします。
結果:男性のAI音声が生成されました!以上の事から、アップロードされた順番の先頭の方の少し長めの音声が優先されているか、またはランダムに音声を生成していることがわかりました!!!!!!!実験は失敗だぁぁぁぁ!!!!!!デレデレッデ~🎶
という事でAI音声は、基本的にアップロードされたデータ、全体の音声同士を合成してるというわけではなく、もししていたとしてもそれは微々たるものであるという事がわかりました!!!!!!!!
今回の実験で、いろんな声を混ぜてオリジナルのAI音声を作るというのは、基本的には出来なさそうという事がわかりました!!!!!
















