「合成音声技術」の版間の差分

提供:作業療法大百科事典OtWiki
(ページの作成:「商業的にはVocaloidで成功し、その後の系譜は現在まで続いている。 また、youtube界隈でも現役のsoftalkなども合成音声技術のひ…」)
 
 
(同じ利用者による、間の1版が非表示)
7行目: 7行目:
短い音声で、人の声を合成できるようになりつつある。
短い音声で、人の声を合成できるようになりつつある。


<blockqoute>Meta AIは16日、音声用ジェネレーティブAIモデル「Voicebox」を発表した。音声やテキストを入力して、音声合成やオーディオクリップの作成、ノイズ除去、コンテンツ編集、スタイル変換(Style Transfer)、多様な音声でのサンプル生成などに対応する。
<blockquote>Meta AIは16日、音声用ジェネレーティブAIモデル「Voicebox」を発表した。音声やテキストを入力して、音声合成やオーディオクリップの作成、ノイズ除去、コンテンツ編集、スタイル変換(Style Transfer)、多様な音声でのサンプル生成などに対応する。


Voiceboxでは、トレーニングデータを使わずに、収録した音声と補足する書き起こしから学習するアプローチを採用。Flow Matchingと呼ばれる手法により、音声合成において、最新の英語モデルVALL-Eを、明瞭度と音声類似度の両方で上回るほか、20倍高速化しているという。<cite>[https://www.watch.impress.co.jp/docs/news/1509564.html Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成]<cite/><blockqoute>
Voiceboxでは、トレーニングデータを使わずに、収録した音声と補足する書き起こしから学習するアプローチを採用。Flow Matchingと呼ばれる手法により、音声合成において、最新の英語モデルVALL-Eを、明瞭度と音声類似度の両方で上回るほか、20倍高速化しているという。<cite>[https://www.watch.impress.co.jp/docs/news/1509564.html Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成]<cite/></blockquote>


人の声は、その人かどうかを判別する材料として用いられることから、現時点ではVoiceboxのモデルやコードの一般公開は行なわないとしている。
人の声は、その人かどうかを判別する材料として用いられることから、現時点ではVoiceboxのモデルやコードの一般公開は行なわないとしている。

2023年8月31日 (木) 01:44時点における最新版

商業的にはVocaloidで成功し、その後の系譜は現在まで続いている。

また、youtube界隈でも現役のsoftalkなども合成音声技術のひとつである。

AIとのマリアージュ

短い音声で、人の声を合成できるようになりつつある。

Meta AIは16日、音声用ジェネレーティブAIモデル「Voicebox」を発表した。音声やテキストを入力して、音声合成やオーディオクリップの作成、ノイズ除去、コンテンツ編集、スタイル変換(Style Transfer)、多様な音声でのサンプル生成などに対応する。 Voiceboxでは、トレーニングデータを使わずに、収録した音声と補足する書き起こしから学習するアプローチを採用。Flow Matchingと呼ばれる手法により、音声合成において、最新の英語モデルVALL-Eを、明瞭度と音声類似度の両方で上回るほか、20倍高速化しているという。Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成

人の声は、その人かどうかを判別する材料として用いられることから、現時点ではVoiceboxのモデルやコードの一般公開は行なわないとしている。