スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
国立研究開発法人情報通信研究機構(NICT)
ポイント
■ 高品質かつ高速に動作する21言語のニューラル音声合成技術を開発
■ CPUコア一つで1秒の音声をわずか0.1秒で高速合成(既存モデルの約8倍の速さ)することが可能
■ ネットワークに接続されていないスマートフォン上でテキスト入力からわずか0.5秒の高速生成を実現
■ 多言語音声翻訳やカーナビなどの音声アプリケーションへの導入に期待
国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー)、理事長: 徳田 英幸)は、ユニバーサルコミュニケーション研究所において、高品質かつ高速に動作する21言語のニューラル音声合成技術の開発に成功しました。本技術の開発により、CPUコア一つで1秒の音声をわずか0.1秒で高速合成することが可能となりました。これは既存モデルの約8倍の速さです。また、ネットワークに接続されていないミドルレンジスマートフォン端末上でテキスト入力からわずか0.5秒の高速生成が可能となりました(図1参照)。
また、開発した21言語の音声合成モデルは、NICTが運用しているスマートフォン用の多言語音声翻訳アプリVoiceTra(ボイストラ)のサーバに搭載され、一般公開されています。今後は、商用ライセンス等を通じて多言語音声翻訳やカーナビを始めとする様々な音声アプリケーションへの導入が期待されます。
なお、本成果は、2024年9月に、International Speech Communication Association (ISCA)が主催する国際会議INTERSPEECH 2024のShow &Tellにて発表されます。
【画像:https://kyodonewsprwire.jp/img/202406242584-O4-vl37aynG】
【動画:https://www.youtube.com/watch?v=gD8HqE4lcbw】
背景
NICTのユニバーサルコミュニケーション研究所では、言語の壁を超えた音声コミュニケーションを実現するために多言語音声翻訳技術の研究開発に取り組んでおり、研究成果を音声翻訳実証実験のために運用しているスマートフォン用音声翻訳アプリVoiceTraで一般公開するとともに、商用ライセンスを通じた社会実装を行っています。翻訳されたテキストを人間の声として読み上げるテキスト音声合成技術は、音声認識及び機械翻訳と同様に、多言語音声翻訳技術の実現に非常に重要です。テキスト音声合成の音質は、ニューラルネット技術の導入により近年飛躍的に向上し肉声に匹敵するほどとなりましたが、膨大な計算量が大きな課題であり、ネットワークに接続されていないスマートフォンでの合成は到底不可能であるという課題がありました。
また、NICTの今中長期計画では、多言語同時通訳技術の研究開発を行っていますが、同時通訳においては、話者の発話終了を待たずに次々と翻訳音声を出力する必要があるため、音声認識や機械翻訳と同様、テキスト音声合成の更なる高速化が求められています。
今回の成果
テキスト音声合成モデルは、入力テキストを中間特徴量へと変換する「音響モデル」と、中間特徴量を音声波形へと変換する「波形生成モデル」から構成されます。
ニューラル音声合成の「音響モデル」では、機械翻訳の分野や、音声認識やChatGPTを始めとする大規模言語モデル等にも幅広く使われているニューラルネット(Transformer型エンコーダ+Transformer型デコーダ)が主流でしたが、近年画像識別の分野で新たに使われ始めた高速・高性能なニューラルネット(ConvNeXt型エンコーダ+ConvNeXt型デコーダ)を音響モデルに導入し、従来方式と比較して、品質を損なわず3倍の高速化を達成しました[1]。
また、肉声に匹敵する音声を合成可能な従来の「波形生成モデル」(HiFi-GAN)を発展させる形で、信号処理方式[2-4]を学習可能なニューラルネットとして表現するモデル(MS-HiFi-GAN)を2021年に導入し、合成品質を損なわず合成速度を2倍にすることに成功しました[5]。そして、2023年には同モデル(MS-HiFi-GAN)を更に高速化するモデル(MS-FC-HiFi-GAN)の開発に成功し、従来方式(HiFi-GAN)と比較して、品質を損なわず合成速度を4倍にすることを実現しました[6,7]。
【画像:https://kyodonewsprwire.jp/img/202406242584-O2-ek3Aaw9F】
これらの成果の集大成として、上記で開発した「音響モデル(Transformer型エンコーダ+ConvNeXt型デコーダ)」と「波形生成モデル(MS-FC-HiFi-GAN)」を用いた新しい高速・高品質なニューラル音声合成モデルを開発しました(図2参照)。これにより、CPUコア一つで1秒の音声をわずか0.1秒で高速合成することが可能となりました。これは、既存モデルの約8倍の速さです。さらに、「波形生成モデル」のみを逐次合成する方式を実装することで(図3参照)、合成品質を一切損ねることなく、ネットワークに接続されていないミドルレンジスマートフォン端末上でも、テキスト入力からわずか0.5秒の高速生成が可能となりました。これにより、これまでのサーバ経由での合成が不要となり、インターネット通信を必要とせず、通信コストを抑えたスマートフォンやPC等での高品質ニューラル音声合成が可能となります。また、逐次合成処理により、多言語同時通訳においても翻訳テキストを即座に合成することが可能となりました。
また、2024年3月から、VoiceTraの21言語※の音声には、この音声合成技術が用いられ、一般公開されています。
※21言語: 日本語、英語、中国語、韓国語、タイ語、フランス語、インドネシア語、ベトナム語、スペイン語、ミャンマー語、フィリピン語、ブラジルポルトガル語、クメール語、ネパール語、モンゴル語、アラビア語、イタリア語、ウクライナ語、ドイツ語、ヒンディ語、ロシア語
本研究により開発した多言語合成音声は、2024年6月28日(金)~29日(土)のNICTオープンハウス2024における多言語同時通訳のデモ展示にて使用されます。
【画像:https://kyodonewsprwire.jp/img/202406242584-O3-D3Cns4N7】
今後の展望
今後は、商用ライセンスを通して、多言語音声翻訳やカーナビを始めとするスマートフォンアプリ等への社会実装を行います。
論文情報
掲載誌: Proceedings of INTERSPEECH 2024
論文名: Mobile PresenTra: NICT fast neural text-to-speech system on smartphones with incremental inference of MS-FC-HiFi-GAN for low-latency synthesis
著者: Takuma Okamoto, Yamato Ohtani, Hisashi Kawai
これまでの成果
[1] T. Okamoto, Y. Ohtani, T. Toda and H. Kawai, "ConvNeXt-TTS and ConvNeXt-VC: ConvNeXt-based fast end-to-end sequence-to-sequence text-to-speech and voice conversion," in Proc. ICASSP, Apr. 2024, pp. 12456–12460.
[2] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga and H. Kawai, "Subband WaveNet with overlapped single-sideband filterbanks," in Proc. ASRU, Dec. 2017, pp. 698–704.
[3] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga and H. Kawai, "An investigation of subband WaveNet vocoder covering entire audible frequency range with limited acoustic features," in Proc. ICASSP, Apr. 2018, pp. 5654–5658.
[4] T. Okamoto, T. Toda, Y. Shiga and H. Kawai, "Improving FFTNet vocoder with noise shaping and subband approaches," in Proc. SLT, Dec. 2018, pp. 304–311.
[5] T. Okamoto, T. Toda and H. Kawai, "Multi-stream HiFi-GAN with data-driven waveform decomposition," in Proc. ASRU, Dec. 2021, pp. 610–617.
[6] T. Okamoto, H. Yamashita, Y. Ohtani, T. Toda and H. Kawai, "WaveNeXt: ConvNeXt-based fast neural vocoder without iSTFT layer," in Proc. ASRU, Dec. 2023.
[7] H. Yamashita, T. Okamoto, R. Takashima, Y. Ohtani, T. Takiguchi, T. Toda and H. Kawai, "Fast neural speech waveform generative models with fully-connected layer-based upsampling," IEEE Access, vol. 12, pp. 31409–31421, 2024. (神戸大学研修員山下陽生の研修成果)
N党立花氏、南あわじ市長選に出馬表明 「斎藤氏へのいじめに対抗」
桂雀々さんの“妹”常盤貴子が追悼「笑ったなぁ またやりたかったなぁ 寂しいなぁ」
【ソフトバンク】リチャード、現状維持提示を保留 2軍2冠王も1軍出場機会求め「対話」続ける
花粉や大気汚染などアレルギーの原因をブロック「オサジ ディフェンスミスト」
大谷翔平MVP獲得を「ニューバランス」「バンテリン」「ECC」「ラプソード」「築地銀だこ」が祝福
与党が年収の壁「分離案」検討 住民税の控除を除外か 地方に配慮
ブリティッシュ・エアウェイズ、カーディフの整備施設を拡張 数百万ポンドを投資
ノンアルも買っとこ!ブラックフライデーでお得に「キリン グリーンズフリー」ノンアル市場で人気
【データ】大谷翔平3度目MVP獲得のワケ 困難な2要素が両立、真骨頂は「スクエアアップ率」
【ソフトバンク】山川穂高、来季は背番号5に 契約更改交渉後の会見で25からの変更を発表
クロちゃんを騙した「レイちゃま(小林レイミ)」の現在が別人すぎると話題に
二階堂ふみが結婚!?お相手が衝撃的過ぎてネット民「マジか・・・」
俳優・火野正平さん死去 75歳 腰を骨折し体調崩す
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
斎藤元彦・前知事の再選確実 兵庫県知事選、失職から返り咲き
3刷目の重版決定!榎原依那のファースト写真集「Inaism」から、完全未公開カットをご紹介♡
岡田将生が高畑充希との結婚発表
小池里奈「超むっっっっっちむち」美バスト輝く黒ブラジャー近影に称賛「色気が増してる」
三浦瑠璃氏、斎藤元彦氏再選に「一番の敗者は当然、マスコミです」と私見
「スケスケ水着美尻」35歳女芸人のセミヌード写真展が大阪でも12月開催決定「本当に最後」
クロちゃんを騙した「レイちゃま(小林レイミ)」の現在が別人すぎると話題に
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
二階堂ふみが結婚!?お相手が衝撃的過ぎてネット民「マジか・・・」
四千頭身、テレビから消えた理由を明かすも批判殺到「人のせいにするな」
大谷翔平の「盗塁」巡り訴訟、ドジャースなどが訴えられる 50、51個目の盗塁が対象
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
父が再婚の丸山隆平(36)現在の家族関係がとんでもないことになっていたと話題に
3時のヒロイン福田麻貴(32)は元アイドルだった!昔の姿がかわいいとヲタク歓喜
たぬかな、「あのチビやろ?」迷惑系黒人YouTuberへの苦言が物議
多部未華子(30)結婚の裏事情あまりにも恐ろしすぎると話題に!
N党立花氏、南あわじ市長選に出馬表明 「斎藤氏へのいじめに対抗」
桂雀々さんの“妹”常盤貴子が追悼「笑ったなぁ またやりたかったなぁ 寂しいなぁ」
【ソフトバンク】リチャード、現状維持提示を保留 2軍2冠王も1軍出場機会求め「対話」続ける
花粉や大気汚染などアレルギーの原因をブロック「オサジ ディフェンスミスト」
大谷翔平MVP獲得を「ニューバランス」「バンテリン」「ECC」「ラプソード」「築地銀だこ」が祝福
与党が年収の壁「分離案」検討 住民税の控除を除外か 地方に配慮
ブリティッシュ・エアウェイズ、カーディフの整備施設を拡張 数百万ポンドを投資
ノンアルも買っとこ!ブラックフライデーでお得に「キリン グリーンズフリー」ノンアル市場で人気
【データ】大谷翔平3度目MVP獲得のワケ 困難な2要素が両立、真骨頂は「スクエアアップ率」
【ソフトバンク】山川穂高、来季は背番号5に 契約更改交渉後の会見で25からの変更を発表