金沢工業大学情報工学科OBの鈴木大志さんが学部4年次に取り組んだ研究が情報処理学会論文誌に採録。
金沢工業大学情報工学科OBの鈴木大志さんが学部4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、金沢工業大学における学部4年次の学生の研究水準の高さが評価されたといえます。
【鈴木大志さんについて】
鈴木大志さんは金沢工業大学の併設校である国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。
2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。
そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。
【画像:https://kyodonewsprwire.jp/img/202402156603-O2-S1r6xD29】
鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ
(写真右から2番目)
【鈴木大志さんの研究の概要について】
声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。
身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。
近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。
こうした音声変換手法は扱う人数に応じて
(1) One-to-One
(2) Many-to-Many
(3) Any-to-Any
に大きく区分できます。
(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。
(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。
(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。
ゼロショット声質変換法では,多くの場合、
(1) 入力話者音声をメルスペクトログラムに変換し、
(2) 入力話者のメルスペクトログラムを出力話者のものに変換。
(3) 出力話者のメルスペクトログラムで音声信号を生成する。
という手順を踏みます。
この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。
この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。
【画像:https://kyodonewsprwire.jp/img/202402156603-O1-Mj1MIS46】
深層学習モデルをスペクトル包絡の変換にのみ適用することで GPUの演算量を削減し、リアルタイム変換を可能とした
深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。
さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。
※メルスペクトログラム
音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。
※スペクトル包絡
スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。
※GPU
特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。
論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」
執筆者:鈴木大志 鷹合大輔 中沢実
情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15
中川翔子、“ダブル神様”との誕生会に大歓喜「まさかこんな未来がくるなんて!」
箱根の温泉旅館で火災 女性従業員2人を搬送、命に別条なし
うつ病から再起期す姿話題 サカナクション山口一郎、バンド17周年に「これからも信念を持って」
別所哲也、増え続けるハラスメントへの対応に苦慮 ブラハラ、ハラハラ…「ありすぎて」
鬼越トマホーク金ちゃん「全員してると思う」必ず確認しては落胆するネット記事の見出し
橋下徹氏が一刀両断、国会議員のGW海外視察「ふざけるな」 活動内容と費用届け出義務なし問題視
台湾で人気のフェイシャルマスク「我的心機」が日本初上陸!
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
柏原崇(45)現在を調べてみた結果、相変わらずかっこよすぎた!
トークデスク、人工知能のイノベーターとして同社の地域における成長を加速させるべく、サイモン・ホロックス氏をアジア太平洋地域のリーダーに採用
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
大物炎上系ユーチューバー”衝撃の預金残高”公開「すげぇ」「エグい」驚きの声
水原一平容疑者 最高刑「懲役33年」トレンド入り 「人生詰んだ」「稀代の詐欺師」の声
「ふてほど」25歳女優“薔薇ブラ”でポロリ寸前?過激衣装に「見えちゃう」「刺激強すぎ」
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
水原一平容疑者、歯科治療で大谷翔平から930万円だまし取ったことも判明
米大物俳優、大谷翔平と2ショット公開しネット驚愕「夢のような写真」
元セクシー女優の漫画家、自身の「無痛分娩」の経験振り返り「数時間後には麻酔きれて…」
ベッキー「私のシーン ほとんどモザイクあり」自身”衝撃出演シーン”紹介
中学数学の全国統一模試1位の元アイドル、胸元あらわなグラビアショット公開「最高すぎ」の声
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
深夜のファミリーマート徘徊、必ず入っている「フエラムネのミニチュアおもちゃ付」を探し求めた結果……
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
完全にダマされた! 『ラヴィット!』あのちゃん“事故レベル”大暴走は『水ダウ』遠隔操作のしわざだった ネットも納得
ガーシー、またも綾野剛の暴露写真でネット歓喜「この写真見て笑っちゃう」
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
小澤征悦と再婚した桑子真帆アナ(34)黒い過去が流出、衝撃の過去にネット騒然
ガーシー、佐野ひなこの暴露を示唆でネット騒然「ファンだったのに」
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
中川翔子、“ダブル神様”との誕生会に大歓喜「まさかこんな未来がくるなんて!」
箱根の温泉旅館で火災 女性従業員2人を搬送、命に別条なし
うつ病から再起期す姿話題 サカナクション山口一郎、バンド17周年に「これからも信念を持って」
別所哲也、増え続けるハラスメントへの対応に苦慮 ブラハラ、ハラハラ…「ありすぎて」
鬼越トマホーク金ちゃん「全員してると思う」必ず確認しては落胆するネット記事の見出し
橋下徹氏が一刀両断、国会議員のGW海外視察「ふざけるな」 活動内容と費用届け出義務なし問題視
台湾で人気のフェイシャルマスク「我的心機」が日本初上陸!
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
柏原崇(45)現在を調べてみた結果、相変わらずかっこよすぎた!
トークデスク、人工知能のイノベーターとして同社の地域における成長を加速させるべく、サイモン・ホロックス氏をアジア太平洋地域のリーダーに採用