国際高専OBの鈴木大志さんが金沢工業大学4年次に取り組んだ研究が 情報処理学会論文誌に採録。
2024年2月15日
学校法人金沢工業大学
【表:https://kyodonewsprwire.jp/prwfile/release/M103034/202402156615/_prw_OT1fl_QktqnZ3C.png】
国際高等専門学校卒業生の鈴木大志さんが金沢工業大学情報工学科4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、国際高専4年生、5年生の2年間と金沢工業大学3年次、4年次の2年間の計4年間、一貫してAIに取り組んできた鈴木さんの研究水準の高さが評価されたといえます。
【鈴木大志さんについて】
鈴木大志さんは国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。
2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。
そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。
【画像:https://kyodonewsprwire.jp/img/202402156615-O1-4fuTK1xA】
鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ
(写真右から2番目)
【鈴木大志さんの研究の概要について】
声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。
身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。
近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。
こうした音声変換手法は扱う人数に応じて
(1) One-to-One
(2) Many-to-Many
(3) Any-to-Any
に大きく区分できます。
(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。
(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。
(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。
ゼロショット声質変換法では,多くの場合、
(1) 入力話者音声をメルスペクトログラムに変換し、
(2) 入力話者のメルスペクトログラムを出力話者のものに変換。
(3) 出力話者のメルスペクトログラムで音声信号を生成する。
という手順を踏みます。
この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。
この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。
【画像:https://kyodonewsprwire.jp/img/202402156615-O2-61wRye9i】
深層学習モデルをスペクトル包絡の変換にのみ適用することで
GPUの演算量を削減し、リアルタイム変換を可能とした
深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。
さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。
※メルスペクトログラム
音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。
※スペクトル包絡
スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。
※GPU
特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。
論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」
執筆者:鈴木大志 鷹合大輔 中沢実
情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15
73歳神田正輝、突如”衝撃生告白”「終活、終わっちゃってる」スタジオ騒然
高畑淳子「旅サラダ」で生謝罪 神田正輝が指摘
和田アキ子、離婚を夫に切り出した経験を結婚記念日の放送で告白「今あるのはダンナのおかげ」
「なにこれ ギター下手そう」イメージ激変miwa、自身にツッコみも「可愛すぎて逮捕」絶賛
「わ!最高の組み合わせ」吉岡里帆”45歳カリスマ女性歌手”との再会に激しく取り乱し反響
今くるよさん、高倉健さん指名の仕事を断っていた リンゴが律義な人柄偲ぶ
【オリックス】森友哉が右太ももの筋損傷で登録抹消 主砲離脱で打線に大ダメージ
韓国軍、北朝鮮からの汚物風船を再警戒 1日から北風予報
2度のトミー・ジョン手術から復帰ドジャース・ビューラーが6回4失点 3回にミス絡み失点
ノンスタ井上裕介、アニサキスの恐怖振り返る 医師は「病院としては何もできない」
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
柏原崇(45)現在を調べてみた結果、相変わらずかっこよすぎた!
大原櫻子、ガーシー暴露後初のSNS投稿に賛否の声「イメージ最悪になった」
「暴露します」松本人志飲み会参加セクシー女優「衝撃作」発売「言えなくてずっと溜めてた」
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
漫才師の今くるよさん死去 膵がんのため
大谷翔平被弾投手が悪態ついて退場処分!次打者フリーマンと対戦中に判定巡り塁審と口論
金正恩の妹・金与正関連のネタ投稿がTwitterで大量に出回る
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
浜崎あゆみ、子供の写真公開に疑いの声止まず「よそのお宅の子供?」
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
柏原崇(45)現在を調べてみた結果、相変わらずかっこよすぎた!
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
元めちゃイケメンバーの三中元克(32)現在は何をしているのか調べてみた!
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
ヒカル、浮気相手とのLINE流出にドン引きの声「キモすぎる」「吐きそう」
TikTokを賑わす「フエラムネごめんなサイダー味」がセブンイレブンで再販!じゅるるマスカットも買うなら今!
小倉優子、不自然な“二重ライン”にネット騒然「やっぱり整形?」
73歳神田正輝、突如”衝撃生告白”「終活、終わっちゃってる」スタジオ騒然
高畑淳子「旅サラダ」で生謝罪 神田正輝が指摘
和田アキ子、離婚を夫に切り出した経験を結婚記念日の放送で告白「今あるのはダンナのおかげ」
「なにこれ ギター下手そう」イメージ激変miwa、自身にツッコみも「可愛すぎて逮捕」絶賛
「わ!最高の組み合わせ」吉岡里帆”45歳カリスマ女性歌手”との再会に激しく取り乱し反響
今くるよさん、高倉健さん指名の仕事を断っていた リンゴが律義な人柄偲ぶ
【オリックス】森友哉が右太ももの筋損傷で登録抹消 主砲離脱で打線に大ダメージ
韓国軍、北朝鮮からの汚物風船を再警戒 1日から北風予報
2度のトミー・ジョン手術から復帰ドジャース・ビューラーが6回4失点 3回にミス絡み失点
ノンスタ井上裕介、アニサキスの恐怖振り返る 医師は「病院としては何もできない」