国際高専OBの鈴木大志さんが金沢工業大学4年次に取り組んだ研究が 情報処理学会論文誌に採録。
2024年2月15日
学校法人金沢工業大学
【表:https://kyodonewsprwire.jp/prwfile/release/M103034/202402156615/_prw_OT1fl_QktqnZ3C.png】
国際高等専門学校卒業生の鈴木大志さんが金沢工業大学情報工学科4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、国際高専4年生、5年生の2年間と金沢工業大学3年次、4年次の2年間の計4年間、一貫してAIに取り組んできた鈴木さんの研究水準の高さが評価されたといえます。
【鈴木大志さんについて】
鈴木大志さんは国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。
2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。
そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。
【画像:https://kyodonewsprwire.jp/img/202402156615-O1-4fuTK1xA】
鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ
(写真右から2番目)
【鈴木大志さんの研究の概要について】
声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。
身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。
近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。
こうした音声変換手法は扱う人数に応じて
(1) One-to-One
(2) Many-to-Many
(3) Any-to-Any
に大きく区分できます。
(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。
(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。
(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。
ゼロショット声質変換法では,多くの場合、
(1) 入力話者音声をメルスペクトログラムに変換し、
(2) 入力話者のメルスペクトログラムを出力話者のものに変換。
(3) 出力話者のメルスペクトログラムで音声信号を生成する。
という手順を踏みます。
この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。
この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。
【画像:https://kyodonewsprwire.jp/img/202402156615-O2-61wRye9i】
深層学習モデルをスペクトル包絡の変換にのみ適用することで
GPUの演算量を削減し、リアルタイム変換を可能とした
深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。
さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。
※メルスペクトログラム
音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。
※スペクトル包絡
スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。
※GPU
特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。
論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」
執筆者:鈴木大志 鷹合大輔 中沢実
情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15
知事選辞退へずまりゅう怒り「俺を舐めるのも大概にしろよ?俺みたいな大物インフルエンサーと」
巨人坂本勇人が抹消/26日公示
「タモリさんも楽しそう」米大物女性歌手「Mステ」飛び入り写真を公式で公開 HYDEも反応
ポテトチップスとかっぱえびせん「できたて実感パック」がセブン限定発売
そうめんの新しい食べ方! 味の素『Cook Do®』オイスターソース×そうめんで暑い夏を乗り切ろう!
英王室、天皇陛下にガーター勲章を授与 刻まれた日英の歴史
ヤンキース・ジャッジ29号満塁弾「打った瞬間、フェンスを越えると思った」攻守に活躍も敗戦
航空券が安くなるタイミングとは 国際線・国内線何日前が安い?を解説
【西武】巨人からトレード移籍の松原聖弥が1軍合流 背番号「35」のヘルメットで打撃練習
朝ドラ「あんぱん」河合優実と原菜乃華がヒロイン今田美桜の妹役 今田「豪華で心強い方々」
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
都知事選掲示板にヌードポスター ひろゆき氏「世も末」 SNSで批判噴出
イケメンだから許される!堀北真希と山本耕史の「馴れ初め」が映画化希望するレベル
「ひまそらあかね」が突如トレンド入り!都知事選に出馬した暇空茜って一体どんな人?本物なの?
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
都知事選のほぼ全裸ポスター、イメージガールが謝罪 自身が携わる商品PR活動を辞退を発表
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
「愛が生まれた日」藤谷美和子(56)の現在がヤバい!?徘徊生活を送っていた過去も明らかに。
バキ童こと春とヒコーキのぐんぴぃが有吉の壁に登場!「笑いが止まらん」「地上波ゴールデンは草」
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
イケメンだから許される!堀北真希と山本耕史の「馴れ初め」が映画化希望するレベル
都知事選掲示板にヌードポスター ひろゆき氏「世も末」 SNSで批判噴出
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
「愛が生まれた日」藤谷美和子(56)の現在がヤバい!?徘徊生活を送っていた過去も明らかに。
柏原崇(45)現在を調べてみた結果、相変わらずかっこよすぎた!
松本人志飲み会参加セクシー女優「警察に相談しに行きました」報告「さすがにこれは酷すぎる」
【ネタバレ?】史実で見るキングダムの今後の展開まとめ〜中華統一までの全体像
知事選辞退へずまりゅう怒り「俺を舐めるのも大概にしろよ?俺みたいな大物インフルエンサーと」
巨人坂本勇人が抹消/26日公示
「タモリさんも楽しそう」米大物女性歌手「Mステ」飛び入り写真を公式で公開 HYDEも反応
ポテトチップスとかっぱえびせん「できたて実感パック」がセブン限定発売
そうめんの新しい食べ方! 味の素『Cook Do®』オイスターソース×そうめんで暑い夏を乗り切ろう!
英王室、天皇陛下にガーター勲章を授与 刻まれた日英の歴史
ヤンキース・ジャッジ29号満塁弾「打った瞬間、フェンスを越えると思った」攻守に活躍も敗戦
航空券が安くなるタイミングとは 国際線・国内線何日前が安い?を解説
【西武】巨人からトレード移籍の松原聖弥が1軍合流 背番号「35」のヘルメットで打撃練習
朝ドラ「あんぱん」河合優実と原菜乃華がヒロイン今田美桜の妹役 今田「豪華で心強い方々」