国際高専OBの鈴木大志さんが金沢工業大学4年次に取り組んだ研究が 情報処理学会論文誌に採録。
2024年2月15日
学校法人金沢工業大学
【表:https://kyodonewsprwire.jp/prwfile/release/M103034/202402156615/_prw_OT1fl_QktqnZ3C.png】
国際高等専門学校卒業生の鈴木大志さんが金沢工業大学情報工学科4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、国際高専4年生、5年生の2年間と金沢工業大学3年次、4年次の2年間の計4年間、一貫してAIに取り組んできた鈴木さんの研究水準の高さが評価されたといえます。
【鈴木大志さんについて】
鈴木大志さんは国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。
2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。
そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。
【画像:https://kyodonewsprwire.jp/img/202402156615-O1-4fuTK1xA】
鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ
(写真右から2番目)
【鈴木大志さんの研究の概要について】
声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。
身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。
近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。
こうした音声変換手法は扱う人数に応じて
(1) One-to-One
(2) Many-to-Many
(3) Any-to-Any
に大きく区分できます。
(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。
(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。
(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。
ゼロショット声質変換法では,多くの場合、
(1) 入力話者音声をメルスペクトログラムに変換し、
(2) 入力話者のメルスペクトログラムを出力話者のものに変換。
(3) 出力話者のメルスペクトログラムで音声信号を生成する。
という手順を踏みます。
この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。
この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。
【画像:https://kyodonewsprwire.jp/img/202402156615-O2-61wRye9i】
深層学習モデルをスペクトル包絡の変換にのみ適用することで
GPUの演算量を削減し、リアルタイム変換を可能とした
深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。
さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。
※メルスペクトログラム
音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。
※スペクトル包絡
スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。
※GPU
特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。
論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」
執筆者:鈴木大志 鷹合大輔 中沢実
情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15
「ブチ切れ!」令和ロマンにM-1連覇吹き飛ぶ激怒案件が発生、緊急動画で「駄目だぞ!」
55歳かとうれいこ、胸元ちらりのインナー「撮影オフショ」公開、26年ぶりグラビア復活の余韻
遠野なぎこ、献体写真公開の女医へ怒り「プライドがゼロになる位に土下座させて…」
星野源「地獄でなぜ悪い」紅白選曲はNHKオファー 詞は自身体験がもとで園子温監督映画ではない
志らく「未だに勘違いしている人が…」立川談志さんが場を凍りつかせた「M-1」審査の真意説明
火葬炉内の焼骨を撮影、知人らに送信 滋賀・湖南市職員を懲戒処分
ちいかわのご朱印帳を持って旅行して感想を送る!(12/25~締切1/31)
ウィリアム皇太子とキャサリン妃一家がクリスマス礼拝参列 ヘンリー王子夫妻は今年も不参加
大谷翔平の強行出場「子供がケガしながらプレーするのを見なきゃいけない…」ド軍トレーナー語る
橋本環奈、NHK朝ドラ「おむすび」12・9 % 結は糸島に里帰りし、永吉は大喜びする
グラビア界「1000年に1人の逸材」AVデビューでトレンド入り 初写真集も圧巻ボディー披露
人気セクシー女優、引退作を撮り終え思い「やりきった!!出しきった!!!」
トイレットペーパーで便座を拭いてはいけない理由 TOTOに聞いた
高須克弥院長が警告発動!献体写真公開で謝罪の院長に「いい加減にしないとアメリカで…」
献体写真公開で炎上の女性美容外科医が謝罪「全てモザイクかけていたつもりで…倫理観が欠如」
44歳元日テレ女子アナが水着姿でサウナ!大胆に美谷間公開で…ととのいます
二階堂ふみが結婚!?お相手が衝撃的過ぎてネット民「マジか・・・」
元人気アイドル、一部コメントに不快感「くそだなと思いました」
膳場貴子が22日「サンモニ」欠席 TBS駒田健吾アナが事情説明
「ブチ切れ!」令和ロマンにM-1連覇吹き飛ぶ激怒案件が発生、緊急動画で「駄目だぞ!」
多部未華子(30)結婚の裏事情あまりにも恐ろしすぎると話題に!
二階堂ふみが結婚!?お相手が衝撃的過ぎてネット民「マジか・・・」
浜崎あゆみ、バスト丸見えの投稿にネット騒然「巨乳すぎて不自然」
クロちゃんを騙した「レイちゃま(小林レイミ)」の現在が別人すぎると話題に
千円札に込めた奇跡!明石家さんまが30年間大切にした「ラブレター」に感涙
高橋ジョージ「やっぱりお縄だよ」新曲の印税引き出したら銀行の態度が…その後に残高見て仰天
まるで別人?浜崎あゆみのFNS歌謡祭での姿に驚きの声
「わっぜか音がしっせえよ あたいは今朝ん台風か思っせえよ」 アルティメット鹿児島弁アニキが『Twitter』で話題に
飯島直子「いつみんなに言おうか…」別れを報告「お空へ旅立ちました」
グラビア界「1000年に1人の逸材」AVデビューでトレンド入り 初写真集も圧巻ボディー披露
「ブチ切れ!」令和ロマンにM-1連覇吹き飛ぶ激怒案件が発生、緊急動画で「駄目だぞ!」
55歳かとうれいこ、胸元ちらりのインナー「撮影オフショ」公開、26年ぶりグラビア復活の余韻
遠野なぎこ、献体写真公開の女医へ怒り「プライドがゼロになる位に土下座させて…」
星野源「地獄でなぜ悪い」紅白選曲はNHKオファー 詞は自身体験がもとで園子温監督映画ではない
志らく「未だに勘違いしている人が…」立川談志さんが場を凍りつかせた「M-1」審査の真意説明
火葬炉内の焼骨を撮影、知人らに送信 滋賀・湖南市職員を懲戒処分
ちいかわのご朱印帳を持って旅行して感想を送る!(12/25~締切1/31)
ウィリアム皇太子とキャサリン妃一家がクリスマス礼拝参列 ヘンリー王子夫妻は今年も不参加
橋本環奈、NHK朝ドラ「おむすび」12・9 % 結は糸島に里帰りし、永吉は大喜びする
大谷翔平の強行出場「子供がケガしながらプレーするのを見なきゃいけない…」ド軍トレーナー語る