国際高専OBの鈴木大志さんが金沢工業大学4年次に取り組んだ研究が 情報処理学会論文誌に採録。
2024年2月15日
学校法人金沢工業大学
【表:https://kyodonewsprwire.jp/prwfile/release/M103034/202402156615/_prw_OT1fl_QktqnZ3C.png】
国際高等専門学校卒業生の鈴木大志さんが金沢工業大学情報工学科4年次のプロジェクトデザインIII(卒業研究。研究指導教員:情報工学科中沢実教授、鷹合大輔准教授)で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、国際高専4年生、5年生の2年間と金沢工業大学3年次、4年次の2年間の計4年間、一貫してAIに取り組んできた鈴木さんの研究水準の高さが評価されたといえます。
【鈴木大志さんについて】
鈴木大志さんは国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。
2020年に国際高専を卒業後、金沢工業大学情報工学科3年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。
そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。
【画像:https://kyodonewsprwire.jp/img/202402156615-O1-4fuTK1xA】
鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ
(写真右から2番目)
【鈴木大志さんの研究の概要について】
声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。
身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。
近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。
こうした音声変換手法は扱う人数に応じて
(1) One-to-One
(2) Many-to-Many
(3) Any-to-Any
に大きく区分できます。
(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。
(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。
(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。
ゼロショット声質変換法では,多くの場合、
(1) 入力話者音声をメルスペクトログラムに変換し、
(2) 入力話者のメルスペクトログラムを出力話者のものに変換。
(3) 出力話者のメルスペクトログラムで音声信号を生成する。
という手順を踏みます。
この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し,それがリアルタイム声質変換の実現を困難にしていました。
この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。
【画像:https://kyodonewsprwire.jp/img/202402156615-O2-61wRye9i】
深層学習モデルをスペクトル包絡の変換にのみ適用することで
GPUの演算量を削減し、リアルタイム変換を可能とした
深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。
さらに従来のAutoVC と比べても品質が改善できていることもMOS(Mean Opinion Score)による評価結果から示されました。
※メルスペクトログラム
音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム(mel spectrogram)と呼ぶ。
※スペクトル包絡
スペクトルの曲線族すべてに接している曲線を包絡線(ほうらくせん)と呼び、包絡線の表す山や谷などを「包絡」という。
※GPU
特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。
論文名:「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」
執筆者:鈴木大志 鷹合大輔 中沢実
情報処理学会論文誌 Vol.65 No.2 529-537(Feb.2024) 発行年2024-02-15
田中みな実、週刊誌記事に痛烈クレーム「こんなにブスな瞬間、よく撮れたなと」
大谷翔平が3冠王を獲得する確率は?「まれな偉業を成し遂げる可能性がある」米データサイト
元モーニング娘。加賀楓が芸能活動終了を発表 今後は「ダンスを一から学んでいくという方向」
小林幸子、紅白衣装が年々巨大化していった“繊細すぎる”理由明かす
【巨人】今季初の単独首位浮上 4番岡本和真が2打席連発、菅野智之4勝目
小林幸子「芦田愛菜ちゃんの気持ちが分かる」9歳で単身上京&超多忙の幼少期を回顧
【DeNA】筒香嘉智“節目”の日米通算225号、劇的V弾で7点差ひっくり返す「みんなの力」
トミーズ雅、水原一平被告ドラマ化でキャスティング予想に興味津々「日本人がやるのかな?」
【東京】U23代表の松木玖生が凱旋ゴール「勝ち点1取れたのはデカい」主将としてチームけん引
【阪神】岡留英貴がダメ押しの1発を反省「実力不足でした」4番牧に2者連発のソロ本塁打被弾
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
73歳神田正輝「旅サラダ」生放送で“12歳下俳優”から呼び捨てされ激論
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
「ふてほど」25歳女優“薔薇ブラ”でポロリ寸前?過激衣装に「見えちゃう」「刺激強すぎ」
55歳森口博子「だっちゅーの」鮮やかビキニ姿披露にX歓喜「破壊力ハンパない」「スゴすぎ」
大物炎上系ユーチューバー”衝撃の預金残高”公開「すげぇ」「エグい」驚きの声
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
水原一平容疑者 最高刑「懲役33年」トレンド入り 「人生詰んだ」「稀代の詐欺師」の声
水原一平容疑者、歯科治療で大谷翔平から930万円だまし取ったことも判明
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
深夜のファミリーマート徘徊、必ず入っている「フエラムネのミニチュアおもちゃ付」を探し求めた結果……
完全にダマされた! 『ラヴィット!』あのちゃん“事故レベル”大暴走は『水ダウ』遠隔操作のしわざだった ネットも納得
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
ガーシー、またも綾野剛の暴露写真でネット歓喜「この写真見て笑っちゃう」
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
小澤征悦と再婚した桑子真帆アナ(34)黒い過去が流出、衝撃の過去にネット騒然
ガーシー、佐野ひなこの暴露を示唆でネット騒然「ファンだったのに」
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
田中みな実、週刊誌記事に痛烈クレーム「こんなにブスな瞬間、よく撮れたなと」
大谷翔平が3冠王を獲得する確率は?「まれな偉業を成し遂げる可能性がある」米データサイト
元モーニング娘。加賀楓が芸能活動終了を発表 今後は「ダンスを一から学んでいくという方向」
小林幸子、紅白衣装が年々巨大化していった“繊細すぎる”理由明かす
【巨人】今季初の単独首位浮上 4番岡本和真が2打席連発、菅野智之4勝目
小林幸子「芦田愛菜ちゃんの気持ちが分かる」9歳で単身上京&超多忙の幼少期を回顧
【DeNA】筒香嘉智“節目”の日米通算225号、劇的V弾で7点差ひっくり返す「みんなの力」
トミーズ雅、水原一平被告ドラマ化でキャスティング予想に興味津々「日本人がやるのかな?」
【東京】U23代表の松木玖生が凱旋ゴール「勝ち点1取れたのはデカい」主将としてチームけん引
【阪神】岡留英貴がダメ押しの1発を反省「実力不足でした」4番牧に2者連発のソロ本塁打被弾