ディズニーリサーチの技術がVRアバターの「口パク」をリアルにする

2017年08月17日 14:41:00
テクノロジー
VR Inside
コメント

口の動きを作る

VRアプケーションで使用するアバターや、ゲームに登場するCGのキャラクターはデバイスのグラフィック性能の進化とともにリアルさを増している。

3Dスキャナーや写真からアバターを制作する技術を使えば、プレイヤーとそっくりのキャラクターでソーシャルコミュニケーションアプリやVRゲームをプレイすることも可能だ。

だが、アバターが言葉を発するときの口の動きは正確なものではない。高額な予算をかけたCG映画ではアニメーターが手作業で口の動きを作り上げているものもあるが、多くの映画やゲームで使われる口の動きは「単に開閉しているだけ」だ。

キャラクターの動きと音声が合っていないと、ユーザには吹替版の映像を見ているように感じられる。

ディズニーリサーチや複数の大学が共同で研究している方法を使えば、音声を元にキャラクターの口を自然に動かすことが可能になるようだ。

アニメーションの作成

アニメーション作成を自動化

「A Deep Learning Approach for Generalized Speech Animation（汎用化された発話アニメーションへのディープラーニングを用いたアプローチ）」と題された論文の方法では、アニメーターが音声に合わせて一コマずつキャラクターの動きを作り込む必要はない。

ディープラーニングを用いることで、音声に合わせたキャラクターの口の動きを生成することが可能だという。

複雑な作業が必要な工程を自動化できるので、CG映画製作の期間やスケジュールを圧縮したり、映画ほどの予算をかけられないゲームやアプリのキャラクターの口を音声に合わせて動かしたりといったことが可能になる。

吹替版の映画でも、きちんとその国の言語に合わせた動きをしてくれるようになるかもしれない。

リアルタイムで音声に合わせた動きを生成できれば、ソーシャルVRアプリでボイスチャットの内容に合わせてアバターを喋らせることもできるだろう。

ディープラーニング

この発音アニメーションの自動作成において重要な役割を果たしているのが、ディープラーニングだ。

実験では、システムに音と口の形の関連を覚えさせるための資料として8時間分の映像（2,543のセンテンスを読み上げたもの）を用いたという。

ディープラーニング・ニューラルネットワークのアプローチによって音素と呼ばれる「発音するときの口の形」をシステムが学習し、入力された音声に応じた発音アニメーションを出力することが可能となった。

発音アニメの一般化

この研究の優れた点は、一人の映像を元に複数のキャラクターの発音アニメーションを作ることができるところだ。

学習用に使用した映像は一人の話者が発音する映像だったが、一度システムが口の形を覚えてしまえば異なる年代、性別、種族のキャラクターであっても喋らせることができる。

もちろん複数の言語にも対応する。各言語に特有の口の動きも、学習量を増やせば利用できるようになるだろう。

応用の可能性

システムの実力

動画では、実際の映像（右/発音してもらった映像）と、音声を元にシステムが予想したアニメーション（左）が並べられている。

両者を比べても違和感は小さく、かなり自然な動きと言えるだろう。

アニメーション制作の広がり

この技術を用いた研究はまだ始まったばかりであり、アニメーションの忠実さという点では熟練アニメーターが手作業で作り込んだ映像に及ばない。

だが、この方法ならば予算も制作期間も抑えて悪くない映像を作ることができる。

フルCGの映画を作るときの叩き台としてシステムの出力した映像を使えば、現在よりも作業の手間を減らすことができるだろう。

アニメーターが手作業で作った映像ほどのクオリティを求めない場面ではこのまま使うこともできるので、予算の少ない映画やゲームにも使えるはずだ。

VRトレーニングビデオや学術的目的で作られる映像、インディーズゲームなどにも生きているかのように口を動かすキャラクターが登場するようになるかもしれない。

ユーザの動きをアバターへ

コミュニケーション重視のソーシャルVRアプリにおいては、VRゲーム以上にユーザの表情やボディランゲージをアバターで再現することが重要になる。

将来的にはヘッドセットを付けたユーザの表情の変化や口の動きを読み取ってアバターに反映することが可能になるだろうが、そのためには顔の動きを検知する新しいハードウェアが必要だ。

そうしたハードウェアが普及するためには、まだしばらく時間がかかるだろう。

アバターに自然な形で喋らせることができる今回の技術は、アバターを使うコミュニケーションアプリでしばらくの間主流になる可能性がある。

VRのアバターはリアルすぎない方が良いとも言われている（FacebookもSpacesのアバターをコミカルなキャラクターにしている）が、口を動かさずに喋っている姿には違和感がある。

この技術によって発言に合わせてアバターの口が動くようになれば、より自然に会話することが可能になるだろう。

また、キャラクターの会話シーンにかかるコストを圧縮できるのでCG映画全体のクオリティがさらに高くなるかもしれない。

参照元サイト名：Disney Research

URL：https://www.disneyresearch.com/publication/deep-learning-speech-animation/

参照元サイト名：Road To VR

URL：https://www.roadtovr.com/disney-research-procedural-speech-animation-vr-deep-learning/

アクセスランキング

Tips