- 週間ランキング
しかもEMOのシステムに必要なのは、たった一枚の「顔画像」と一つの「音声データ」だけです。
従来のように、顔画像のモーションピクチャーを生成するにあたって、3Dモデルやランドマーク(目や鼻の位置など顔の特徴を抽出する上で目印となるポイント)のような中間段階は要りません。
顔画像と音声データをEMOに投げ込めば、自然なポートレート動画が生成されるように訓練されているのです。
では、それを可能にするEMOのシステムはどのような仕組みになっているのでしょうか?
EMOは2段階のプロセスを経てポートレート動画を生成する仕組みになっています。
1つ目は「フレーム・エンコーディング(Frames Encoding)」と呼ばれる段階です。
チームは映画やテレビ番組、スピーチや歌唱パフォーマンスの映像を延べ250時間以上も収集し、その動画データでAIをトレーニングすることで、人が会話したり歌うときにどんな表情や頭の動きをするのかを学ばせました。
これを元にフレーム・エンコーディングでは、参照する顔の静止画の特徴を分析して、あらゆる表情や頭の動きに対応できるようにします。
2つ目は「拡散プロセス(Diffusion Process)」と呼ばれる段階です。
ここでは対象とする音声データの波形を分析して、声の高さや強さ、抑揚などを理解し、それとシンクロするような口の開き、顔の表情、頭の動きの生成を開始します。
こうして訓練されたEMOのシステムは、たった一枚の顔画像と音声データを投げ込むだけで、自然なポートレート動画を生成できるようになりました。
これを使えば、写真・映画・絵画・漫画・アニメ・CGなどから切り抜いた好きな人物に、好きな音声内容を喋らせることが可能です。
完成したポートレート動画の長さは、元の音声データの長さによって決まります。
例えば、こちらはレオナルド・ダ・ヴィンチの名画『モナ・リザ』に、シェイクスピアの戯曲『お気に召すまま』の一節を喋らせたもの。
まるでモナリザが生きている人のように自然な表情と動きで喋っています。
この他にもアニメの少女やモノクロ映画の俳優を使ったでも映像が多数紹介されています。
ぜひ、こちらのリンクからご覧ください。
https://humanaigc.github.io/emote-portrait-alive/
これまでにも、好きな音声データをアバターに喋らせるAI技術は存在していましたが、ここまで人間らしい自然な表情と完璧なリップシンクを再現したのはEMOが初めてだという。
EMOは今後、映画やゲーム内での俳優・キャラクター生成のほか、バーチャルアーティストやボーカロイドの品質向上など、エンターテインメント業界での活用が期待できます。
またAIで生成した空想の彼氏や彼女と自然な会話ができるようになるかもしれません。
その一方で、EMOは政治的な悪用や芸能界のゴシップの偽造など、危険な側面も秘めていることは確かです。
EMOのようなAIシステムは使い方次第で、善にも悪にもなるでしょう。
参考文献
EMO: Emote Portrait Alive –Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
https://humanaigc.github.io/emote-portrait-alive/
AI system can convert voice track to video of a person speaking using a still image
https://techxplore.com/news/2024-03-ai-voice-track-video-person.html
Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos
https://venturebeat.com/ai/alibabas-new-ai-system-emo-creates-realistic-talking-and-singing-videos-from-photos/
元論文
EMO: Emote Portrait Alive —Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
https://doi.org/10.48550/arXiv.2402.17485
ライター
大石航樹: 愛媛県生まれ。大学で福岡に移り、大学院ではフランス哲学を学びました。 他に、生物学や歴史学が好きで、本サイトでは主に、動植物や歴史・考古学系の記事を担当しています。 趣味は映画鑑賞で、月に30〜40本観ることも。
編集者
海沼 賢: ナゾロジーのディレクションを担当。大学では電気電子工学、大学院では知識科学を専攻。科学進歩と共に分断されがちな分野間交流の場、一般の人々が科学知識とふれあう場の創出を目指しています。