人型ロボットの開発が進む中で、私たちの関心は二足歩行や人間らしい体型、なめらかな腕や脚の動きに向けられがちです。
とはいえ、人と自然に向き合い、会話をする存在を目指すのであれば、「表情」や「口の動き」も見過ごすことはできません。
こうした課題に真正面から取り組んだのが、アメリカ・コロンビア大学(Columbia University)の研究チームです。
研究者たちは、人間の唇の動きを事前に教え込むのではなく、ロボット自身が観察を通じて学習する仕組みを開発しました。
この成果は、2026年1月14日付で科学誌『Science Robotics』に掲載されています。
目次
- ”不気味の谷”を越えるためには「唇の動き」も重要
- ロボットはYouTubeを見て「人間らしい唇の動き」を覚える
”不気味の谷”を越えるためには「唇の動き」も重要
私たちは対面で会話をするとき、相手の目だけでなく、無意識のうちに口元にも強い注意を向けています。
研究では、対面で会話しているとき、私たちが向ける視線のうちおよそ半分が相手の唇に向かっているとも指摘されています。
つまり、発話の内容を理解するうえで、音声だけでなく、唇の形や動きも重要な手がかりになっているのです。
ところが、多くの人型ロボットでは、この唇の動きが大きな弱点となってきました。
口が不自然に大きく開閉したり、音と動きが微妙にずれたりすると、私たちは強い違和感を覚えます。
これが、いわゆる「不気味の谷」と呼ばれる現象の一因です。
研究者たちは、これまで唇の動きがうまく再現できなかった理由を二つ挙げています。
第一に、ハードウェアの問題です。
人間の唇は柔らかい皮膚と多数の筋肉によって複雑に変形しますが、従来のロボットは硬い顔のパーツを使い、動かせる部分も少なく、自由度が限られていました。
第二に、制御方法の問題があります。
多くのロボットでは、「この音が出たらこの口の形」といったルールを人間が事前に定義しており、発話の流れに応じた自然な変化を再現できませんでした。
そこで今回の研究では、この二つの壁を同時に乗り越えることを目指しました。
研究チームは、柔らかいシリコン製の唇と10自由度の駆動機構を備えたロボットの顔を新たに設計。
そして最大の特徴として、唇の動きを人間が細かく指定するのではなく、ロボット自身が学習によって獲得する手法を採用しました。
音声と唇の動きを結びつけるルールをあらかじめ与えない点が、従来研究との決定的な違いです。
では、どのようにロボットの学習が進んだのでしょうか。次項では実際の映像も確認できます。
ロボットはYouTubeを見て「人間らしい唇の動き」を覚える
学習は段階的に進められました。
まずロボットは、自分自身の顔を理解することから始めます。
鏡の前に置かれたロボットは、口や顔をランダムに動かし、その結果として映る自分の表情を観察します。
これを繰り返すことで、「どのモーターをどう動かすと、どのような口の形になるのか」を学習していきました。
次の段階では、人間の発話や歌唱の映像を大量に観察します。
YouTubeなどの動画に含まれる音声と唇の動きを対応づけて学ぶことで、音の変化に応じた口形の遷移を捉えるようになります。
この過程でロボットは、言葉の意味を理解しているわけではありません。
あくまで音声信号と視覚的な唇の動きの関係を学んでいる点が重要です。
こうした学習を通じて、ロボットは音声を入力すると、それに対応した連続的な唇の動きを自動的に生成できるようになりました。
実験では、単に音量に応じて口を開閉するような単純な方法よりも、視覚的に一貫性のあるリップシンクが実現されることが示されています。
また、この仕組みは特定の言語に依存せず、学習時に使われていなかった10の言語に対しても機能しました。
一方で、研究者たちは限界についても率直に述べています。
唇を強く閉じる音や突き出す動きを伴う音では、再現が難しい場合がありました。
また、この研究は唇の動きに焦点を当てたものであり、感情理解や高度な会話能力そのものを実現したわけではありません。
それでも、この研究の意義は大きいと言えます。
人とロボットの関係を左右するのは、知能の高さだけではありません。
「ちゃんと話しているように見えるか」という感覚が、受け手の印象を大きく左右します。
唇の動きという見過ごされがちな要素に技術的な解決策を示した今回の研究は、人型ロボットが人間社会に溶け込むための重要な一歩となるでしょう。
参考文献
Say Hello To EMO, A Robot That’s Learnt To Mimic Human Lip Movements By Watching YouTube And Gazing In The Mirror
https://www.iflscience.com/say-hello-to-emo-a-robot-thats-learnt-to-mimic-human-lip-movements-by-watching-youtube-and-gazing-in-the-mirror-82449
This Robot Learned to Talk by Watching Humans on YouTube
https://scitechdaily.com/this-robot-learned-to-talk-by-watching-humans-on-youtube/
元論文
Learning realistic lip motions for humanoid face robots
https://doi.org/10.1126/scirobotics.adx3017
ライター
矢黒尚人: ロボットやドローンといった未来技術に強い関心あり。材料工学の観点から新しい可能性を探ることが好きです。趣味は筋トレで、日々のトレーニングを通じて心身のバランスを整えています。
編集者
ナゾロジー 編集部
