なお、この研究は、平成28年度から始まった科学技術振興機構『産学共創プラットフォーム共同研究推進プログラム』の支援のもとで行われた。
■ 特徴
・一般ユーザでも自動運転車を操作できるマルチモーダルインタフェースを開発
・ 音声・視線・ジェスチャを用いて「タクシー運転手に指示するように」自動運転車を操作可能
・ 音声認識技術、視線・顔向き・口動作認識技術、ジェスチャ認識技術を結集
・ 将来の「機械-人間」協奏の一つの在り方を示す
近年、自動運転車の研究開発は急速に進展し、日米で公道において走行実験が行われるようになってきた。2020年の東京オリンピックまでには一部で実用化を目指す動きもある。将来、自動運転が本格的に実用化されるようになれば、日本やアメリカ、アジア各国の交通事情が劇的に改善されうる可能性もある。
しかし、自動運転のための周囲のセンシングや車の制御などの技術は進展しているものの、実際に一般の人が自動運転車に乗り込み、目的の場所に移動するために、どのように「自動運転車を操作する」のかについての検討は、あまり行われてこなかったのが実情だ。自動運転車が真に社会に浸透し、一般の人が容易に利用できるようにするためには、自動運転車と人とのコミュニケーションが必要になる。すなわち、自動運転車のインタフェースだ。
この一つの理想形がタクシーではないだろうか。利用客は運転手に行き先を告げ、必要に応じて曲がる場所などを伝え、行き先に来たら停まってもらう、こんなやり取りは、音声による対話を中心に、ジェスチャなどを交えながら交わされる。こんなやり取りを、自動運転車との間でできないか、そんな期待が持たれてきた。
研究グループは、音声対話を中心とし、ジェスチャや視線も情報伝達手段として用いることのできる、人対人のコミュニケーションから発想を得た自動運転車用マルチモーダルインタフェースシステムの開発に取り組んだ。このシステムは、人(ユーザ)の音声、ジェスチャ、視線などはそれぞれ音声認識、深度センサ、映像処理を用いて認識する。例えばユーザが「右に曲がって」と発声すれば、ユーザの意図に従って、自動車に右に曲がるように制御を依頼し、実際に自動車は右に曲がる。
一方、音声とジェスチャや視線を同時に用いる場合、それらの入力は並行して行われるので、ユーザが自動運転車に伝えようとする「意図」はそれらを統して理解する必要がある。例えばある建物を見ながら「あれは何?」と尋ねれば、「あれ」と言っているときにユーザが見ている建物の名称を答えてほしい、という意図がある。このように、各入力手段(モダリティ)の時間的関係も考慮しながら、マルチモーダル理解を行う。そしてその意図に応じて応答したり車に制御する。このように、複数のモダリティを統合的に理解し、実際に自動車の制御まで行いながら応答する、マルチモーダルインタフェースを備えた自動運転車を世界で初めて開発・実現した。
自動車はカーナビなどを含めて情報化が進んでいるが、今後、自動運転も含めて様々な車載機器の操作を容易に行うための一つの方向性として、こうしたマルチモーダルインタフェースが進展することが考えられる。また、自動運転車に限らず、機械と人間の協調・共生を考えた場合に、マルチモーダルインタフェースは自然で使いやすいインタフェースとして、取り入れられていくと期待される。