そこで日立は、さまざまな観点で音を分解することで、高精度に状況を認識することができるAI技術を開発した。本技術では、まず、複数のマイクロホンで音を録音し、マイクロホン間での音が到達する時間差から推定される音源の方向や、音色の違いから推測される反響音かどうかなどの複数の観点に基づいて、雑音が混ざった音を分解。さらに、複数のディープニューラルネットワーク(DNN)(*1)に分解した音をそれぞれ入力し、設備や人などが置かれている状況と一致する可能性(確率)をそれぞれ計算する。最後にその計算結果の多数決により、総合的な状況認識結果を出力する。
それぞれのDNNが受け持っている一つの観点だけに頼ると雑音に影響されやすいという問題があるが、複数のDNNの多数決による結果を確認することで雑音に影響されにくくなる。これにより、多様な種類の雑音が存在する環境でも高精度な状況認識が可能になる。
今回、日立は、IEEE AASP TC(*2)が公認する、音響認識分野で最大の国際コンペティションDCASE(*3) 2018 ChallengeのTask 5(*4)において第1位のスコア(*5)を獲得し、本技術の効果を確認した。
本技術は、音に基づいて設備の状態を自動診断するサービスや人の活動状態を自動認識する見守りサービスなどへの応用が期待される。今後、日立は、機能向上などの開発を進め、本技術の実用化をめざす。
なお、本成果は、2018年11月6日~8日に東京電機大学で開催される「電子情報通信学会 第33回 信号処理シンポジウム」にて発表予定。
*1 ディープニューラルネットワーク(DNN):脳の神経回路を模擬した素子(ニューロン)のネットワーク(ニューラルネットワーク)を多層(ディープ)構造にしたもの
*2 IEEE AASP TC:IEEE Audio and Acoustic Signal Processing Technical Committee
*3 DCASE:Detection and Classification of Acoustic Scenes and Events。DCASE 2018 Challengeは2018年4 月~7月に開催
*4 Task 5:家に設置した複数のマイクロホンを用いて収録された音のデータから「料理中」「食事中」「仕事中」「会話中」「テレビ視聴中」などの9カテゴリの日常活動のいずれの状況かを認識するタスク。参加チームは12チーム、34システム。
*5 公式評価値であるF1-score on Eval. set (Unknown mic.) =学習時と異なるマイク位置での識別精度のスコア