従来のディープラーニングをベースとしたAIは、判断したい対象のデータ(正解データ)を十分に含む大量のデータを学習させることにより、高精度の判断を実現していた。しかし、実際の現場では判断したい対象データが極端に足りない場合が少なくない。このような場合、未知のデータに対する高精度の判断を実現することは困難だ。また、従来のディープラーニングをベースとしたAIの学習モデルは、ブラックボックス型のモデルで、AIの判断理由を説明できないという透明性の問題があった。したがって、様々な社会課題においてAIを活用していくためには、正解が少ないデータでも高精度の判断を実現し、透明性を兼ね備えた新たなAI技術の開発が求められる。
今回、正解データが少ない場合でも高精度に判断できる機械学習技術「Wide Learning」を新たに開発した。「Wide Learning」技術の特長は下記の2点。
1)データ項目を組み合わせて大量の仮説を抽出
すべてのデータ項目の組合せパターンを仮説とし、各仮説に対し分類ラベルのヒット率で、その仮説の重要度を判断する。
例えば、商品購入に対しての傾向をAIで分析する際に、これまでの購入者・未購入者(分類ラベル)のデータ項目から、 などすべてのパターンを組み合わせ、これらを仮説とした際に実際の商品購入者のデータとどれくらいヒットするかを分析。このとき一定以上のヒット率の仮説をナレッジチャンクとよび、重要な仮説であると定義する。これにより、元々の判断対象となるデータが十分に揃っていない場合でも、注目すべき仮説をもれなく抽出することができ、これまで考えつかなかった仮説の発見にも貢献する。
2)ナレッジチャンクの影響度を調整し高精度な分類モデルを構築
抽出した複数のナレッジチャンクとラベルに基づき分類モデルを構築する。この際に、ナレッジチャンクを構成する項目が他のナレッジチャンクを構成する項目と重複が多い場合に、分類モデルへの影響度を小さくなるように制御する。これにより、ラベルやデータに偏りがある場合にも、高精度な分類が可能なモデルを学習する。
例えば、商品購入データの中で未購入の男性のデータが大多数を占めている場合に、影響度を制御しないで学習すると、性別とは関係なく得られたの項目を含むナレッジチャンクが分類に影響しなくなる。開発方式では、項目の重複に応じてが含まれるナレッジチャンクの影響度を抑え、少数であるが含まれるナレッジチャンクの影響度が相対的に大きくなるように学習することで、でもでも正しく分類できるモデルを構築する。
本技術について、デジタルマーケティングや医療などの領域のデータに対して適用し、検証を行った。
UC Irvine Machine Learning Repositoryのマーケティングと医療領域のベンチマークデータを用いたテストで、ディープラーニングに比べ正解データを当てる精度が約10~20%向上し、サービスに加入する見込みの高い客や罹患患者を見逃す確率を約20~50%低減することを達成した。今回、約5,000件の顧客データの中で購入顧客が約230件と正解データが少ないマーケティングのデータを使ったところ、本技術を用いて販促する人を決めると、見込み顧客を販促対象から外す数をディープラーニングの分析結果である120人から74人と減らすことができた。
さらに、本技術のベースになっているナレッジチャンクが、論理的な表現形式を持つことから、判断の理由を説明できることも社会実装において有効。新たなデータに対する結果から、モデルの修正が必要だと判断した際にも、結果の理由が理解できるため、より適切な修正を施すことが可能となる。
今後、不正利用や設備故障などの低頻度の事象を扱う業務や、金融取引、医療診断などのAIの判断理由を求められる業務において実践を進め、富士通のAI技術「FUJITSU Human Centric AI Zinrai」を支える新たな機械学習技術として2019年度の実用化を目指す。
また、本技術のもつ説明可能な特性も有効に活用し、導入先の業務における判断・意思決定支援の高度化、人間との協働を含めた全体のシステムの設計などの研究開発を進めていく。