- 週間ランキング
TOKYO, Sep 20, 2017 - (JCN Newswire) - 株式会社富士通研究所(注1)(以下、富士通研究所)と富士通株式会社(以下、富士通)は、グラフ構造のデータを学習する富士通研究所独自のAI技術「Deep Tensor(ディープ テンソル)(注2)」と、学術文献など専門的な知識を蓄積したナレッジグラフ(注3)と呼ばれるグラフ構造の知識ベースを関連付けることにより、大量のデータを学習させたAIの推定結果から、推定理由や学術的な根拠を提示する技術を開発しました。
近年、大量のデータを学習させることで機械が自らデータの特徴を学んでいくDeep Learningなどの機械学習技術の活用が広がる一方で、これらの技術は推定結果が得られた理由を人間が検証することが困難なため、AIを使った専門家の判断に関して説明責任が問われる医療や金融などのミッションクリティカルな領域などへの適用に課題がありました。
今回、Deep Tensorの推定結果とナレッジグラフに蓄積された知識を関連付けることでAIの推定理由や根拠を提示する技術を開発することに成功しました。
本技術により、AIの推定結果に対する理由や根拠として得られた学術文献などの専門的な知識をもとに、専門家がAIの推定結果が信頼に値するかを確認できるとともに、得られた結果を手掛かりに新しい知見を得ることができるようになるなど、専門家がAIと協調して問題解決する世界が実現します。
本技術は、2018年度に富士通株式会社のAI技術「FUJITSU Human Centric AI Zinrai(ジンライ)(以下、Zinrai)」での実用化を予定しています。
開発の背景
近年の機械学習技術の発展は目覚ましいものがあり、一部の領域では人間を凌駕する成果を挙げています。人間の神経回路網をモデルとしたDeep Learningは、高い認識・分類性能が得られる一方で、なぜその答えが出てきたのかを専門家や開発者自身が説明できないため、ブラックボックス型のAIと呼ばれています。このような性質は、AIを使った専門家の判断に関して説明責任が問われるミッションクリティカルな領域への適用の妨げになると懸念されており、ブラックボックス型のAIに説明機能を持たせる技術の開発が期待されています。
富士通研究所では、機械学習技術の一種であるDeep Learningをベースとした、複雑な事象も記述できるグラフ構造のデータを学習するDeep Tensorを開発し、セキュリティ分野などにおいて高い推定精度を達成してきました(注4)。また、テキストデータを解析してテキストから知識を取り出す自然言語処理技術や、Web上のデータを知識ベース化するLOD(注5)技術を開発し、「LOD4ALL(注6)」と呼ぶ無償サービスを提供してきました。
これらの技術を体系化し、データの意味や周辺知識を機械的に扱えるグラフ構造の知識ベースであるナレッジグラフを構築してきました。
課題
ブラックボックス型のAIは、大量のデータを学習するだけで、自動的に未知の入力データを分類・推定する機能を獲得できることが特長ですが、一方で、その学習アルゴリズムから推定理由を説明できない点が大きな課題です。近年、入力データの中で推定結果に大きく影響する部分を特定する研究が世界中で行われていますが、画像認識において、画像のどの部分が認識結果に影響したかが説明できる程度に留まっています。
また、専門家がAIと協調して問題解決するためには、AIの推定結果が正しいかどうか、推定結果から専門家が改めて文献などを調べる必要があり、特に関係性が部分的にしか知られていないような事象に関しては、専門家が裏付けとなる根拠を探し出し、紐付けて理解していく必要がありました。
開発した技術
今回、Deep Tensorと、様々な外部データから構築したナレッジグラフを関連付けることで、Deep Tensorの推定理由や根拠を提示する技術を開発しました(図 1)。推定結果に大きく影響した因子(部分グラフ)を特定し、ナレッジグラフの部分グラフと対応付け、これらをナレッジグラフ上でつなぐ形で、一連の情報を推定根拠として構成します。
今回開発した技術は、以下の2つの技術より構成されています。
1. 推定因子特定技術
Deep Tensorでは、同じデータでも様々な表現方法があるため学習が困難だったグラフ構造のデータについて、グラフ構造のデータからテンソル(注7)と呼ばれる数学表現への変換方法の学習とDeep Learningの学習を同時に行うことで、グラフ構造のデータの高精度な学習を可能にしています。
今回、個々の入力データについてのDeep Learningの出力結果から逆に探索して、推定結果に大きく影響した複数の因子を入力データの部分グラフとして特定する技術を開発しました。本技術では、Deep Learningの入力となるテンソル間の類似性に基づき個別の推定結果の決め手となる要素を抽出し、さらにテンソルからグラフ構造のデータへの逆変換により抽出した要素に対応する入力の部分グラフを特定します。
2. 根拠構成技術
推定に大きく影響した複数の因子はナレッジグラフと関連付けることで、それぞれの因子に関連する情報を特定できます。特定した部分から、グラフ構造を辿って関連する知識を得る事ができますが、ナレッジグラフは様々な情報の様々な関連性をグラフ構造で保持しているため、単純にグラフ構造を辿るだけでは、推定理由と無関係な情報を関連付けてしまう問題がありました。
本技術では複数の推定因子を手掛かりとしてグラフ構造を探索することにより、特定された推定因子に関連性の高い情報だけを抽出して、根拠として構成します。
効果
今回、本技術について、ゲノム医療(注8)における専門家の調査作業の効率化を想定した模擬実験として、生物情報学分野における公開データベースや医療文献データベースを用いた学習データとナレッジグラフ(注9)を利用して、関係性が部分的にしか知られていないような事象に関して裏付けとなる根拠を探し出し紐づけ可能であることの検証を行いました(図2)。
まず、公開データベースから構築した遺伝子変異と病因性の関係について学習し、推定に影響した因子や根拠について学術論文や関連情報を抽出した結果では、推定対象の遺伝子変異(赤)について、推定結果に大きく影響した複数の因子(青)とナレッジグラフから取り出した医療文献などからなる学術的な裏付けとなる根拠(黄)および疾患の候補(紫)を同時に見る事ができました。
今後
今後、医療に係わる研究機関の協力を得て、今回の技術によって示された根拠が専門家にとって意味があるか、十分にわかりやすいかという点の検証をしていきます。また、金融分野における融資先の自動推定を学習させた場合に規制や規則の知識を用いて推定の妥当性を確認するなど他分野への応用を計画しています。
本技術は、様々な分野のナレッジグラフの拡充やPoCを進め、2018年度に富士通の「Zinrai」関連サービスとして製品化する予定です。
なお、効果検証に用いたデータの一部は、国立研究開発法人日本医療研究開発機構(AMED)「臨床ゲノム情報統合データベース整備事業」における「ゲノム医療を促進する臨床ゲノム情報知識基盤の構築」に関し、国立大学法人京都大学との共同開発により得られた成果によるものです。
注釈
注1 株式会社富士通研究所:
本社 神奈川県川崎市、代表取締役社長 佐々木繁。
注2 Deep Tensor:
人やモノのつながりを表すグラフ構造のデータから新たな知見を導く新技術「Deep Tensor」を開発(2016年10月20日プレスリリース)
注3 ナレッジグラフ:
意味付けされたグラフ構造の知識ベース。様々な情報源から収集した情報を意味を表す関係性でつなぎ合わせたもの。
注4 セキュリティ分野などにおいて高い推定精度を達成してきました:
「マルウェア侵入の検知を高精度化するAI技術を開発」(2017年9月19日プレスリリース)
注5 LOD(Linked Open Data):
Linked Data形式で公開されているデータセット群でナレッジグラフの一種。現在、900以上の主要なデータ公開サイトがあり、全体では1万以上のデータセットがあるLinked Dataは、Webに関連する様々な技術や規格の標準化団体であるW3C(World Wide Web Consortium)が推奨するWeb上でのデータ公開形式で、機械処理が容易であり特定アプリに依存しないデータ表現形式が用いられる。
注6 LOD4ALL:
富士通研究所が2013年より公開しているLOD活用検索サービス。
注7 テンソル:
行列やベクトルなどの概念を一般化した、多次元の配列で表現したデータ。
注8 ゲノム医療:
細胞を遺伝子レベルで分析し患者の個人レベルで最適な薬を投与し治療を行うこと。
注9 生物情報学分野における公開データベースや医療文献データベースを用いた学習データとナレッジグラフ:
疾患性遺伝子変異を収録したデータベースClinVarから学習データを、医療論文PubMedや遺伝子カタログGene Ontologyなどからナレッジグラフを構築。データの一部は富士通と国立大学法人京都大学との共同開発により得られた成果。
本リリースの詳細は下記URLをご参照ください。
http://pr.fujitsu.com/jp/news/2017/09/20-1.html
概要:富士通株式会社
詳細は http://jp.fujitsu.com/ をご覧ください。