AIには何が見えているのでしょうか?

大阪大学で行われた研究によって、人間の脳活動をスキャンするだけで、その人物が何を見ていたかを80%という高精度で再現する脳スキャンAIが開発されました。

この仕組みは人間の視界をリアルタイムで再現することを可能にしており、上手く応用できれば、自分の夢の風景を記録したり、動物がどんなふうに世界をみているかを知ることが可能になるでしょう。

また仕組みも非常にユニークであり、脳活動から人間の視界を的中させるためのエンジンとして、ここ数年話題になっている「文章を画像にしてくれるAI」が利用されています。

しかしそれをどうやって脳活動から視界を読み取るAIに変換したのでしょうか?

研究内容について書かれている論文は2023年の6月に開催されるコンピュータービジョンの国際会議『CVPR 2023』に採択されました。

また論文はプレプリントサーバーである『bioRxiv』でも公開されています。

目次

  • 人の脳活動をスキャンして見ているものを再現するAIを開発!
  • AIの内部を覗き見る

人の脳活動をスキャンして見ているものを再現するAIを開発!

Credit:Canva

思い描いた風景や頭に響いたメロディーをそのままキャンバスや譜面に描いてくれる便利道具は、かつてはSFの世界にのみ存在していました。

しかしAI技術の進歩によってSFは現実のものになりつつあります。

実際、世界各国の研究室から毎月のように、人間の脳活動を読み取って、人間が見聞きしている風景や音楽を再現する(当てる)「脳スキャンAI」が、競うように発表されています。

しかし既存の方法で新たな脳スキャンAIを作るには、膨大な被験者の脳活動を画像や音楽と結び付ける学習を行わせる必要があり、非常に大きな手間とコストがかかっていました。

そこで今回、大阪大学の研究者たちは、既存のAIを流用することで、よりシンプルな方法で脳スキャンAIを作る方法を考え出しました。

流用元に選ばれたのは、近年流行になっている「文章から画像を作ってくれるAI(Stable Diffusion)」でした。

Stable Diffusionは宇宙飛行士とタグ付けされた画像や馬とタグ付けされた画像など、膨大な画像と関連する名前の関係性を学習することで作られています。

Credit:wikipedia

この便利なAIに「馬に乗った宇宙飛行士」と文章で入力すると、上の図のように、本当にそれらしい画像を出力してくれます。

AIを使った画像生成は著名なアーティストも利用しており、オプション機能を付けることでまるで芸術家のような作品を出力してくれるようになります。

そのクオリティーの高さはプロ並みであり、一部の人々に「絵師」の仕事がAIに取られてしまうのではないかと心配させるほどでした。

Credit:Stable Diffusion

このときStable Diffusionは打ち込まれた人間の言語を「AIの言語」に置き換えて(エンコードし)、それを「AIの脳内」で絵に変換し(潜在表現を作成し)、最後に私たちの目の前に画像として提示します。

ただStable Diffusionにあるのはあくまで文章を画像にする機能だけです。

Stable Diffusionを使って脳スキャンAIを作るには、画像をみたときの人間の脳活動パターンをStable Diffusionが理解できるように「AIの言葉」に上手く変換してくれる追加の翻訳AIが必要となります。

そこで研究者たちは、以前の研究によって公開されている、4人の人間にそれぞれ1万枚の画像をみせたときの脳活動パターンの9割を使って、どんな画像がどんな脳活動と関連しているかを翻訳AIに教え込みました。

(※残りの1割はテスト用データになりました)

また1万枚の画像にはそれぞれ何が映っているかを説明する文章(たとえば馬の写真なら「馬」というテキストで書かれた意味情報)が付属していたため、この意味情報と脳活動パターンの関係も追加で学ばせました。

この2つの学習によって、脳活動パターンから、作るべき画像の「視覚情報」と「意味情報」を翻訳する2種類のAIが誕生し、画像生成AI「Stable Diffusion」にも2通りの情報を「AIの言葉」の形で入力することが可能になりました。

次に研究者たちは性能チェックをするため、テスト用データから選び出した被験者の脳活動パターンを翻訳AIを通してStable Diffusionに提示し、画像を作ってもらいました。

(※1000枚の画像をみたときの被験者たちの脳活動パターンを提示し、彼らが何を見ていたかを1000枚の画像を生成することで当ててもらいました)

Credit:Yu Takagi, Shinji Nishimoto . High-resolution image reconstruction with latent diffusion models from human brain activity . bioRxiv (2022)

結果、被験者たちが見ていた画像を、脳活動パターンだけで、80%の制度で再構成することに成功しました。

(※このとき提示された脳活動パターンは翻訳AIによって視覚情報と意味情報を示す2種類の「AIの言葉」に翻訳され、それぞれがStable Diffusionに流れ込み、双方がよく一致する画像が生成されました)

既存のAIではこの精度を得るために、より多くのデータや学習時間が必要ででした。

そのため研究者たちは、新たに作られた2種類の翻訳AIとStable Diffusionの組み合わせシステムはより効率的であると結論しました。

しかしもっとも興味深いのは、AIシステムの中心部分にあるStable Diffusionには一切の改造を行っていない点にあります。

これまである目的のために作られたAIを別目的に流用するのは困難と考えられていましたが、新たなAIシステムは翻訳AIの存在のお陰で、システムのエンジンとも言えるStable Diffusionはそのままで運用できたのです。

もし将来的にAIの流用技術が進歩するならば、AIの機能はより複合的なものになるかもしれません。

そうなると気になるのが、AIの中身です。

AIは情報を内部で「AIの言葉」に変換し「AIの脳活動」といえるもので処理します。

しかし既存の技術ではAIの学習効率を改善することはできても、AIの内部を覗き見ることはできませんでした。

AIは学習によってコンピューター内部に人間の脳のようなニューラルネットを形成していきますが、人間にはどの回路が何をしているかがわからないのです。

ですが今回の研究では、あえてAIの内部を覗き見る試みが行われました。

AIの内部を覗き見る

Credit:Canva

「文章から画像を作ってくれるAI」はその利便性から急速に発展しています。

しかし新しい分野であることから、内部で何が起きているかは他のタイプのAIに比べて理解が進んでいません。

そこで研究者たちは今回「生物学的な観点」からAIの内部の解明に挑みました。

つまり文章から画像を作るAIの内部にも、人間の脳の後頭葉のように視覚情報を処理する過程と、側頭葉のように意味情報を処理する過程があると考えたのです。

調査にあたっては「AIの脳活動」において画像が生成されていく過程を3段階にわけて、それぞれの段階の画像が視覚情報と意味情報のどちらの影響をより強く受けて形成されているかが調べられました。

結果、初期段階においては視覚的な情報が優勢であり、段階が進むにつれて意味情報が優勢になっていきました。

この結果から研究者たちは、AIにも人間の脳のような、特定の情報を専門に扱う過程が存在すると結論しました。

AIに対して生物学的観点から定量的な解釈が行われたのは今回の研究がはじめてとなります。

もちろんAIと人間の脳機能の比較について反論する声はあるでしょう。

ですが人間の神経回路を模倣する機能を持ったAIに、人間の脳機能に似た処理プロセスが存在する可能性はあるはずです。

今後AIの中身を覗き見る研究が進めば、AIと人間の脳の意外な類似点が発見されるかもしれません。

そうなればいつか、人間の脳が作り出す意識の仕組みにも迫ることができるでしょう。

全ての画像を見る

元論文

High-resolution image reconstruction with latent diffusion models from human brain activity https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full
情報提供元: ナゾロジー
記事名:「 人の脳活動をスキャンして見ているものを画像化するAIを開発!