- 週間ランキング
人工知能(AI)がここ数年で急速に発展し、私たちの身近な生活にも影響を及ぼすようになりました。
特に文章生成を得意とする「大規模言語モデル(LLM)」は、会話や文章作成はもちろん、医師国家試験や法律系試験など高度な知識を問われる場面でも人間に劣らない成績を収めることがあるとして、世界中で注目を集めています。
こうしたAIの進歩を受け、医療分野では「AIが医師をサポート、あるいは取って代わるのではないか」という声が出始めています。
実際に、ある研究ではAIが人間の専門医よりも正確に診断を下す事例が報告されたこともあり、多くの医療機関や企業が医療AIの開発を急いでいます。
しかし、こうした急速な発展の一方で、「そもそもAIの“知能”はどこまで人間に近いのか?」「文字を扱うのは得意でも、周囲の状況を理解したり、視覚的な情報を総合して判断する力はあるのか?」といった疑問がこれまでも指摘されてきました。
AIはあくまで統計的手法で文章や画像を生成するため、人間とまったく同じように世界を認識しているわけではないという考えが根強いのです。
そこで研究者たちが目をつけたのが、「モントリオール認知評価(MoCA)」というテストです。
これは本来、人間の高齢者や軽度認知障害が疑われる人に対して行う、総合的な認知機能テストです。
記憶力や注意力、言語能力だけでなく、時計描画や立体の図形を模写するといった視空間認知機能も含まれています。
これまで数々の医療試験で高得点を叩き出してきたAIも、果たしてこのテストで“人間並み”の結果を出せるのでしょうか?
今回の研究では、まずChatGPT(バージョン4と4o)、Anthropic社のClaude 3.5、そしてGoogleが開発するGemini(バージョン1.0と1.5)といった主なAIチャットボットに対して、人間用の「モントリオール認知評価(MoCA)」がそのまま実施されました。
MoCAは30点満点で、26点以上が正常範囲の目安とされています。
研究者は課題文をテキスト形式に書き起こし、AIに読み込ませる形でテストを進めていきました。
結果としては、ChatGPT 4oが26点で最も高いスコアを獲得。
人間の基準では一応「正常範囲の下限」に踏みとどまった格好です。
次いでChatGPT 4とClaudeが25点を取り、人間なら「軽度認知障害の疑いがある」水準とされました。
一方、Gemini 1.0は16点とかなり低く、認知症患者さんでも重度の部類に入るかもしれないレベルだったといいます。
Geminiの新バージョンである1.5はそれよりは高い点数を取ったものの、依然として26点には届かなかったとのことです。
研究者が特に注目したのは「視空間認知」や「実行機能」に関連するタスクで、いずれのAIチャットボットも大きく得点を落としている点でした。
具体的には、“時計の絵を描いて特定の時刻を示す”、“複数の点を指定された通りにつなぐ”といった課題に失敗する例が多かったとされています。
上の図を見ても、chatGPT4(G)やchatGPT4o(H)がかなり正確に時計を描いている一方で、Gemini 1(C)やGemini 1.5(D)の描いた時計はかなり怪しいものになっています。
これらは人間にとっては直感的に処理しやすい一方、AIにとっては文字情報を超えた空間把握を必要とするため、苦手領域になりやすいようです。
さらに、こうした結果を比較すると、「新しいバージョンのAI」よりも「古いバージョンのAI」のほうが著しく低いスコアを示す傾向も浮かび上がりました。
研究者らは、これをあえて「人間でいう“加齢にともなう認知機能の低下”に例えられるかもしれない」とユーモア交じりに述べています。
もちろん実際にはAIに脳細胞はありませんが、モデルのバージョンや学習データが古いままだと、より多くの課題でうまく対応できず“認知症レベル”に近い結果になってしまうというわけです。
また、研究チームはMoCAだけでなく、追加の視空間認知テストやStroopテストも行ったところ、こちらでも古いバージョンのAIほど混乱が目立ったと報告しています。
もっとも、AIチャットボットたちが得意な部分もあります。
たとえば言葉遣いや短期記憶、簡単な計算といった課題については、おおむね正確な回答を示しました。
あくまでも、視空間処理や抽象的な判断を含む分野で苦手を露呈したということなのです。
こうした点の積み重ねがスコアに反映され、人間の認知症テストという評価軸では「認知機能に課題あり」との判定を受ける結果になりました。
しかしなぜAIたちは「認知症判定」を受けてしまったのでしょうか?
そもそも、AIは文字や画像などのデータからパターンを学習して出力する「大規模言語モデル(LLM)」という仕組みを使っています。
人間が脳で情報を直接統合しながら「理解」しているのとは異なり、AIにとって「空間把握」や「イメージの正確な再現」は苦手領域になりやすいのです。
時計を描いたり図形を組み合わせたりする問題は、単にテキストの予測を超えた複雑な処理を要求するため、どうしてもつまずきがちになります。
一方、バージョンが新しいAIほど、学習データの量や質、アルゴリズムの改良が進んでいるため、より柔軟な回答ができるように設計されています。
逆に「古いAI」は、最新のデータや新しい技術を取り込まないままでアップデートが止まっていることも多いため、難しい課題や人間的な“発想の飛躍”が必要なタスクでは性能が低下しがちです。
その結果、人間用の認知テストで測るような能力まで求められると、「お手上げ」状態に陥りやすいわけです。
今回の研究からわかるのは、「AIが文章や知識の応用に秀でていても、必ずしも人間のような総合的“知能”を持っているわけではない」という点です。
医療のように幅広い観察力や洞察力が必要な分野では、AIが高得点を取る試験がある一方で、視空間的な判断や抽象的な状況把握を要するテストでは思わぬ弱点が露わになりました。
とりわけ古いバージョンのAIはこうした課題で極端に苦手を示し、まるで認知症のような兆候が見られたというのは、AIの限界を如実に物語るエピソードといえます。
こうした話は、最新のAIを使いこなすうえで重要な示唆を与えてくれます。
つまり、AIが生まれたときの状態にとどまるのではなく、継続的に学習を続け、アルゴリズムを進化させ続けなければ、急激に陳腐化しやすいということです。
人間であれば加齢に逆らうことはできませんが、AIは新しい知識やプログラムを導入することで「年齢」を更新できる可能性があるのです。
一方で、この研究結果をもって「AIが役立たない」と結論づけるのは早計でしょう。
人間でも、視空間や空間認識を要する課題よりも言語や論理思考が得意な人がいるように、AIには得意不得意の領域があります。
医療現場では、画像診断やデータの照合など特定の分野でAIが高い精度を発揮し、すでに多くの医師を助けています。
ただし「弱い部分がある」という事実を十分認識し、必要に応じて専門家の監修や別の検証プロセスを組み込むことが、実用上は欠かせないでしょう。
つまり、今回の研究は「最新のAIを過信せず、人間の視点や経験を補いとしてうまく組み合わせることが大切だ」という教訓を示していると言えます。
今後のAI開発では、視空間的な情報処理や柔軟な発想が可能なシステムを追求する動きも一段と加速するでしょう。
近い将来、MoCAテストで満点を取るようなAIが登場するかもしれませんが、人間に寄り添い、専門家や利用者が正しく活用できる形で導入されることこそが、社会的にも医学的にも大きな価値をもたらすはずです。
元論文
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis
https://doi.org/10.1136/bmj-2024-081948
ライター
川勝康弘: ナゾロジー副編集長。 大学で研究生活を送ること10年と少し。 小説家としての活動履歴あり。 専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。 日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。 夢は最新科学をまとめて小学生用に本にすること。
編集者
ナゾロジー 編集部