starthome-logo 無料ゲーム
starthome-logo

古いAIが認知症と診断されてしまう?医学テストで明らかになった驚愕の事実


近年、文章生成AI(チャットボット)は医療や法律などの高度な領域で注目を集めていますが、最新の研究によると、古いバージョンのAIが認知症テスト「モントリオール認知評価(MoCA)」を受けると人間の認知症レベルと診断されることがわかりました。研究では、ChatGPT 4oが26点で一応の正常範囲に達しましたが、古いバージョンのGemini 1.0は16点で重度の認知障害レベルでした。これにより、AIは視空間処理や状況の把握において人間ほど柔軟でないことが明らかになりました。この結果はAIを過信せず、人間の視点と組み合わせて活用する必要を示しています。

近年、文章生成AI(チャットボット)の進歩が目覚ましく、医療や法律など高度な領域でも人間並みの回答を出せるとして注目を集めています。

しかし最新の研究によると、これらのAIが人間の認知症を調べるテストを受けると、「古いバージョン」のAIほどスコアが低く、人間でいえば「認知症レベル」と診断されてしまう結果が出たのです。

まるで人間の脳が加齢とともに衰えるかのように、“バージョンが古いAI”ほど視空間認知などの課題を苦手とするという興味深い事実が明らかになりました。

実際にはAIに「脳細胞」があるわけではありません。

それでも、ある種の“バージョンアップ”がされていないAIは、時計を描いたり立体の図形を模写したりするタスクで大きくつまずき、他の症状も含めると「軽度認知障害(MCI)」どころか「重度認知症」に該当するスコアを叩き出したケースもあります。

医療現場での支援役として期待される一方、視空間処理や状況の把握という点では、AIはまだ人間ほど柔軟な理解には至っていないということが、今回のテストを通じて浮き彫りになったわけです。

この結果は、私たちが“AI=何でもできる万能の知性”という先入観を持ってしまうことへの警鐘ともいえるでしょう。

医師や専門家でさえ、高度な医療試験でAIに得点を越されることも珍しくなくなってきました。

しかし、いざ人間の認知機能を測る検査を適用してみると、意外な弱点が炙り出されるのです。

果たして、この“古いAIが認知症テストに落ちる”という事実は、私たちの未来の医療や社会に何を示唆するのでしょうか。

今回のニュースでは、その不思議な現象と背景をわかりやすく解説していきます。

研究内容の詳細は『BMJ』にて公開されました。

目次

  • 旧型AIを認知症診断で斬る
  • 医学テストで「認知症」と判断されたAI
  • なぜ旧型AIは認知症レベルに陥るのか

旧型AIを認知症診断で斬る

画像
研究で実施された「モントリオール認知評価(MoCA)」テストにおける各AIモデルの得点を視覚的に示したグラフです。MoCAは最大30点満点で、通常、26点以上が正常範囲、26点未満は軽度認知障害(MCI)の可能性があるとされます。ChatGPT 4o: 26点 ほぼ正常範囲の下限に位置しており、最新の改良型モデルとして最高得点を記録。ChatGPT 4およびClaude 3.5: 25点正常範囲から1点下回っており、人間であれば軽度認知障害が疑われるスコア。Gemini 1.0: 16点非常に低い得点で、仮に人間であれば重度の認知障害に相当するレベル。Gemini 1.5: Gemini 1.0よりは改善しているが、依然として26点には達していない。/Credit:Roy Dayan et al . BMJ (2024)

人工知能(AI)がここ数年で急速に発展し、私たちの身近な生活にも影響を及ぼすようになりました。

特に文章生成を得意とする「大規模言語モデル(LLM)」は、会話や文章作成はもちろん、医師国家試験や法律系試験など高度な知識を問われる場面でも人間に劣らない成績を収めることがあるとして、世界中で注目を集めています。

こうしたAIの進歩を受け、医療分野では「AIが医師をサポート、あるいは取って代わるのではないか」という声が出始めています。

実際に、ある研究ではAIが人間の専門医よりも正確に診断を下す事例が報告されたこともあり、多くの医療機関や企業が医療AIの開発を急いでいます。

しかし、こうした急速な発展の一方で、「そもそもAIの“知能”はどこまで人間に近いのか?」「文字を扱うのは得意でも、周囲の状況を理解したり、視覚的な情報を総合して判断する力はあるのか?」といった疑問がこれまでも指摘されてきました。

AIはあくまで統計的手法で文章や画像を生成するため、人間とまったく同じように世界を認識しているわけではないという考えが根強いのです。

そこで研究者たちが目をつけたのが、「モントリオール認知評価(MoCA)」というテストです。

これは本来、人間の高齢者や軽度認知障害が疑われる人に対して行う、総合的な認知機能テストです。

記憶力や注意力、言語能力だけでなく、時計描画や立体の図形を模写するといった視空間認知機能も含まれています。

これまで数々の医療試験で高得点を叩き出してきたAIも、果たしてこのテストで“人間並み”の結果を出せるのでしょうか?

医学テストで「認知症」と判断されたAI

画像
図は時計を正しく描く能力を比較したものです。時計描画テストを通して、AIチャットボットの視空間認知と実行機能の限界を詳細に示す図です。各パネルは、正しい解答例(人間の解答)と、各AIモデルが示した誤った解答を比較することで、どの部分でAIが苦戦しているのか、また、最新モデルと旧型モデルの性能差がどの程度あるのかを視覚的に伝えています。これにより、AIの進化とともに残る課題を浮き彫りにし、今後の技術改良の必要性や医療現場での適切な活用方法を考える上で、非常に示唆に富んだデータとなっています。パネルA: 正しい時計描画の例(人間参加者)パネルB: 認知症患者の例(遅期アルツハイマー型)パネルC: Gemini 1による時計描画パネルD: Gemini 1.5による時計描画(テキスト付き)パネルE: Gemini 1.5による別の試み(ASCIIアート使用)パネルF: Claudeによる時計描画(ASCIIアート)パネルG: ChatGPT 4による時計描画パネルO: ChatGPT 4oによる時計描画/Credit:Roy Dayan et al . BMJ (2024)

今回の研究では、まずChatGPT(バージョン4と4o)、Anthropic社のClaude 3.5、そしてGoogleが開発するGemini(バージョン1.0と1.5)といった主なAIチャットボットに対して、人間用の「モントリオール認知評価(MoCA)」がそのまま実施されました。

MoCAは30点満点で、26点以上が正常範囲の目安とされています。

研究者は課題文をテキスト形式に書き起こし、AIに読み込ませる形でテストを進めていきました。

結果としては、ChatGPT 4oが26点で最も高いスコアを獲得。

人間の基準では一応「正常範囲の下限」に踏みとどまった格好です。

次いでChatGPT 4とClaudeが25点を取り、人間なら「軽度認知障害の疑いがある」水準とされました。

一方、Gemini 1.0は16点とかなり低く、認知症患者さんでも重度の部類に入るかもしれないレベルだったといいます。

Geminiの新バージョンである1.5はそれよりは高い点数を取ったものの、依然として26点には届かなかったとのことです。

研究者が特に注目したのは「視空間認知」や「実行機能」に関連するタスクで、いずれのAIチャットボットも大きく得点を落としている点でした。

具体的には、“時計の絵を描いて特定の時刻を示す”、“複数の点を指定された通りにつなぐ”といった課題に失敗する例が多かったとされています。

上の図を見ても、chatGPT4(G)やchatGPT4o(H)がかなり正確に時計を描いている一方で、Gemini 1(C)やGemini 1.5(D)の描いた時計はかなり怪しいものになっています。

これらは人間にとっては直感的に処理しやすい一方、AIにとっては文字情報を超えた空間把握を必要とするため、苦手領域になりやすいようです。

さらに、こうした結果を比較すると、「新しいバージョンのAI」よりも「古いバージョンのAI」のほうが著しく低いスコアを示す傾向も浮かび上がりました。

研究者らは、これをあえて「人間でいう“加齢にともなう認知機能の低下”に例えられるかもしれない」とユーモア交じりに述べています。

もちろん実際にはAIに脳細胞はありませんが、モデルのバージョンや学習データが古いままだと、より多くの課題でうまく対応できず“認知症レベル”に近い結果になってしまうというわけです。

また、研究チームはMoCAだけでなく、追加の視空間認知テストやStroopテストも行ったところ、こちらでも古いバージョンのAIほど混乱が目立ったと報告しています。

もっとも、AIチャットボットたちが得意な部分もあります。

たとえば言葉遣いや短期記憶、簡単な計算といった課題については、おおむね正確な回答を示しました。

あくまでも、視空間処理や抽象的な判断を含む分野で苦手を露呈したということなのです。

こうした点の積み重ねがスコアに反映され、人間の認知症テストという評価軸では「認知機能に課題あり」との判定を受ける結果になりました。

しかしなぜAIたちは「認知症判定」を受けてしまったのでしょうか?

そもそも、AIは文字や画像などのデータからパターンを学習して出力する「大規模言語モデル(LLM)」という仕組みを使っています。

人間が脳で情報を直接統合しながら「理解」しているのとは異なり、AIにとって「空間把握」や「イメージの正確な再現」は苦手領域になりやすいのです。

時計を描いたり図形を組み合わせたりする問題は、単にテキストの予測を超えた複雑な処理を要求するため、どうしてもつまずきがちになります。

一方、バージョンが新しいAIほど、学習データの量や質、アルゴリズムの改良が進んでいるため、より柔軟な回答ができるように設計されています。

逆に「古いAI」は、最新のデータや新しい技術を取り込まないままでアップデートが止まっていることも多いため、難しい課題や人間的な“発想の飛躍”が必要なタスクでは性能が低下しがちです。

その結果、人間用の認知テストで測るような能力まで求められると、「お手上げ」状態に陥りやすいわけです。

なぜ旧型AIは認知症レベルに陥るのか

画像
Credit:Canva

今回の研究からわかるのは、「AIが文章や知識の応用に秀でていても、必ずしも人間のような総合的“知能”を持っているわけではない」という点です。

医療のように幅広い観察力や洞察力が必要な分野では、AIが高得点を取る試験がある一方で、視空間的な判断や抽象的な状況把握を要するテストでは思わぬ弱点が露わになりました。

とりわけ古いバージョンのAIはこうした課題で極端に苦手を示し、まるで認知症のような兆候が見られたというのは、AIの限界を如実に物語るエピソードといえます。

こうした話は、最新のAIを使いこなすうえで重要な示唆を与えてくれます。

つまり、AIが生まれたときの状態にとどまるのではなく、継続的に学習を続け、アルゴリズムを進化させ続けなければ、急激に陳腐化しやすいということです。

人間であれば加齢に逆らうことはできませんが、AIは新しい知識やプログラムを導入することで「年齢」を更新できる可能性があるのです。

一方で、この研究結果をもって「AIが役立たない」と結論づけるのは早計でしょう。

人間でも、視空間や空間認識を要する課題よりも言語や論理思考が得意な人がいるように、AIには得意不得意の領域があります。

医療現場では、画像診断やデータの照合など特定の分野でAIが高い精度を発揮し、すでに多くの医師を助けています。

ただし「弱い部分がある」という事実を十分認識し、必要に応じて専門家の監修や別の検証プロセスを組み込むことが、実用上は欠かせないでしょう。

つまり、今回の研究は「最新のAIを過信せず、人間の視点や経験を補いとしてうまく組み合わせることが大切だ」という教訓を示していると言えます。

今後のAI開発では、視空間的な情報処理や柔軟な発想が可能なシステムを追求する動きも一段と加速するでしょう。

近い将来、MoCAテストで満点を取るようなAIが登場するかもしれませんが、人間に寄り添い、専門家や利用者が正しく活用できる形で導入されることこそが、社会的にも医学的にも大きな価値をもたらすはずです。

全ての画像を見る

元論文

Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis
https://doi.org/10.1136/bmj-2024-081948

ライター

川勝康弘: ナゾロジー副編集長。 大学で研究生活を送ること10年と少し。 小説家としての活動履歴あり。 専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。 日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。 夢は最新科学をまとめて小学生用に本にすること。

編集者

ナゾロジー 編集部

    Loading...
    アクセスランキング
    game_banner
    Starthome

    StartHomeカテゴリー

    Copyright 2025
    ©KINGSOFT JAPAN INC. ALL RIGHTS RESERVED.