【精度95%→34.5%】「AI単体」の病名診断は優秀だが「一般人が自己診断にAIを使う」とダメダメになる

どこか体調に不安があるとき、Google検索で自分がどんな病気か調べたことがある人は多いのではないでしょうか？

頭痛がしたら「脳腫瘍？風邪？」、お腹が痛ければ「胃潰瘍？盲腸？」と、心配になる気持ちは誰にでもあるものです。

最近では、こうした症状をAIに尋ねられる時代になり、「わざわざ病院に行かなくても、AIが診断してくれる」と感じるかもしれません。

しかし、実際にAIを活用して自己診断を行ったとき、本当に精度は高いのでしょうか？

イギリスのオックスフォード大学（University of Oxford）の研究チームは、AIモデル（大規模言語モデル：LLM）は単独では約95％の精度で正しい病名を特定できるにもかかわらず、人間がそのAIを使って診断しようとすると、正解率が34.5％にまで落ち込むと報告しました。

この研究成果は2025年4月26日付の『arXiv』で発表されました。

AIが優秀なら患者は医師ではなくAIに尋ねても良いのか？
AI単体では優秀でも、一般人が自己診断に使うと精度はガタ落ちする

AIが優秀なら患者は医師ではなくAIに尋ねても良いのか？

近年、ChatGPTなどの大規模言語モデル（LLM）は急速に進化し、専門家レベルの知識を獲得しています。

AIが今と比べて未発達だった2023年でさえ、米国医師免許試験（USMLE）に相当する問題に対して90％以上の正答率を誇り、実際の医師や研修医を上回るパフォーマンスを見せました。

こうしたAIの能力を活用すれば、病院に行かずとも、症状を入力するだけで正しい病名と対処法を得られるのではないかと期待する人も多いでしょう。

しかし、オックスフォード大学の研究チームは、「AIが優れていること」と「人間がそのAIをうまく使えること」はまったく別問題であることを実証しました。

AIを使った自己診断の精度は？ / Credit:Canva

研究では、合計1298名のイギリス人参加者（専門家ではない）を対象に、肺炎から風邪まで、様々な架空の医療シナリオを提示しました。

例えば「20歳の大学生が友人と外出中に突如激しい頭痛に襲われる」といったシナリオがあります。

その中には、「下を向くのも辛い」といった重要な医学的情報だけでなく、「常習的に飲酒し、6人の友人とアパートをシェアし、ストレスの多い試験を終えたばかり」といった誤解を招く情報も含まれています。

そして、そのシナリオを3つの方法で分析しました。

AI単体（GPT-4o、Llama3、Command R+など）
参加者がAIを用いる
参加者のみ（AIを使わず検索エンジンなどで自分で情報収集する）

それぞれのケースで、症状シナリオから「どんな病気だと思うか」「どのように対処すべきか（救急車、救急外来、かかりつけ医、自宅療養）」を判断するよう求められました。

その後、それらの回答と、医師チームが全員一致で出した「正解」が比較されました。

ではどんな結果になったのでしょうか。

AI単体では優秀でも、一般人が自己診断に使うと精度はガタ落ちする

実験の結果、AI単体にシナリオを読ませた場合、94.9％の精度で病名を当てました。

これは医師レベルの判断力といえるでしょう。

一方で、人間がそのAIと会話しながら診断を行った場合、正解率は大きく低下しました。

少なくとも1つの疾患を特定する確率は最大34.5％で、対処法の正解率も44.2％と半数以下でした。

AI単体では高精度の診断が可能 / Credit:Canva

そして人間がAIを使わなかった場合の方が正答率が高いという結果も得られました。

参加者が検索エンジンなどを用いて自己診断した場合、少なくとも1つの疾患を特定する確率は47.0％、対処判断の正答率は56.3％でした。

なぜ、AI使用者よりもAIを使用しない参加者の方が優秀な結果を出したのでしょうか。

原因の1つは、人間側の入力ミスや情報の欠落です。

例えば、胆石のシナリオを受け取った参加者は、AIに「1時間ほど続く激しい胃痛がある」「テイクアウト食品では吐き気と痛みを感じる」とだけ伝えており、重要である「痛みの場所」「頻度」「程度」については何も伝えていませんでした。

これではAIも誤った診断を下してしまいます。

もう1つの原因は、AIが正しい助言をしても、それを人が無視してしまうという点です。

研究チームが会話ログを分析したところ、AIの会話の65％以上で正しい病名を提案していましたが、それが最終的な被験者の回答には反映されたのは、34.5％未満だったのです。

つまり、AIが正しくても、それを信じて実行するとは限らないという問題があるのです。

さらに、研究チームは模擬患者をAIに置き換えた追加実験も行いました。

このときは、AIが患者役として、別のAIと会話する形式で診断に挑みました。

その結果、正答率は60.7％にまで上昇しました。

これは、AI同士のやり取りではプロンプトの品質が一定に保たれ、情報の伝達ミスが起こりにくいためだと考えられます。

いくらAIが優秀でも、人間が上手く使えなければ意味がない / Credit:Canva

この研究から、私たちは重要な教訓を得ることができます。

それは、AIがいくら医療知識を持っていても、人間がそれをうまく使えなければ意味がないということです。

AIの精度を評価するだけでなく、AIと人間とのインタラクション、つまり使われ方の質を測る新しい評価基準が必要だということも明らかになりました。

たとえ高性能なエンジンがあっても、運転する人間が誤った操作をすれば事故になるのと同じです。

AIの性能だけでなく、人間がどう使いこなすかが問われる時代に、私たちは突入しています。

そして何より、体調に不安があるときはAIに頼りすぎず、きちんと医療機関を受診することが、命を守る確かな道だということを忘れてはいけません。

全ての画像を見る

参考文献

Just add humans: Oxford medical study underscores the missing link in chatbot testing
https://venturebeat.com/ai/just-add-humans-oxford-medical-study-underscores-the-missing-link-in-chatbot-testing/

元論文

Clinical knowledge in LLMs does not translate to human interactions
https://doi.org/10.48550/arXiv.2504.18919

ライター

矢黒尚人: ロボットやドローンといった未来技術に強い関心あり。材料工学の観点から新しい可能性を探ることが好きです。趣味は筋トレで、日々のトレーニングを通じて心身のバランスを整えています。

編集者

ナゾロジー編集部

情報提供元：ナゾロジー

記事名：「【精度95%→34.5%】「AI単体」の病名診断は優秀だが「一般人が自己診断にAIを使う」とダメダメになる」