主要なAIモデルがAGIテストで全滅：汎用人工知能の高い壁

2025年03月26日 12:00:39
オモシロ
ナゾロジー
コメント

ARC Prize Foundationが開発した新しいAIベンチマーク「ARC-AGI-2」において、多くの先端AIモデルが低スコアに終わりました。このベンチマークは、人間なら比較的容易に対処できる日常的なタスクに焦点を当てており、AIの柔軟性や効率性を評価するものです。結果として、多くのAIモデルが人間には簡単な直感的な問題に苦戦し、高度な計算力を投入しても正解にたどり着かない逆転現象が見られました。これは従来の知識量や計算力に依存したAIアプローチの限界を露わにし、より深い推論手法や新しいアルゴリズムの必要性を示しています。研究者たちは、このベンチマークを通じてAIが人間の直感や効率性をどの程度再現できるかを検証することに挑戦しています。

ARC Prize Foundationで行われた研究によって、新たなベンチマーク「ARC-AGI-2」の衝撃的な結果が明らかになりました。

これまで、人工知能（AI）はチェスや囲碁など高度な専門領域で人間のトッププレイヤーを凌駕し、「人間のように幅広い課題に柔軟に対処できる汎用人工知能（AGI）」の実現へと近づいていると期待されてきました。

しかし今回のARC-AGI-2では、多くの先端AIモデルが軒並み低スコアにとどまり、“全滅状態”に近い結末を迎えたのです。

このテストは、従来の「難問を解く」タイプとは正反対に、「人間なら比較的簡単に対処できる」日常的・直感的なタスクに注目しており、実際に人間パネル（複数の被験者）の平均スコアが約60％だったのに対し、AIは一桁台の正答率に終始するケースが相次ぎました。

さらにどれだけ多額の計算リソースを投入しても正答率が伸びない“逆転現象”も目立ち、「AIは何でもできるわけではないのか？」と改めて問いを突きつけています。

同時に、大規模計算ばかりに頼らず、新たな推論手法を開発する必要性が研究者コミュニティで一段と高まっているのです。

果たしてAI研究はここからどの方向へ進むのでしょうか？

知識量だけじゃ突破不能：AGIへの壁は高い
高性能AIの“日常力”はゼロ？新テストが明かす意外な落とし穴
人間なら当然の“省エネ思考”がAIを苦しめる

知識量だけじゃ突破不能：AGIへの壁は高い

チェスや将棋、そして囲碁など、人間にとって難解とされてきたボードゲームでAIが勝利を収めるたび、メディアは「AIが人間を超えた」と大きく取り上げてきました。

さらに画像認識や自然言語処理といった応用分野でも、深層学習（ディープラーニング）の登場によって飛躍的な性能向上が実現しています。

こうしたニュースを目にすると、多くの人が「このままAIが発展すれば、いずれ“なんでもできる汎用人工知能（AGI）”に到達するのではないか」と期待してしまうのも無理はありません。

ところが、AI研究者の間では以前から、「特定分野での強さ」と「どんな状況にも柔軟に対応できる汎用性」は別問題だと考えられてきました。

歴史を振り返ると、アラン・チューリングが提案した“Turing Test”や、その後の“Winograd Schema Challenge”“BIG-Bench”など、AGIの多面的な能力を測ろうとする試みは何度も行われてきました。

しかし多くのベンチマークが、博士号レベルの問題に正解できるかなど“高度な知識や言語能力”に偏ってきたため、まったく性質の異なる日常的な思考や直観を要する課題ではAIが苦戦する、という構造的なアンバランスが続いていました。

このギャップに着目し、2019年に登場したのが「ARC-AGI」と呼ばれる新しいベンチマークです。

人間が「パッと見ただけでルールをつかめる問題」にもかかわらず、AIにとっては“単純な暗記”では突破できないよう設計されているのが大きな特徴でした。

実際、ARC-AGI-1と名付けられた初代ベンチマークで、多くの先端AIモデルが苦戦を強いられ、人間の思考プロセスと機械の違いがはっきりと浮き彫りになったのです。

とはいえ、その後の研究やKaggleの「ARC Prize」コンテストを通じ、一部のモデルはARC-AGI-1で高いスコアを示すようになりました。

オープンAIの高度なAIシステムなども改良を進め、「人間に近い汎用的推論が見えてきたのでは？」という期待が2024年頃には高まりました。

しかし同時に、「それらのモデルが本当に未知の問題に適応しているのか？」という疑問や、「巨大計算による brute force 的なアプローチに頼っているだけでは？」という批判も強まったのです。

そもそもAGIは、人間のように少しのヒントでも新しい状況に応用できる能力が求められ、大量の計算リソースだけでは解決にならない可能性が高い――この認識が背景にありました。

そこで開発されたのが「ARC-AGI-2」です。

今回の新バージョンは効率性を強く意識し、AIの演算コストや推論コストを厳しく見る設計になっています。

さらに、文脈依存のルールや複雑なシンボル操作を含む多彩なパズルを加え、「人間なら短時間で対応できるのに、AIにはなかなか難しい」状況を提示することを重視しているのです。

こうした背景から、研究者たちは「人間が当たり前にこなす省コストな思考を、AIがどこまで再現できるか」を検証するために大規模実験を実施しました。

高性能AIの“日常力”はゼロ？新テストが明かす意外な落とし穴

この実験では、さまざまなAIモデルに対して「ARC-AGI-2」の問題を解かせ、正答率と“タスクあたりのコスト”の両面から評価しています。

タスクには、見慣れたシンボル（記号）の意味づけを文脈によって切り替えたり、「同じパターンを別の視点から再構成しないと正解が出ない」という、少し工夫すれば理解できそうな問題が多く含まれました。

たとえばある問題では、記号が数学の演算記号としての意味を持つ場合もあれば、全く別の操作を示す場合もあり、どの文脈でどう解釈すべきかを瞬時に判断する必要があります。

また、別のテストでは、同じパターンの図形が、見る角度や配置の違いによって異なるルールに従うという問題が出題され、AIにはその背後にある複雑なルールや文脈の変化を正しく読み取ることが求められました。

今回の研究では、以下のAIモデルを用いてARC-AGI-2のテストが実施されました。
・OpenAIの「o3-low」（Chain-of-Thought＋Search/Synthesis方式）
・OpenAIの「o1-pro」（Chain-of-Thought＋Search/Synthesis方式）
・Kaggle 2024優勝者「ARChitects」
・「o3-mini-high」（Single Chain-of-Thought方式）
・「r1」および「r1-zero」（いずれもSingle Chain-of-Thought方式）
・そして、純粋な大規模言語モデルとしての「GPT-4.5」

人間であれば、二度のトライ以内（pass@2）で正解にたどり着くケースが比較的多く見られ、平均してAIよりも高いスコアを記録したと言います。

ただし、人間が必ずしも全問を簡単に解いたわけではありません。

実際には人間パネルの平均スコアは約60％程度と報告されており、タスクによっては迷いが生じるものもありました。

また、AIの推論にかかった演算コストを貨幣換算すると、一問あたり200ドル相当という膨大なリソースが投入されても正解が出せない事例が複数確認されました。

とくにARC-AGI-1で高得点を出していた有名なAIが、ARC-AGI-2では一桁台に落ち込むなど、“得意だったモデルがまったく歯が立たない”という光景も目立ちました。

強力な計算力を注いでもスコアが伸び悩むことから、人間的な直観や省エネの思考プロセスを再現するのは決して簡単ではない、という事実が改めて浮き彫りになったのです。

なぜこの研究が革新的なのか？
ARC-AGI-2の最大の特徴は、「問題を解けるかどうか」に加えて「どの程度のコストで解いたか」という視点を入れたことです。
人間が持つ直観や柔軟性は巨大な計算を必要としませんが、多くのAIはそこが苦手であり、本質的な意味や文脈をつかむという部分を補う仕組みが不足していると言えます。
こうした弱点が明確になったことで、「本当に頭のいいAI」を実現するためには、ただ巨大なモデルを使うだけでは足りず、より深い推論手法や新しいアルゴリズムが求められるのではないかと考えられています。

人間なら当然の“省エネ思考”がAIを苦しめる

ARC-AGI-2の検証から見えてきたのは、AIがいくら大規模データや強力な演算力を備えていても、人間のような柔軟性や省エネルギー性を簡単には獲得できないという現実です。

専門家の多くは「従来のモデルは膨大なパターンを学習するには優れているが、初見の場面で抽象的な意味を再解釈する力が弱い」と指摘しています。

文脈やシンボルの意味を独自に理解する仕組みが不足しているため、ARC-AGI-2のような「人間ならさほど苦労せず対応できる」タスクでつまづいてしまうのです。

もう一つの大きな示唆は、AIの推論コストと効率がAGI開発において本質的な課題になりつつあるということです。

人間の脳は非常に省エネかつ高速に多様なタスクをこなしますが、現状のAIでは、莫大なリソースを投入しても「不完全な正答」にとどまる場面が多く見受けられます。

つまり、今後の研究では「どうやって少ないリソースで柔軟に推論できるか」を模索する必要があるわけです。

仮に今後、ARC-AGI-2を大きく突破するようなAIが出てきても、その先にはARC-AGI-3のような新たなベンチマークが待ち受けるかもしれません。

AGIとは何をどこまで指すのか、という哲学的な問題は依然として議論が続いており、ほんの一部のタスクを解けるようになっただけでは「汎用」とは呼べないという意見も根強いからです。

とはいえ、この研究が示す意義は非常に大きいでしょう。

AIにとって“当たり前のようで難しい”分野をあえて可視化し、次なる突破口を探る道筋を提示したからです。

実際、多くの研究者が「記号の意味を取り扱う理論」や「文脈を見極める推論アルゴリズム」などの新しいアイデアに着手し始めています。

単純な“データの量×モデルの巨大化”路線が限界を迎えつつある今、ARC-AGI-2が次世代AIの可能性を再考するきっかけになることは間違いありません。

要するに、このテストで明確になったのは「人間が普段何気なくこなしている柔軟性や効率性を、AIがいかに模倣できていないか」という点です。

AGIへの道のりは決して楽ではありませんが、だからこそ真のブレイクスルーが起きたときの衝撃は計り知れないともいえます。

今、私たちが見る“本物の汎用人工知能”はどんな姿なのか。

ARC-AGI-2という新たなハードルが、その疑問を一層刺激し、研究者たちの挑戦心をかき立てているように思えます。

全ての画像を見る

参考文献

ARC-AGI-2 + ARC Prize 2025 is Back
https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

ライター

川勝康弘: ナゾロジー副編集長。大学で研究生活を送ること10年と少し。小説家としての活動履歴あり。専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。夢は最新科学をまとめて小学生用に本にすること。

編集者

ナゾロジー編集部

アクセスランキング

Tips

主要なAIモデルがAGIテストで全滅：汎用人工知能の高い壁

知識量だけじゃ突破不能：AGIへの壁は高い

高性能AIの“日常力”はゼロ？新テストが明かす意外な落とし穴

人間なら当然の“省エネ思考”がAIを苦しめる

Starthome

StartHomeカテゴリー

主要なAIモデルがAGIテストで全滅：汎用人工知能の高い壁

AI記事要約

知識量だけじゃ突破不能：AGIへの壁は高い

高性能AIの“日常力”はゼロ？新テストが明かす意外な落とし穴

人間なら当然の“省エネ思考”がAIを苦しめる

Starthome

StartHomeカテゴリー