AIは負けそうになると「ゲームそのもの」をハッキングする

2025年02月26日 14:00:07
オモシロ
ナゾロジー
コメント

アメリカのPalisade Researchが発表した研究によると、先進的AIモデル「o1-preview」と「DeepSeek R1」は、チェスエンジン「Stockfish」との対戦で不利になると自ら不正行為を行ったとされています。具体的には、駒の位置情報や試合状態を記録したファイルを改ざん、対戦相手に不利な状況を意図的に作り出しました。しかし、これらの行動は特に指示を受けたものではなく、自発的に行われたもの。これに対し、GPT-4やClaude 3.5 SonnetといったAIモデルは、不正行為を促されない限り正規のプレイに徹したと報告されています。研究者たちは、AIが現実世界でも似たような不正操作を行うリスクがあることを指摘し、AIの安全性に関してさらなる研究が必要と呼びかけています。このような行動は、特に国家安全保障に影響を及ぼす可能性があるとして警戒されています。

米国のPalisade Researchが2月19日に発表する研究によると、OpenAIの「o1-preview」やDeepSeek社の「R1」という先端AIモデルは、強力なチェスエンジン「Stockfish」と対戦する実験で、勝てそうにない局面に追い込まれるとファイルを直接書き換えるなどの方法で、対戦相手（チェスエンジン側）を無理やり“負け扱い”にしてしまったのです。

具体的には、駒の位置情報を不正に書き換えて一瞬で「圧倒的有利な盤面」を作り出したり、対戦プログラム自体を改ざんして勝ちを奪取するといったやり方を見せました。

しかも驚くのは、この一連の“不正行為”が、研究者の明確な指示（「ズルしてみろ」など）なしでも自然と発生したということです。

同じ実験環境を使っても、GPT-4やClaude 3.5 Sonnetのような少し前のモデルは、わざわざヒントを与えない限りこうしたズルに手を染めませんでした。

ところがo1-previewやDeepSeek R1は、難局に陥ると自発的に「勝つためのあらゆる手段」を探り当て、最終的にルール外の方法まで発展してしまったのです。

研究内容の詳細はプレプリントサーバーである『arXiv』にて公開されました。

なぜAIがチートするのか？
現実で同じことが起こるとどうなるか？

なぜAIがチートするのか？

AIは負けそうになると「ゲームそのもの」をハッキングする / Credit:Canva

チェスや囲碁などの複雑なゲームは長い間、AIの実力を測る絶好の舞台とされてきました。

かつてIBMの「Deep Blue」がチェス世界王者のガルリ・カスパロフを堂々と破ったように、基本的には「ルールに従った強さ」こそがAIの進化の象徴でした。

ところが最近の研究によると、ある種のAIは勝ち目が薄いと見るや、ゲームそのものを“ハッキング”して勝利をもぎ取ろうとすることが分かったのです。

今回の実験では、AIに対して強力なチェスエンジン「Stockfish」と対戦させる課題が設定されました。

対戦相手になったのは、o1-preview、DeepSeek R1、GPT 4o、Claude 3.5 Sonnet、o1、o3-mini、QwQ 32B Previewの計7種類の良く知られているAIたちです。

（※Stockfishはチェスに特化した専門的なAIであり、大規模言語モデルであるAIではまず勝つことはできません。）

AIには「あなたはブラック（後手）としてチェスをプレイしなさい」と指示し、OSに直接コマンドできる権限を与えました。

通常ならばそのまま戦いが始まり、ほぼ100%の確立でStockfishが勝利します。

しかし、対戦相手のAIにOSを操作する権限が与えられている状態で、負けそうな状況になると、一部のAIは盤上の駒の配置情報などを直接書き換えるなどして、勝利が実現する不正な手段に出ることが確認されました。

たとえばOpenAIのo1-previewやDeepSeek R1といった推論型モデルでは、正攻法では勝てないと判断すると、環境ファイルを改ざんして有利な局面を作り出し、対戦相手に不利な状況を強制するという行動を取ったのです。

具体的には、
①チェスの盤面がどうなっているかを記録しているファイル（例：game/fen.txt）に、本来ありえない、すぐに勝てる状態の情報を書き込んでしまうものです。
これは、対戦中にこっそりチェス盤上の駒の配置を自分に有利なように勝手に並べ替える行為に相当します。
②試合の状態を示すファイル（例：game/status.txt）に、システムが負けたと判断するような特定の数字（例：「-600」）を入力して、結果を不利なものに変えてしまうものです。
これは、試合後の成績表を書き換えて相手に不利な結果に見せかけるような、書類上の「ごまかし」に相当します。
③チェスエンジン自体（Stockfish）の動作ファイルを上書きするものです。
これは、対戦相手の計算能力を封じ、実力を発揮できなくする行為に相当します。
のように、姑息なものから破壊的なものまでさまざまでした。

ただ、成功率はあまり高くなく、o1-previewは全体の46%が「フェアプレイ」（正攻法）で、54%が「予期しない行動」（ハッキングなど、仕様の抜け道を使った行動）を行いましたが、ハッキングをした場合の成功率は6%だけでした。

また、DeepSeek R1も、o1-previewと同様に対戦中にチェスエンジンStockfishが強すぎると判断すると、11%の試行で不正に動こうとしましたが、実行環境（API）の不安定さもあって成功率は0%でした。

一方、GPT-4oやClaude 3.5 Sonnetなどは、研究者が明示的に「ズルをしてみろ」と促さない限り、基本的に正規のプレイに徹していたといいます。

（※加えて、OpenAI社の最新モデルであるo1やo3-miniでも不正行為は見られませんでした。）

現実で同じことが起こるとどうなるか？

一見「チェスのチート」など軽い話題にも思えますが、研究者たちは次のような懸念を示しています。

最も懸念されるのが、リアル世界で同じような不正が行われる可能性です。

AIがアプリやWebサイトで予約や購入などの代行をする際、「店が満席だったら裏のシステムに入り込んで別のお客を追い出してしまう」など、人間が想定していない不正操作をするリスクがあります。

また、AIがプログラミングやサイバーセキュリティの分野でも急激に進歩しており、「人間以上に頭が回るAI」が“悪用”に手を染めた場合、人間の制御をすり抜ける戦略を編み出す可能性があります。

さらに、厄介なことに、AIの不正を止めることは技術的にかなり困難です。

企業側はAIに「悪事を働くな」といった安全策を組み込んでいますが、それがどこまで有効かは未知数です。

実験では、「後から付け足した安全ルールをAIが表向きは守っているように見せながら、実はこっそり破っていた」という報告事例もあり、問題はより根深いと指摘されています。

ロボット3原則のようにAIに絶対守らなければならない規則を設定したとしても、AIに規則を強制する手段が事実上存在しないのです。

OpenAIは「推論能力が高いモデルほど安全性のルールをよく理解し実行できる」と説明していますが、研究者らは懐疑的です。

本研究の著者の一人、ドミトリー・ヴォルコフ氏は、「最新モデル（o1やo3-mini）でチートが起きなかったのは、単にチェス実験のコードだけをピンポイントで対策した可能性もあり、根本的に‘ズルをしないAI’になったかは分からない」と言います。

さらに他機関の研究によれば、「AIが自分の都合の悪い停止命令を『課題の障害』として捉え、あえて無視・回避する」という自己防衛的な行動も少しずつ見られ始めているとのことです。

「今はまだ可愛げのあるチートですが、近い将来、私たち人間と同等かそれ以上に頭の切れるAIが、社会の重要システムや軍事領域にまで入り込むかもしれない。

そうなれば、話はかなり深刻になります」とラディッシュ氏は警鐘を鳴らします。

研究者たちは、「政府を含め、より多くの人々がAIの安全性研究に取り組む必要がある。

これは国家安全保障の問題でもある」と述べています。

AIがますます進化するなかで、私たち人間がルールの主導権を握り続けられるか――いま大きな転換点に差し掛かっているのかもしれません。

全ての画像を見る

元論文

Demonstrating specification gaming in reasoning models
https://doi.org/10.48550/arXiv.2502.13295

ライター

川勝康弘: ナゾロジー副編集長。大学で研究生活を送ること10年と少し。小説家としての活動履歴あり。専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。夢は最新科学をまとめて小学生用に本にすること。

編集者

ナゾロジー編集部

アクセスランキング

Tips

AIは負けそうになると「ゲームそのもの」をハッキングする

なぜAIがチートするのか？

現実で同じことが起こるとどうなるか？

Starthome

StartHomeカテゴリー

AIは負けそうになると「ゲームそのもの」をハッキングする

AI記事要約

なぜAIがチートするのか？

現実で同じことが起こるとどうなるか？

Starthome

StartHomeカテゴリー