starthome-logo 無料ゲーム
starthome-logo

OpenAI・Llamaへの対抗馬。Googleが放つGemma 4の「責任あるAI」評価と、多言語140言語超の破壊力


最大256,000トークンの長いコンテキストと拡張マルチモーダル処理を備えたGemma 4が公開されました。Google DeepMindが提供する本ファミリーは、テキストと画像の入力に標準対応し、E2BとE4Bの小型モデルでは音声も扱えます。事前学習済みと指示チューニング済みのオープンウェイトが用意され、E2B、E4B、26B A4B、31Bという4サイズをラインアップします。スマートフォン級からワークステーション、サーバーまで幅広い環境でのデプロイが想定され、アクセス性の高さが特徴です。Gemma 4は思考モードや関数呼び出し、ネイティブのsystemロール対応など運用面の強化が進み、コーディングや推論、エージェント用途まで視野が広がりました。多言語は即時35言語に対応し、事前学習では140言語超をカバーしています。

アーキテクチャの要点 ハイブリッドアテンションとサイズ別の狙い

Gemma 4は高密度とMoEの両アーキテクチャを展開し、長文と効率の両立を志向します。ローカルのスライディングウィンドウとグローバルアテンションを交互に配置するハイブリッド設計を採用し、最終レイヤは常にグローバルです。グローバルレイヤでは統合キーと値、比例RoPEを用いて長文の記憶効率を高めます。小型のE2BとE4Bはレイヤごとのエンベディングを活用し、有効パラメータを抑えつつオンデバイス実行の効率を確保します。31B Denseと26B A4Bは256Kコンテキストに対応し、後者は推論時に約4Bのアクティブパラメータのみを用いて高速化を実現します。画像は可変アスペクト比と解像度に対応し、70から1120までのトークン予算で詳細度と計算量のバランスを選べます。音声はE2BとE4Bで最大30秒、動画は1秒あたり1フレーム換算で最大60秒の入力を扱えます。

ベンチマーク結果 テキスト、コード、視覚、長文で前世代比の改善

公開スコアでは、31BがMMLU Proで85.2パーセント、AIME 2026 no toolsで89.2パーセント、LiveCodeBench v6で80.0パーセントを記録しました。26B A4BもMMLU Proで82.6パーセント、コード系で77.1パーセントと高水準です。視覚系では、31BがMMMU Proで76.9パーセント、OmniDocBench 1.5の平均編集距離は0.131と良好な値が示されています。長文ではMRCR v2 8 針 128kで31Bが66.4パーセントを記録し、長いコンテキスト処理の強みを裏付けています。小型のE2BとE4Bは音声領域のCoVoSTやFLEURSでも数値が提示され、オンデバイスでの音声対応ユースケースを後押しします。総じて、Gemma 3や同サイズ帯との比較で幅広い改善が確認され、用途拡大と性能向上の両立がうかがえます。

実装の勘所 Transformers対応と推奨設定

Gemma 4はTransformersで利用可能で、AutoProcessorとAutoModelForCausalLMで読み込みと生成を行います。標準サンプリングはtemperature 1.0、top_p 0.95、top_k 64が提示されています。思考モードはシステムプロンプト先頭に専用トークンを置くことで有効化でき、マルチターンでは履歴に思考コンテンツを残さない運用が推奨されます。マルチモーダル入力は、画像や音声をテキスト前に配置すると性能を引き出しやすく、画像タスクでは目的に応じてトークン予算を調整します。OCRや小さな文字の読取りには高予算、動画理解や分類など広く粗い把握が目的なら低予算が向きます。E2BとE4Bは音声のASRや翻訳に対応し、短尺の音声対話やオンデバイスの字幕生成などに適用可能です。

データ、倫理、安全性 前処理と評価でリスクを抑制

事前学習データは2025年1月カットオフで、ウェブ文書、コード、数学、画像、音声を含む多様なコレクションが用いられました。前処理ではCSAMの厳格な除外、特定個人情報をはじめとするセンシティブデータのフィルタリング、ポリシー準拠の品質管理が実施されています。安全性は社内の責任あるAIチームと連携して自動評価と人手評価の両面で確認され、児童性的虐待や危険行為の助長、露骨な性的表現、ヘイトスピーチ、ハラスメントの抑止を指針としています。安全フィルターなしの評価においても、テキストと画像の双方でポリシー違反の最小化が報告され、前世代からの改善が示されています。

使用目的と制限 期待値と注意点の整理

想定用途は、テキスト生成や要約、会話型AI、画像データ抽出、音声処理、研究や教育支援まで幅広く示されています。一方で、トレーニングデータ由来のバイアスやギャップ、オープンエンドで極端に複雑な課題への弱さ、曖昧表現の解釈や事実正確性、常識推論の限界といった制約も明記されています。倫理面では、誤情報や不正使用、プライバシー、バイアスの永続化に対する軽減策が提示され、運用時の継続的モニタリングとポリシー適合の重要性が強調されています。リリース時点では、同サイズ帯のモデルと比べ、責任あるAI開発を前提にした高性能なオープンVLM実装を提供する点がメリットとして位置づけられます。

詳しくは「Google DeepMind」の公式ページまで。レポート/DXマガジン編集部

    Loading...
    アクセスランキング
    game_banner
    Starthome

    StartHomeカテゴリー

    Copyright 2026
    ©KINGSOFT JAPAN INC. ALL RIGHTS RESERVED.