Google Gemma 4 登場——ローカルで動く、本格マルチモーダルAIの新基準
3行まとめ
- GoogleがGemini 3の技術を継承したオープンLLM 「Gemma 4」 を発表。Apache 2.0で商用利用も完全無制限
- E2B〜31Bの4サイズ展開で、スマホからGPUサーバーまで対応。全モデルがマルチモーダル・エージェント機能をネイティブ搭載
- ベンチマークではQwen 3.5・Llama 4と真っ向勝負。パラメータ効率でローカルLLMの新基準を打ち立てた
2026年4月2日、Google DeepMindが Gemma 4 を発表しました。Gemini 3の研究技術を土台に、オンデバイス・ローカルPC向けに徹底最適化されたオープンモデルファミリーです。ライセンスは Apache 2.0 ——商用利用も完全に自由です。
何が起きたか
「Gemma 4」 は、GoogleのオープンLLMシリーズ最新世代です。初代Gemmaのリリース以降、開発者による累計ダウンロード数は4億回を超え、派生モデル(Gemmaverse)は10万種以上が生まれています。今回のGemma 4は、そのコミュニティからのフィードバックを受けて設計されました。
なぜ今なのか
クローズドモデルとオープンモデルの性能差が急速に縮まっている中、Googleは 「ローカルで本格的なAIを動かせる時代」 を明確に打ち出しました。また、これまでのGemmaライセンスへの批判を受け、今回から完全にApache 2.0へ移行。商用利用・改変・再配布の制限をすべて撤廃したことも大きな転換点です。
モデルバリエーション——4サイズ展開、それぞれの立ち位置
📌 モデル名の読み方メモ:E2B・E4Bの 「E」 は Effective(実効パラメータ数)の略です。推論時に実際に動くパラメータ数が総数よりずっと小さく設計されているため、スペックの数字より「軽い」と思って大丈夫です。
モデル 実効パラメータ 総パラメータ 動作する場所の目安 E2B 約2.3B 約5.1B スマートフォン・Raspberry Pi・ブラウザ(RAM 5GB〜) E4B 約4.5B 約8B ミドルレンジスマホ・8GBラップトップ 26B A4B(MoE) 推論時約4B 26B VRAM 16GB以上のGPU搭載PC 31B Dense 31B 31B ハイエンドGPU(RTX 4090クラス)
小型モデルはPer-Layer Embeddings(PLE)でメモリ効率を高め、大型はMoE(Mixture of Experts)で推論コストを抑えています。コンテキスト長は小型で128K、大型で最大 256Kトークン 対応。140言語以上の多言語サポートも全モデル共通です。
技術・機能の要点
マルチモーダルとは——「テキスト以外も理解できる」ということ
「マルチモーダル」とは、文章だけでなく 画像・音声・動画なども一緒に入力できる 能力のことです。たとえば「この写真のグラフを解説して」「録音した会議の内容を要約して」といった使い方が、一つのモデルで完結します。
Gemma 4では全モデルが画像入力に対応。さらに小型のE2B・E4Bはネイティブの音声認識(ASR)まで対応しており、追加ツールなしでスピーチをテキストに変換できます。動画フレームの処理も可能で、テキストと画像を交互に混ぜたプロンプトも自然に扱えます。
具体的なユースケース例
- 撮影した書類や領収書の内容を読み取ってテキスト化(OCR)
- 商品画像を見せて「この料理の名前は?」「この部品の型番は?」と質問
- グラフや図表の画像を渡して解説・分析させる
- 会話音声をリアルタイムで文字起こし・翻訳(E2B/E4B)
- 動画の一場面を切り出して状況を説明させる
エージェント機能がネイティブで揃っている
ファンクションコール、構造化JSON出力、ステップバイステップ思考(Thinkingモード)が最初から組み込まれています。「まずツールを呼んで、結果を受け取って、次の行動を決める」という自律エージェントの動作が、追加のファインチューニングなしに実現できます。
コーディング支援もローカルで
Android Studioのローカルコーディングアシスタントとして公式サポートされており、オフライン環境でのコード生成・修正が得意です。
スマホで動くローカルLLM——E2B・E4Bの可能性
近年、PCだけでなく スマートフォン上にローカルLLMをインストールして使う ケースが増えています。iPhone 15 ProやSnapdragon 8 Elite搭載のAndroid端末など、最新スマホはAI処理向けの専用チップを搭載しており、クラウドに頼らずにモデルを動かせる環境が整いつつあります。
Gemma 4のE2Bはその筆頭候補です。RAM 5GB程度から動作し、LiteRT-LMを使えば 1.5GB以下のメモリ で推論が可能。Googleによれば前世代比で最大4倍高速・60%省電力を実現しており、AndroidではAICore Developer Preview経由で今すぐ試すことができます。
プライバシー保護・通信不要・ランニングコストゼロという三拍子が揃ったスマホローカルLLMは、業務用途での活用も現実的になってきました。
他のローカルLLMとのベンチマーク比較
Gemma 4の31B・26Bは「軽量級のボクサーがヘビー級の土俵で勝負する」ような存在感です。同サイズの他モデルを上回るだけでなく、自分の20倍以上のパラメータを持つモデルに匹敵するケースも報告されています。
主要ベンチマーク比較(2026年4月時点)
モデル MMLU Pro AIME 2026 GPQA Diamond Arena順位(オープン) ライセンス Gemma 4 31B 85.2% 89.2% 84.3% #3 Apache 2.0 Gemma 4 26B A4B(MoE) — 88.3% 82.3% #6 Apache 2.0 Qwen 3.5 27B 86.1% — 85.5% 上位 Apache 2.0 Qwen 3.5 397B-A17B 〜91% — 〜89% #1〜2帯 Apache 2.0 Llama 4 Scout(109B-A17B) やや劣る — — — コミュニティライセンス DeepSeek R1 高 — — #1〜2帯 MIT DeepSeek V3.2 66(BenchLM) — — 上位 MIT GLM-5 82(BenchLM首位) — — 上位 要確認 Kimi K2.5 — — — 31Bと同等 — Mistral Small 4(24B) 66(BenchLM) — — — Apache 2.0
読み方のポイント:
数学・推論(AIME)とコーディング(Codeforces ELO: 2150)ではGemma 4 31Bがライバルを上回ります。一方、MMLU ProとGPQA DiamondではQwen 3.5 27Bがわずかに優勢です。DeepSeek R1・GLM-5(中国系)はArena上位を占めていますが、企業利用では規制・コンプライアンス面での検討が必要です。
パラメータ効率という新しい見方: Gemma 4の26B A4Bは推論時に実際に動くのが3.8Bパラメータのみ。Llama 4 Scoutが17B、Qwen 3.5 397BのMoEが17Bを使うのと比較すると、単位パラメータあたりの効率は突出しています。
速度の現実: RTX 4090 + Q4量子化での推論速度はQwen 3.5 27Bが約35 tok/s、Gemma 4 31Bが約25 tok/sと後者がやや遅め。リアルタイム性が重要な用途では検討が必要です。
ローカルで動かすには
OllamaやLM Studioを使えば、コマンド1本またはGUIの数クリックで動かせます。
# Ollamaで試す場合(最速)
ollama pull gemma4:e4b # ラップトップ向け
ollama pull gemma4:26b-a4b # VRAM 16GB以上向け
💡 OllamaとLM Studioの詳しいインストール・設定方法は別記事で解説予定です。
最低スペック目安: E2Bはスマホ・RAM 5GB〜、E4Bは8GBラップトップから、26B A4BはVRAM 16GB以上、31B DenseはQ4量子化でRTX 4090クラスで実用範囲内。
まとめ
Gemma 4の最大のメッセージは 「本格的なマルチモーダルAIがローカルで民主化された」 という一点に尽きます。画像・音声・動画を扱えるマルチモーダル機能、エージェントとしての自律動作、スマホ〜GPUサーバーまでをカバーする幅広いサイズ展開——これらがApache 2.0という完全オープンなライセンスで手に入ります。
まず試すなら、 E4BかMoE 26B をOllamaで動かしてみるのがおすすめです。
参考:Google公式ブログ(2026年4月2日)、Google DeepMind Gemma 4(2026年4月)、Hugging Face Blog - Welcome Gemma 4(2026年4月)、Lushbinary - Gemma 4 Developer Guide(2026年4月)、 ai.rs - Gemma 4 vs Qwen 3.5 vs Llama 4(2026年4月)、 BenchLM.ai Open Source LLM Rankings(2026年4月)
No comments yet