Google Gemma 4 登場——ローカルで動く、本格マルチモーダルAIの新基準

3行まとめ

GoogleがGemini 3の技術を継承したオープンLLM 「Gemma 4」 を発表。Apache 2.0で商用利用も完全無制限
E2B〜31Bの4サイズ展開で、スマホからGPUサーバーまで対応。全モデルがマルチモーダル・エージェント機能をネイティブ搭載
ベンチマークではQwen 3.5・Llama 4と真っ向勝負。パラメータ効率でローカルLLMの新基準を打ち立てた

2026年4月2日、Google DeepMindが Gemma 4 を発表しました。Gemini 3の研究技術を土台に、オンデバイス・ローカルPC向けに徹底最適化されたオープンモデルファミリーです。ライセンスは Apache 2.0 ——商用利用も完全に自由です。

何が起きたか

「Gemma 4」 は、GoogleのオープンLLMシリーズ最新世代です。初代Gemmaのリリース以降、開発者による累計ダウンロード数は4億回を超え、派生モデル（Gemmaverse）は10万種以上が生まれています。今回のGemma 4は、そのコミュニティからのフィードバックを受けて設計されました。

なぜ今なのか

クローズドモデルとオープンモデルの性能差が急速に縮まっている中、Googleは 「ローカルで本格的なAIを動かせる時代」 を明確に打ち出しました。また、これまでのGemmaライセンスへの批判を受け、今回から完全にApache 2.0へ移行。商用利用・改変・再配布の制限をすべて撤廃したことも大きな転換点です。

モデルバリエーション——4サイズ展開、それぞれの立ち位置

📌 モデル名の読み方メモ：E2B・E4Bの 「E」 は Effective（実効パラメータ数）の略です。推論時に実際に動くパラメータ数が総数よりずっと小さく設計されているため、スペックの数字より「軽い」と思って大丈夫です。

モデル実効パラメータ総パラメータ動作する場所の目安 E2B 約2.3B 約5.1B スマートフォン・Raspberry Pi・ブラウザ（RAM 5GB〜） E4B 約4.5B 約8B ミドルレンジスマホ・8GBラップトップ 26B A4B（MoE）推論時約4B 26B VRAM 16GB以上のGPU搭載PC 31B Dense 31B 31B ハイエンドGPU（RTX 4090クラス）

小型モデルはPer-Layer Embeddings（PLE）でメモリ効率を高め、大型はMoE（Mixture of Experts）で推論コストを抑えています。コンテキスト長は小型で128K、大型で最大 256Kトークン 対応。140言語以上の多言語サポートも全モデル共通です。

技術・機能の要点

マルチモーダルとは——「テキスト以外も理解できる」ということ

「マルチモーダル」とは、文章だけでなく 画像・音声・動画なども一緒に入力できる 能力のことです。たとえば「この写真のグラフを解説して」「録音した会議の内容を要約して」といった使い方が、一つのモデルで完結します。

Gemma 4では全モデルが画像入力に対応。さらに小型のE2B・E4Bはネイティブの音声認識（ASR）まで対応しており、追加ツールなしでスピーチをテキストに変換できます。動画フレームの処理も可能で、テキストと画像を交互に混ぜたプロンプトも自然に扱えます。

具体的なユースケース例

撮影した書類や領収書の内容を読み取ってテキスト化（OCR）
商品画像を見せて「この料理の名前は？」「この部品の型番は？」と質問
グラフや図表の画像を渡して解説・分析させる
会話音声をリアルタイムで文字起こし・翻訳（E2B/E4B）
動画の一場面を切り出して状況を説明させる

エージェント機能がネイティブで揃っている

ファンクションコール、構造化JSON出力、ステップバイステップ思考（Thinkingモード）が最初から組み込まれています。「まずツールを呼んで、結果を受け取って、次の行動を決める」という自律エージェントの動作が、追加のファインチューニングなしに実現できます。

コーディング支援もローカルで

Android Studioのローカルコーディングアシスタントとして公式サポートされており、オフライン環境でのコード生成・修正が得意です。

スマホで動くローカルLLM——E2B・E4Bの可能性

近年、PCだけでなく スマートフォン上にローカルLLMをインストールして使う ケースが増えています。iPhone 15 ProやSnapdragon 8 Elite搭載のAndroid端末など、最新スマホはAI処理向けの専用チップを搭載しており、クラウドに頼らずにモデルを動かせる環境が整いつつあります。

Gemma 4のE2Bはその筆頭候補です。RAM 5GB程度から動作し、LiteRT-LMを使えば 1.5GB以下のメモリ で推論が可能。Googleによれば前世代比で最大4倍高速・60%省電力を実現しており、AndroidではAICore Developer Preview経由で今すぐ試すことができます。

プライバシー保護・通信不要・ランニングコストゼロという三拍子が揃ったスマホローカルLLMは、業務用途での活用も現実的になってきました。

他のローカルLLMとのベンチマーク比較

Gemma 4の31B・26Bは「軽量級のボクサーがヘビー級の土俵で勝負する」ような存在感です。同サイズの他モデルを上回るだけでなく、自分の20倍以上のパラメータを持つモデルに匹敵するケースも報告されています。

主要ベンチマーク比較（2026年4月時点）

モデル MMLU Pro AIME 2026 GPQA Diamond Arena順位（オープン）ライセンス Gemma 4 31B 85.2% 89.2% 84.3% #3 Apache 2.0 Gemma 4 26B A4B（MoE） — 88.3% 82.3% #6 Apache 2.0 Qwen 3.5 27B 86.1% — 85.5% 上位 Apache 2.0 Qwen 3.5 397B-A17B 〜91% — 〜89% #1〜2帯 Apache 2.0 Llama 4 Scout（109B-A17B）やや劣る — — — コミュニティライセンス DeepSeek R1 高 — — #1〜2帯 MIT DeepSeek V3.2 66（BenchLM） — — 上位 MIT GLM-5 82（BenchLM首位） — — 上位要確認 Kimi K2.5 — — — 31Bと同等 — Mistral Small 4（24B） 66（BenchLM） — — — Apache 2.0

読み方のポイント：

数学・推論（AIME）とコーディング（Codeforces ELO: 2150）ではGemma 4 31Bがライバルを上回ります。一方、MMLU ProとGPQA DiamondではQwen 3.5 27Bがわずかに優勢です。DeepSeek R1・GLM-5（中国系）はArena上位を占めていますが、企業利用では規制・コンプライアンス面での検討が必要です。

パラメータ効率という新しい見方： Gemma 4の26B A4Bは推論時に実際に動くのが3.8Bパラメータのみ。Llama 4 Scoutが17B、Qwen 3.5 397BのMoEが17Bを使うのと比較すると、単位パラメータあたりの効率は突出しています。

速度の現実： RTX 4090 + Q4量子化での推論速度はQwen 3.5 27Bが約35 tok/s、Gemma 4 31Bが約25 tok/sと後者がやや遅め。リアルタイム性が重要な用途では検討が必要です。

ローカルで動かすには

OllamaやLM Studioを使えば、コマンド1本またはGUIの数クリックで動かせます。

# Ollamaで試す場合（最速）
ollama pull gemma4:e4b   # ラップトップ向け
ollama pull gemma4:26b-a4b  # VRAM 16GB以上向け

💡 OllamaとLM Studioの詳しいインストール・設定方法は別記事で解説予定です。

最低スペック目安： E2Bはスマホ・RAM 5GB〜、E4Bは8GBラップトップから、26B A4BはVRAM 16GB以上、31B DenseはQ4量子化でRTX 4090クラスで実用範囲内。

まとめ

Gemma 4の最大のメッセージは 「本格的なマルチモーダルAIがローカルで民主化された」 という一点に尽きます。画像・音声・動画を扱えるマルチモーダル機能、エージェントとしての自律動作、スマホ〜GPUサーバーまでをカバーする幅広いサイズ展開——これらがApache 2.0という完全オープンなライセンスで手に入ります。

まず試すなら、 E4BかMoE 26B をOllamaで動かしてみるのがおすすめです。

参考：Google公式ブログ（2026年4月2日）、Google DeepMind Gemma 4（2026年4月）、Hugging Face Blog - Welcome Gemma 4（2026年4月）、Lushbinary - Gemma 4 Developer Guide（2026年4月）、 ai.rs - Gemma 4 vs Qwen 3.5 vs Llama 4（2026年4月）、 BenchLM.ai Open Source LLM Rankings（2026年4月）

Google Gemma 4 登場——ローカルで動く、本格マルチモーダルAIの新基準

Google Gemma 4 登場——ローカルで動く、本格マルチモーダルAIの新基準

3行まとめ

何が起きたか

なぜ今なのか

モデルバリエーション——4サイズ展開、それぞれの立ち位置

技術・機能の要点

マルチモーダルとは——「テキスト以外も理解できる」ということ

エージェント機能がネイティブで揃っている

コーディング支援もローカルで

スマホで動くローカルLLM——E2B・E4Bの可能性

他のローカルLLMとのベンチマーク比較

主要ベンチマーク比較（2026年4月時点）

ローカルで動かすには

まとめ

No comments yet

Continue reading

AIエージェントを変える10社——ChatGPT・Grok・Claudeはそれぞれどの企業を推すか

人気の靴屋Allbirdsが靴屋を捨ててAI企業にピボットしただけで、株価が600％急騰

評価額1800億円。AIが株を売買するとき、日本人2人が作った"金融インフラ"が動いている