米MetaがLlama 4シリーズを発表、ネイティブマルチモーダルとMoEアーキテクチャ採用の3種類モデルを公開

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2025年04月のアーカイブ一覧
【2025年04月】AIに関するアーカイブ一覧
【2025年04月09日】AIに関するアーカイブ一覧
米MetaがLlama 4シリーズを発表、ネイティブマルチモーダルとMoEアーキテクチャ採用の3種類モデルを公開

記事の要約
MetaがマルチモーダルAI「Llama 4」シリーズを発表、3種類のモデルをリリース
Llama 4シリーズの仕様比較
MoE（Mixture of Experts）アーキテクチャについて
Llama 4に関する考察
参考サイト

記事の要約

米Metaが4月5日に「Llama 4」を発表
Scout、Maverick、Behemothの3種類のモデルを用意
ScoutとMaverickはllama.comとHugging Faceでダウンロード可能

MetaがマルチモーダルAI「Llama 4」シリーズを発表、3種類のモデルをリリース

米Metaは4月5日（現地時間）、ネイティブマルチモーダル性と前例のないコンテキスト長サポートを備えた「Llama 4」シリーズを発表した。このシリーズは「Scout」「Maverick」「Behemoth」の3種類のモデルで構成されており、複数の専門家モデルを組み合わせて使用するMoE（Mixture of Experts）アーキテクチャを初めて採用している。単一のトークンが全パラメーターの一部のみをアクティブ化する仕組みにより、トレーニングと推論の計算効率が大幅に向上したのだ。^[1]

「Llama 4 Scout」は16のエキスパートと170億のアクティブパラメーター、合計1,090億のパラメーターを備え、単一のNVIDIA H100 GPUに収まりながらも従来のLlamaモデルよりも強力な性能を発揮する。このモデルは業界をリードする1,000万トークンのコンテキストウィンドウを提供し、Gemma 3やGemini 2.0 Flash-Lite、Mistral 3.1といった競合モデルを様々なベンチマークで上回る結果を示している。

より強力な「Llama 4 Maverick」は128のエキスパート、170億のアクティブパラメーター、合計4,000億のパラメーターを持ち、GPT-4oやGemini 2.0 Flashを上回る性能を発揮する。特筆すべきは推論とコーディング分野においてDeepSeek v3と匹敵する結果を半分以下のアクティブパラメーターで達成している点だ。両モデルはllama.comおよびHugging Faceから即日ダウンロード可能となっている。

Llama 4シリーズの仕様比較

	Llama 4 Scout	Llama 4 Maverick	Llama 4 Behemoth
アクティブパラメーター	170億	170億	2,880億
エキスパート数	16	128	16
総パラメーター	1,090億	4,000億	約2兆
コンテキスト長	1,000万トークン	-	-
特徴	単一H100 GPUで動作	画像理解とクリエイティブな文章生成に最適	現在トレーニング中
入手可否	ダウンロード可能	ダウンロード可能	未リリース

MoE（Mixture of Experts）アーキテクチャについて

MoEとは「Mixture of Experts」の略称で、複数の専門家モデル（エキスパート）を組み合わせて使用する深層学習アーキテクチャのことを指す。主な特徴として、以下のような点が挙げられる。

単一トークンが全パラメーターの一部のみをアクティブ化
計算効率が高く、トレーニングと推論の両方で優位性を発揮
固定のトレーニングFLOPs予算で従来の密モデルより高品質な結果を実現

Llama 4 Maverickの例では、170億のアクティブパラメーターと4,000億の総パラメーターを持ち、交互に配置された密層とMoE層を使用して推論効率を高めている。MoE層では128のルーティングされたエキスパートと共有エキスパートを使用し、各トークンは共有エキスパートと128のルーティングされたエキスパートのうちの1つに送られることで、すべてのパラメーターがメモリに保存されていても実際に使用されるのは一部だけというモデル構造となっている。

Llama 4に関する考察

Metaによる「Llama 4」シリーズの発表は、オープンソースAIモデルの進化において重要なマイルストーンと言える。特に「Scout」モデルが提供する1,000万トークンのコンテキストウィンドウは業界最長レベルであり、膨大なドキュメントの要約や大規模コードベースの分析など、従来のAIモデルでは困難だった用途への道を開くだろう。また、MoEアーキテクチャの採用により、比較的小さなアクティブパラメーター数でも高性能を実現している点は、限られた計算資源でAIモデルを活用したい開発者やスタートアップにとって朗報となるはずだ。

一方で今後の課題としては、エキスパートの数やパラメーター量の最適なバランスをどう決定するかという問題が考えられる。MoEアーキテクチャでは総パラメーター数が膨大になるため、メモリ使用量の観点からデプロイメントが複雑になる可能性がある。また、マルチモーダル能力の実用レベルでの有効性や、様々な言語への対応度合いなども実際の利用シーンで検証が必要となるだろう。Metaには継続的な改良と共に、より使いやすいAPIやツールの提供も期待したい。

将来的には「Llama 4 Behemoth」の正式リリースにより、オープンソースAIエコシステム全体の底上げが期待される。2兆パラメーターという規模は従来のオープンモデルの限界を大きく超えるものであり、企業や組織が独自のニーズに合わせたカスタマイズができるという点で、AIの民主化に大きく貢献するだろう。オープンソースとクローズドソースのAIモデル間の性能差がさらに縮まることで、より多様なイノベーションが促進されることを期待したい。