xAIがGrok-2とGrok-2 miniをベータリリース、GPT-4やClaude 3.5を上回る性能を示す

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

記事の要約

xAIがGrok-2とGrok-2 miniをベータリリース
新モデルはAI処理能力が大幅に向上
XプラットフォームとAPI経由で利用可能に

xAIが新世代AIモデルGrok-2とGrok-2 miniを発表

xAIは2024年8月13日、独自の大規模言語モデルGrokの最新版となる「Grok-2」および小型版の「Grok-2 mini」のベータ版をリリースした。両モデルは現在、Xプラットフォーム上のGrokユーザーに提供されており、チャット、コーディング、推論などの分野で高度な能力を発揮する。Grok-2は先行してLMSYSリーダーボードでテストされ、Claude 3.5 SonnetやGPT-4-Turboを上回る性能を示している。^[1]

Grok-2とGrok-2 miniは、X上でベータ版として提供されているほか、今月中に企業向けAPIを通じても利用可能になる予定だ。xAIの内部評価によると、Grok-2は特に検索コンテンツの推論やツールの使用能力において大幅な改善が見られ、欠落情報の特定や一連のイベントの推論、無関係な投稿の排除などのタスクで優れた性能を発揮している。

ベンチマークテストでは、Grok-2とGrok-2 miniが両方とも前モデルのGrok-1.5から大幅な性能向上を達成した。特に大学院レベルの科学知識(GPQA)、一般知識(MMLU、MMLU-Pro)、数学コンペティション問題(MATH)などの分野で他の最先端モデルと競争力のある結果を示している。さらにGrok-2は視覚ベースのタスクでも優れており、視覚的数学推論(MathVista)や文書ベースの質問応答(DocVQA)で最先端の性能を発揮している。

Grok-2とGrok-2 miniの性能比較

	Grok-1.5	Grok-2 mini	Grok-2	GPT-4 Turbo	Claude 3 Opus
GPQA	35.9%	51.0%	56.0%	48.0%	50.4%
MMLU	81.3%	86.2%	87.5%	86.5%	85.7%
MMLU-Pro	51.0%	72.0%	75.5%	63.7%	68.5%
MATH	50.6%	73.0%	76.1%	72.6%	60.1%
HumanEval	74.1%	85.7%	88.4%	87.1%	84.9%

LMSYSリーダーボードについて

LMSYSリーダーボードとは、言語モデルの性能を競争的に評価するためのベンチマークプラットフォームのことを指しており、主な特徴として以下のような点が挙げられる。

様々な言語モデルの性能を客観的に比較可能
チャットボットアリーナを通じてリアルタイムの評価を実施
Eloスコアを用いて総合的な性能をランキング化

Grok-2は「sus-column-r」という名前でLMSYSリーダーボードに登場し、総合的なEloスコアでClaude 3.5 SonnetやGPT-4-Turboを上回る性能を示した。このリーダーボードは、AIモデルの実世界での性能を反映するタスクを通じて評価を行っており、Grok-2の高いスコアは実用的なAI応用における優位性を示唆している。

Grok-2とGrok-2 miniのリリースに関する考察

Grok-2とGrok-2 miniのリリースは、AIの進化において重要なマイルストーンとなる可能性が高い。特に、これらのモデルがGPT-4やClaude 3.5などの強力な競合を上回る性能を示していることは注目に値する。しかし、AIモデルの急速な進化に伴い、倫理的な問題や誤情報の拡散、プライバシーの懸念など、新たな課題が浮上する可能性も高いだろう。

これらの課題に対しては、AIの開発者と利用者双方による責任ある使用が求められる。xAIには、モデルの透明性を高め、バイアスの軽減や安全性の向上に継続的に取り組むことが期待される。同時に、ユーザー側も、AIの出力を批判的に評価し、適切に利用する能力を養う必要があるだろう。

今後、Grok-2とGrok-2 miniには、マルチモーダル理解やより高度な推論能力など、さらなる機能の追加が期待される。特に、Xプラットフォーム上での検索機能の強化や投稿内容の深い洞察、改善された返信機能など、ソーシャルメディア領域でのAI応用が注目されるだろう。xAIの小規模ながら高度な人材を擁するチームの今後の展開に、業界の注目が集まることは間違いない。