公開:

国立情報学研究所が世界最大規模のオープンLLMを一般公開、GPT-3.5を上回る性能を達成

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • NIIが約1,720億パラメータのLLM「llm-jp-3-172b-instruct3」を公開
  • 2.1兆トークンの学習データを用いてフルスクラッチで開発
  • GPT-3.5を超える性能を達成し世界最大規模のオープンモデルに

国立情報学研究所が世界最大規模のオープンLLMを一般公開

国立情報学研究所の大規模言語モデル研究開発センターは、約1,720億パラメータの大規模言語モデル「llm-jp-3-172b-instruct3」を2024年12月24日に一般公開した。このモデルは2.1兆トークンの学習データを用いてフルスクラッチで開発され、学習データまで含めすべてオープンなモデルとしては世界最大規模となっている。[1]

本モデルは日本語理解能力を測るベンチマーク「llm-jp-eval」において0.613のスコアを達成し、GPT-3.5の0.590を0.023ポイント上回る性能を示している。さらにGENIACプロジェクトで使用される「llm-leaderboard」でも0.669を記録し、GPT-3.5の0.653を0.016ポイント上回る結果となった。

モデルの開発には、グーグル・クラウド・ジャパンとさくらインターネットのクラウド計算資源が活用された。日本語約5,920億トークン、英語約9,500億トークン、他言語約10億トークン、プログラムコード約1,140億トークンの多様なデータセットを用いて学習が行われている。

llm-jp-3-172b-instruct3の詳細情報

項目 詳細
パラメータ数 約1,720億個(172B)
モデルアーキテクチャ Llama 2ベース
学習データ総量 約2.1兆トークン
日本語データ量 約5,920億トークン
評価スコア llm-jp-eval: 0.613、llm-leaderboard: 0.669
安全性評価 181件中174件が基準を満たす(GPT-4-0613を上回る)
モデルの詳細はこちら

大規模言語モデル(LLM)について

大規模言語モデル(LLM)とは、膨大な量のテキストデータを学習し、人間の言語を理解・生成できる人工知能システムのことを指す。主な特徴として以下のような点が挙げられる。

  • 大量のパラメータを持ち、複雑な言語パターンを学習可能
  • 自然言語処理タスクを高精度で実行
  • 多言語対応や文脈理解が可能

本モデルはLlama 2をベースとしながら、日本語コーパスを重点的に学習することで高い日本語処理能力を実現している。特に安全性評価では181件中174件が基準を満たし、GPT-4-0613を上回る結果を示すなど、実用的な性能と安全性を両立している。

参考サイト

  1. ^ 国立情報学研究所. 「完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開~GPT-3.5を超える性能を達成~ - 国立情報学研究所 / National Institute of Informatics」. https://www.nii.ac.jp/news/release/2024/1224.html, (参照 24-12-28).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。