公開:

楽天が日本語AIモデルRakuten AI 2.0とRakuten AI 2.0 miniを発表、来春にオープンソースとして公開へ

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • 楽天が日本語に最適化した新LLM「Rakuten AI 2.0」を発表
  • 小規模言語モデル「Rakuten AI 2.0 mini」も同時公開
  • 両モデルを来春にオープンソースとして提供予定

楽天が新たな日本語AIモデル2種を発表、来春にオープンソース化へ

楽天グループは、日本語処理に特化した大規模言語モデル「Rakuten AI 2.0」と小規模言語モデル「Rakuten AI 2.0 mini」の2つのAIモデルを2024年12月18日に発表した。Mixture of Expertsアーキテクチャを採用した「Rakuten AI 2.0」は8つの70億パラメータで構成されたサブモデルを特徴とし、2024年3月に公開した「Rakuten AI 7B」を基に開発された高性能な基盤モデルとなっている。[1]

初のSLMとなる「Rakuten AI 2.0 mini」は15億パラメータの基盤モデルであり、内製の多段階データフィルタリングとアノテーションプロセスによって最適化された日本語と英語のデータセットで学習を実施している。両モデルは企業や技術者などの専門家向けにAIアプリケーション開発を支援することを目指しており、来春のオープンソースコミュニティでの公開が予定されている。

新たな「Rakuten AI 2.0」はLM-Harnessによる評価で、従来の「Rakuten AI 7B」と比較して日本語タスクの平均スコアが62.93から72.29へと大幅に向上している。高度なMoEアーキテクチャの採用により、8倍規模の高密度モデルに匹敵する性能を発揮しながら、消費計算量を4分の1程度に抑制することに成功したのだ。

新AIモデルのスペック比較

Rakuten AI 2.0 Rakuten AI 2.0 mini
モデルタイプ 大規模言語モデル(LLM) 小規模言語モデル(SLM)
パラメータ数 8x70億(MoEアーキテクチャ) 15億
日本語スコア 72.29 -
特徴 8つのサブモデルによる高効率処理 多段階フィルタリングによる最適化

Mixture of Expertsアーキテクチャについて

Mixture of Expertsアーキテクチャとは、モデルを複数のサブモデル(エキスパート)に分割して処理を行うAIモデルの構造のことを指す。主な特徴として、以下のような点が挙げられる。

  • 入力に応じて最適なエキスパートを動的に選択
  • 計算効率と性能を最適化する処理方式
  • 消費計算量を大幅に削減可能な設計

Mixture of Expertsアーキテクチャでは、入力されたトークンに対して最も関連性の高いエキスパートを動的に選択することで処理を最適化している。「Rakuten AI 2.0」では8つの70億パラメータで構成されたエキスパートを採用し、各エキスパートとルーターが高品質な日本語と英語の言語データを用いた継続的な学習を行うことで、効率的な処理を実現しているのだ。

参考サイト

  1. ^ 楽天グループ株式会社. 「楽天、日本語に最適化した新たなAIモデルを発表 | 楽天グループ株式会社」. https://corp.rakuten.co.jp/news/press/2024/1218_01.html, (参照 24-12-20).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。