公開:

Sakana AIが複数画像対応の日本語VLMを公開、進化的モデルマージで高機能化を実現

text: XEXEQ編集部


記事の要約

  • Sakana AIが新たな日本語VLMを公開
  • 複数画像に対する日本語質疑応答が可能に
  • 進化的モデルマージ手法を活用して開発

Sakana AIによる新たな日本語視覚言語モデルの公開

Sakana AIは2024年8月2日、複数の画像に対して日本語で質疑応答が可能な新たな視覚言語モデル(VLM)、Llama-3-EvoVLM-JP-v2を公開した。このモデルは進化的モデルマージという手法を用いて開発され、大規模言語モデル(LLM)やVLM、画像生成モデルなど様々な能力を獲得したマージモデルを生み出すことに成功している。[1]

Llama-3-EvoVLM-JP-v2は、複数の画像を扱える英語のVLMと日本語の能力に長けたLLM、単一画像の説明能力が高いVLMの3つのモデルを組み合わせて構築された。これにより複数の画像についての説明を求めたり文章の途中に画像情報を埋め込んだりすることが可能になり日本語VLMの機能が大幅に拡張された。

さらにSakana AIは、構築したモデルを評価するために複数の画像についての日本語での質疑応答能力を評価するためのデータセット、Japanese multi-images visual question answering (JA-Multi-Image-VQA)も同時に公開した。このデータセットは関連のある複数の画像の組み合わせをWebで収集し、それらに対して複数の質疑応答ペアを日本語で与えている。

Llama-3-EvoVLM-JP-v2の特徴まとめ

機能 ベースモデル 開発手法 評価データセット
主な特徴 複数画像の日本語質疑応答 Llama-3 進化的モデルマージ JA-Multi-Image-VQA
構成要素 複数画像対応英語VLM 日本語能力特化LLM 単一画像説明特化VLM Web収集画像と質疑応答ペア
公開情報 HuggingFaceで公開 デモ提供あり オープンソース 評価用途

進化的モデルマージについて

進化的モデルマージとは、様々な能力を持つLLMなどのオープンソースの基盤モデルを進化的アルゴリズムを用いて融合し、複数のモデルの特徴を併せ持った新たなモデルを作成する手法のことを指す。主な特徴として以下のような点が挙げられる。

  • モデルの訓練を行わず、比較的小規模な計算機とデータで新たな基盤モデルを作成可能
  • 異なる特性を持つ複数のモデルの融合が可能
  • 大規模なGPUやデータを必要としない効率的な手法

進化的モデルマージは、従来の勾配ベースの手法とは異なり、既存のモデルの特性を組み合わせて新たな能力を持つモデルを生成する。この手法により、例えば日本語のLLMと数学に強い英語のLLMをマージして数学に強い日本語LLMを作るなど、複数の特性を持つ高性能なモデルを効率的に開発することが可能になっている。

Llama-3-EvoVLM-JP-v2に関する考察

Llama-3-EvoVLM-JP-v2の登場により、日本語でのマルチモーダルAI研究が大きく前進する可能性がある。しかし複数画像の処理にはより多くの計算リソースが必要となるため、実用化に向けては処理速度の最適化や、より効率的なハードウェアの開発が課題になるだろう。また、画像の著作権や個人情報保護の観点から、モデルの学習データや使用に関する法的・倫理的な議論も必要になると考えられる。

今後は、動画や3D画像など、より複雑なメディアを扱える機能の追加が期待される。また、日本語特有の文脈や文化的背景を理解した上での画像解釈能力の向上も重要だ。さらに、他の言語モデルとの連携により、多言語での画像解釈や翻訳機能の統合など、より高度な言語横断的な機能の実現も望まれるだろう。

Llama-3-EvoVLM-JP-v2の公開は、日本語AIモデルの発展における重要なマイルストーンとなる可能性がある。オープンソースでの公開により、多くの研究者や開発者がこのモデルを基盤として活用し、さらなる改良や新しいアプリケーションの開発が進むことが期待される。日本語でのAI開発コミュニティの活性化や、産業応用の拡大にもつながる可能性が高い。

参考サイト

  1. ^ Sakana AI. 「進化的モデルマージによる視覚言語モデルの新たな能力の獲得 複数の画像を扱える日本語視覚言語モデルを公開」. https://sakana.ai/evovlm-jp/, (参照 24-08-07).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。