Axcxept社がEZO-VLMシリーズを発表、画像認識AIの日本語処理と理解能力が大幅に向上

text: XEXEQ編集部

PR TIMES より

記事の要約
Axcxept社の画像認識AI「EZO-VLM」シリーズの発表
EZO-VLMシリーズの特徴まとめ
EZO-VLMシリーズに関する考察
参考サイト

記事の要約

Axcxept社がEZO-VLMシリーズを発表
画像認識AIの日本語処理能力を向上
SecureChat+とDomainLLMに統合予定

Axcxept社の画像認識AI「EZO-VLM」シリーズの発表

Axcxept株式会社は2024年8月5日、SakanaAI社のオープンソースモデルをベースに独自のチューニング技術を用いて画像認識と日本語処理能力を大幅に向上させた新しいVision-Language Model（VLM）「EZO-VLM」シリーズを発表した。このモデルはテキスト生成だけでなく画像理解能力も備えており、Axcxept社の主力サービスである「SecureChat+」と「DomainLLM」に統合されることで、より幅広い業界でのAI活用を促進する見込みだ。^[1]

「EZO-VLM」シリーズは、SakanaAI社が開発した高性能な画像解析オープンソースＡＩモデル「Llama-3-EvoVLM-JP-v2」をベースに、Axcxept社独自のチューニング技術「EZO」を適用することで開発された。画像認識能力の向上と日本語処理能力の強化が主な特徴であり、より正確で詳細な画像理解と自然な日本語での応答が可能になっている。

Axcxept社はこの新技術を既存の主力サービスに統合することで、より包括的なAIソリューションを提供する計画だ。「SecureChat+」では企業向けセキュアAIソリューションに視覚認識機能を追加し、「DomainLLM」では各業界に特化したAIモデルに視覚機能を組み込むことで、より高度な業務支援が可能になると期待されている。

EZO-VLMシリーズの特徴まとめ

	ベースモデル	主な特徴	トレーニング時間	統合予定サービス
モデル概要	Llama-3-EvoVLM-JP-v2	画像認識と日本語処理能力向上	8時間	SecureChat+、DomainLLM
画像認識能力	高性能な視覚認識	より正確で詳細な画像理解	-	両サービスで活用
日本語処理	基本的な日本語対応	自然で文脈に適した応答	-	両サービスで活用
評価指標	-	ElyzaTasks100で0.71ポイント向上	-	-
応用分野	-	製造業品質管理、医療画像診断支援	-	業界特化型AI開発

EZO-VLMシリーズに関する考察

EZO-VLMシリーズの登場により、AI技術の応用範囲が大きく広がる可能性がある一方で、プライバシーやデータセキュリティに関する新たな課題が浮上する可能性がある。画像認識技術の高度化に伴い、個人情報や機密情報が含まれる画像の取り扱いには、より厳格なガイドラインや規制が必要になるだろう。また、AIの判断ミスによる影響も考慮し、人間による監視や検証プロセスの重要性が増すと予想される。

今後EZO-VLMシリーズに追加してほしい機能としては、マルチモーダル学習能力の強化が挙げられる。画像だけでなく、音声や動画、さらにはセンサーデータなど、多様な形式の入力を統合的に理解し処理できる機能が実現すれば、より豊かなコンテキスト理解が可能になるだろう。また、説明可能AIの要素を強化し、AIの判断プロセスをより透明化することで、ユーザーの信頼性向上にもつながると考えられる。

EZO-VLMシリーズの今後の発展に期待したい点は、産業横断的な応用範囲の拡大だ。製造業や医療分野だけでなく、教育、農業、環境保護など、多様な分野でのAI活用が進むことで、社会課題の解決に大きく貢献する可能性がある。さらに、日本語処理能力の高さを活かし、日本独自の文化や慣習を理解したAIサービスの展開も期待できる。

参考サイト

^ PR TIMES. 「Axcxept社、画像認識AIを高速開発で進化させた「EZO-VLM」を発表 | Axcxept株式会社のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000006.000129878.html, (参照 24-08-06).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。