電通総研がKnow Narratorにマルチモーダルを搭載、企業向け生成AIソリューションの進化が加速

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

PR TIMES より

記事の要約

電通総研がKnow NarratorにマルチモーダルRAGを搭載
テキストや図表からも情報を取得し回答精度が向上
2024年内にo1-previewモデルの搭載も予定

Know Narratorのマルチモーダル機能強化によるAI活用の進化

電通総研は企業向け生成AIソリューションKnow Narratorに、テキストだけでなく図やグラフからも情報を取得できるマルチモーダルRAGを2024年11月8日より搭載した。従来のRAGではドキュメント中の視覚情報が読み取れず回答精度に課題があったが、マルチモーダルRAGの搭載により図表などの情報も活用可能になったのだ。^[1]

Know Narratorの新機能は社内申請手続きのマニュアル内ワークフロー図の理解や、製造現場のCAE解析データの読み込みなど幅広い用途での活用が期待される。調査レポートにおいてはグラフを含めた内容の総括やポイント抽出が可能となり、ビジネスにおける情報分析の効率が大幅に向上するだろう。

また電通総研は2024年内に複雑な思考プロセスを経て回答を生成する最新モデルo1-previewの搭載も計画している。AIの研究開発や顧客企業向けのAI導入プロジェクトで培った知見を活かし、企業の生産性向上やDX推進を支援していく方針だ。

Know Narratorの新機能まとめ

機能	詳細
マルチモーダルRAG	図やグラフ、写真からの情報取得が可能
社内申請支援	ワークフロー図の理解と適切な回答生成
CAEデータ解析	製造現場の解析データの読み込みと解釈
レポート分析	グラフを含む内容の総括とポイント抽出

RAGについて

RAGとは「Retrieval-Augmented Generation」の略称で、大規模言語モデルによる回答と外部情報を組み合わせて回答精度を向上させる技術である。主な特徴として以下のような点が挙げられる。

社内文書などの外部情報を参照可能
大規模言語モデルの回答精度を向上
企業独自の情報を活用した回答が可能

マルチモーダルRAGは従来のRAGをさらに発展させた技術であり、テキストだけでなく図表や写真などの視覚情報も取り込むことが可能である。Know Narratorに搭載されたマルチモーダルRAGにより、企業内の様々な形式の情報を活用した精度の高い回答生成が実現するだろう。

マルチモーダルRAGに関する考察

マルチモーダルRAGの搭載は企業内情報の活用方法に大きな変革をもたらす可能性を秘めている。特に製造業やコンサルティング業界では、図面やグラフを含む技術文書や調査レポートの解析が必要不可欠であり、マルチモーダルRAGによってそれらの情報を包括的に理解・活用できるようになることは大きな進展だ。

今後の課題として、画像認識の精度向上や複雑なグラフの解釈能力の強化が挙げられる。企業内で使用される様々な形式の図表や写真に対応するためには、より高度な画像認識技術とドメイン特化型の学習が必要になるだろう。解決策としては、業界特化型のファインチューニングや専門分野ごとの最適化が考えられる。

将来的には自然言語処理と画像認識の技術がさらに発展し、より高度な文脈理解や推論が可能になることが期待される。企業のナレッジマネジメントやデジタルトランスフォーメーションを加速させる重要な要素として、マルチモーダルRAGの活用シーンは今後も拡大していくだろう。

参考サイト

^ PR TIMES. 「電通総研、企業向け生成AIソリューション「Know Narrator（ノウナレーター）」にマルチモーダルRAGを搭載 | 株式会社電通総研のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000304.000043138.html, (参照 24-11-09).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。