電通総研がKnow Narratorにマルチモーダルを搭載、企業向け生成AIソリューションの進化が加速
PR TIMES より
スポンサーリンク
記事の要約
- 電通総研がKnow NarratorにマルチモーダルRAGを搭載
- テキストや図表からも情報を取得し回答精度が向上
- 2024年内にo1-previewモデルの搭載も予定
スポンサーリンク
Know Narratorのマルチモーダル機能強化によるAI活用の進化
電通総研は企業向け生成AIソリューションKnow Narratorに、テキストだけでなく図やグラフからも情報を取得できるマルチモーダルRAGを2024年11月8日より搭載した。従来のRAGではドキュメント中の視覚情報が読み取れず回答精度に課題があったが、マルチモーダルRAGの搭載により図表などの情報も活用可能になったのだ。[1]
Know Narratorの新機能は社内申請手続きのマニュアル内ワークフロー図の理解や、製造現場のCAE解析データの読み込みなど幅広い用途での活用が期待される。調査レポートにおいてはグラフを含めた内容の総括やポイント抽出が可能となり、ビジネスにおける情報分析の効率が大幅に向上するだろう。
また電通総研は2024年内に複雑な思考プロセスを経て回答を生成する最新モデルo1-previewの搭載も計画している。AIの研究開発や顧客企業向けのAI導入プロジェクトで培った知見を活かし、企業の生産性向上やDX推進を支援していく方針だ。
Know Narratorの新機能まとめ
機能 | 詳細 |
---|---|
マルチモーダルRAG | 図やグラフ、写真からの情報取得が可能 |
社内申請支援 | ワークフロー図の理解と適切な回答生成 |
CAEデータ解析 | 製造現場の解析データの読み込みと解釈 |
レポート分析 | グラフを含む内容の総括とポイント抽出 |
スポンサーリンク
RAGについて
RAGとは「Retrieval-Augmented Generation」の略称で、大規模言語モデルによる回答と外部情報を組み合わせて回答精度を向上させる技術である。主な特徴として以下のような点が挙げられる。
- 社内文書などの外部情報を参照可能
- 大規模言語モデルの回答精度を向上
- 企業独自の情報を活用した回答が可能
マルチモーダルRAGは従来のRAGをさらに発展させた技術であり、テキストだけでなく図表や写真などの視覚情報も取り込むことが可能である。Know Narratorに搭載されたマルチモーダルRAGにより、企業内の様々な形式の情報を活用した精度の高い回答生成が実現するだろう。
マルチモーダルRAGに関する考察
マルチモーダルRAGの搭載は企業内情報の活用方法に大きな変革をもたらす可能性を秘めている。特に製造業やコンサルティング業界では、図面やグラフを含む技術文書や調査レポートの解析が必要不可欠であり、マルチモーダルRAGによってそれらの情報を包括的に理解・活用できるようになることは大きな進展だ。
今後の課題として、画像認識の精度向上や複雑なグラフの解釈能力の強化が挙げられる。企業内で使用される様々な形式の図表や写真に対応するためには、より高度な画像認識技術とドメイン特化型の学習が必要になるだろう。解決策としては、業界特化型のファインチューニングや専門分野ごとの最適化が考えられる。
将来的には自然言語処理と画像認識の技術がさらに発展し、より高度な文脈理解や推論が可能になることが期待される。企業のナレッジマネジメントやデジタルトランスフォーメーションを加速させる重要な要素として、マルチモーダルRAGの活用シーンは今後も拡大していくだろう。
参考サイト
- ^ PR TIMES. 「電通総研、企業向け生成AIソリューション「Know Narrator(ノウナレーター)」にマルチモーダルRAGを搭載 | 株式会社電通総研のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000304.000043138.html, (参照 24-11-09).
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- Watson Visual Recognitionとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- VGG(Visual Geometry Group)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- WaveNetとは?意味をわかりやすく簡単に解説
- 【CVE-2024-8587】AutoCAD 2025.1でHeap Based Buffer Overflow脆弱性が発見、重大な影響の可能性
- 【CVE-2024-8923】ServiceNow Now Platformに重大な脆弱性、サンドボックスエスケープによるリモートコード実行のリスクに対応完了
- 【CVE-2024-8924】ServiceNow Now PlatformにブラインドSQL注入の脆弱性、認証不要で不正アクセスの危険性
- アドバンスコンポジットが15億円の資金調達を実施、金属基複合素材の開発と生産体制強化へ
- 島根ドローンサービスセンターがDJI FLYCART 30でレベル3.5飛行実験を実施、国内初のLTE回線利用による遠隔自動航行を実現
- YDKテクノロジーズがIoT多点観測システムを拡充、水門・樋門・樋管の遠方監視機能が向上へ
- フィルターバンクが注目の西日本ベンチャー100に選出、採用支援サービスの革新的な取り組みが評価
- 高知工科大学が常温常圧での多元素酸化物触媒合成に成功、カーボンニュートラルの実現に向け大きく前進
- ハンワホームズ株式会社がTOKYO PRO Market上場承認を取得、住環境事業のさらなる成長へ向け新たな一歩
- FutureHRが生成AIドリブンのアプリ開発スクールを開始、50日間で未経験者がフルスタックエンジニアに
スポンサーリンク