NICTとKDDIが大規模言語モデル共同研究を開始、ハルシネーション抑制技術の開発に注力

text: XEXEQ編集部

NICTとKDDIのLLM共同研究に関する記事の要約

NICTとKDDIがLLMに関する共同研究を開始
ハルシネーション抑制とマルチモーダルデータ処理技術を開発
NICTの大規模WebデータとKDDIの技術を活用
総務省・NICTのLLM開発力強化プロジェクトの一環

NICTとKDDIによるLLM共同研究の開始

国立研究開発法人情報通信研究機構（NICT）とKDDIは2024年7月1日、大規模言語モデル（LLM）に関する共同研究を開始したことを発表した。この共同研究は、総務省・NICTが推進する「我が国における大規模言語モデル（LLM）の開発力強化に向けたデータの整備･拡充及びリスク対応力強化」プロジェクトの第1弾として位置付けられている。NICTの600億件以上のWebページデータとKDDI総合研究所の技術を活用し、日本独自のLLM開発を加速させることが目的だ。^[1]

共同研究では、LLMの利用時に課題となるハルシネーション（事実と異なる内容や脈絡のない文章の生成）の抑制技術の開発に重点が置かれる。KDDI総合研究所が開発してきたハルシネーション抑制技術を基に、NICTの大規模データを用いて日本語汎用LLMの特性に合わせた技術の高度化が進められる。これにより、LLMを活用した対話システムや雑談システムの信頼性向上が期待される。

また、地図画像および付随する建物情報などのマルチモーダルデータをLLMで取り扱う技術の研究開発も行われる。KDDI総合研究所のマルチモーダルAI技術を活用し、LLMによる位置関係の把握や複数の情報源からの総合的な判断が可能になることが目指される。この技術は、通信事業者のお客さま応対に適用することで、問題が発生している設備やエリアの迅速な把握につながり、通信品質の改善に貢献することが期待されている。

大規模言語モデル（LLM）とは

大規模言語モデル（LLM）は、膨大なテキストデータを学習し、人間のような自然言語処理能力を持つAIモデルを指す。LLMは、文章生成、質問応答、翻訳、要約など、多岐にわたるタスクをこなすことができる高度な言語理解と生成能力を持つ。近年、GPT-3やChatGPTなどの登場により、その潜在的な可能性と社会への影響力が注目されている。

LLMの特徴は、事前学習によって獲得した広範な知識と、与えられたプロンプトに応じて適切な出力を生成する能力にある。しかし、時として事実と異なる情報を生成するハルシネーションや、バイアスの問題が指摘されており、これらの課題解決が研究開発の重要なテーマとなっている。

NICTとKDDIのLLM共同研究に関する考察

NICTとKDDIの共同研究は、日本独自のLLM開発を加速させる重要な取り組みとして評価できる。特に、ハルシネーション抑制技術の開発は、LLMの信頼性向上に直結する課題であり、実用化に向けた大きな一歩となるだろう。また、マルチモーダルデータ処理技術の研究は、LLMの応用範囲を大幅に拡大させる可能性を秘めている。

今後は、開発されたLLMの実環境での検証や、他の研究機関や企業との連携拡大が期待される。特に、日本語特有の言語構造や文化的背景を考慮したLLMの開発は、グローバル市場での競争力を高める上で重要な要素となるだろう。また、プライバシー保護や倫理的な配慮など、AI技術の社会実装に伴う課題への対応も並行して進める必要がある。

エンジニアの観点からは、この共同研究の成果がオープンソース化されるか、あるいはAPIとして提供されるかが注目点となる。日本語に特化したLLMが広く利用可能になれば、様々な業界でのAI活用が加速し、新たなサービスやアプリケーションの創出につながる可能性が高い。開発者コミュニティとの積極的な連携や、成果の公開方針の明確化が、今後の展開の鍵を握るだろう。

参考サイト

^ KDDI News Room. 「NICTとKDDI、大規模言語モデルに関する共同研究を開始 | KDDI News Room」. https://newsroom.kddi.com/news/detail/kddi_nr-154_3422.html, (参照 24-07-02).
総務省. https://www.soumu.go.jp/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。