北陸先端科学技術大学院大学がLLMの有害知識を消去する新手法Adaptive RMUを発表、AIの安全性向上に貢献
スポンサーリンク
記事の要約
- 北陸先端科学技術大学院大学がAdaptive RMUを発表
- LLMの有害知識を効率的に消去する新手法を開発
- 一般的な言語理解能力を維持しながら安全性を向上
スポンサーリンク
北陸先端科学技術大学院大学が開発したAdaptive RMUの詳細
北陸先端科学技術大学院大学のコンピューティング科学研究領域の井之上直也准教授の研究グループは、大規模言語モデルの有害知識を効率的に消去する新手法Adaptive RMUを2025年4月11日に発表した。従来のRMUと同等の忘却性能を保ちながら、ランダムネスの制御パラメータを自動化することで最適化コストを大幅に削減することに成功している。[1]
Adaptive RMUは、LLMの一般的な言語理解能力をほとんど損なうことなく有害情報に関する質問への正答率を大幅に低下させる効果を実証した。さらに、忘却後のLLMから有害知識を抜き出そうとする知識復元攻撃に対しても高い防御性能を示し、モデル内部に残る有害知識の抽出を困難にすることが理論的に確認されている。
本研究は人工知能分野のトップ国際会議AAAI 2025にフルペーパー論文として採択され、採択論文の約20%のみが選ばれる口頭発表として発表された。中島記念国際交流財団およびJST創発的研究支援事業の支援を受けて実施された研究成果は、個人情報や機密情報の漏えいリスクを低減し、安全なAI社会の実現に貢献すると期待されている。
Adaptive RMUの機能まとめ
項目 | 詳細 |
---|---|
開発機関 | 北陸先端科学技術大学院大学 コンピューティング科学研究領域 |
発表日 | 2025年4月11日 |
主な特徴 | ランダムネスの制御パラメータの自動化、最適化コストの削減 |
実証効果 | 一般的言語理解能力の維持、有害情報の正答率低下 |
支援機関 | 中島記念国際交流財団、JST創発的研究支援事業 |
スポンサーリンク
知識忘却技術について
知識忘却技術とは、大規模言語モデルから特定の知識を選択的に除去するための技術である。主な特徴として以下のような点が挙げられる。
- 学習済みモデルから特定の知識のみを消去可能
- モデルの一般的な性能を維持しながら選択的な忘却を実現
- 機密情報や有害知識の漏洩を防止する安全対策として機能
大規模言語モデルは医療や金融、教育など多岐にわたる分野での活用が期待されているが、機密情報や危険な知識を意図せず出力してしまう課題があった。知識忘却技術はこの課題に対応し、必要な知識を保持しながら特定の情報だけを選択的に忘却させることで、安全なAIの実現に貢献している。
Adaptive RMUに関する考察
Adaptive RMUの開発は、AIの安全性と実用性を両立させる重要な一歩となるものだ。従来のRMUでは手探りによる最適化が必要だったが、制御パラメータの自動化によって導入コストが大幅に削減され、より多くの企業や組織がこの技術を活用できるようになるだろう。
今後の課題として、忘却対象の知識をより精密に特定する方法や、新たに学習される有害知識への対応が挙げられる。AIモデルの進化に伴い、より複雑な知識構造への対応も求められており、Adaptive RMUのさらなる改良と拡張が期待される。
AIの社会実装が加速する中、安全性の確保は最重要課題の一つとなっている。Adaptive RMUは医療情報や個人データの保護、有害コンテンツの抑制など、幅広い用途での活用が見込まれ、今後のAI技術の発展における重要な基盤技術となるだろう。
参考サイト
- ^ 北陸先端科学技術大学院大学 研究グループ. 「大規模言語モデルの効率的な知識"忘却"技術を提案 -安全なAIの実現に大きな一歩- | JAIST 北陸先端科学技術大学院大学」. https://www.jaist.ac.jp/whatsnew/press/2025/04/30-2.html, (参照 25-05-05). 14805
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- 【CVE-2025-3474】DrupalのPanelsモジュールに重大な認証バイパスの脆弱性、バージョン4.9.0未満のユーザーに影響
- 【CVE-2025-46232】WordPressプラグインDownload Alt Text AI 1.9.93に認証の脆弱性、アクセス制御の不備で権限バイパスの恐れ
- GoogleがDriveのサイドパネルでGemini機能を強化、ファイルソースの制御性が向上へ
- GoogleがVoiceに三者通話機能を追加、直感的な新UIで通話機能が大幅に進化
- MicrosoftがAzure AI Foundry extensionの4月アップデートを公開、専用タブ管理とThreads viewで開発効率が向上
- GoogleがGeminiに画像編集機能を追加、AIによるシームレスな画像加工が可能に
- Duolingoが生成AI活用で148の新言語コースを公開、日本語話者向けに3コースを追加し学習機会を拡大
- ニュウジアがAIアパレル試着の動画生成機能をリリース、EC体験の革新的進化による購買率向上へ
- R/GAがAI検索最適化ツールを発表、ブランドのAI検索における可視性向上を実現
- Carstayが交通安全運動を開始、キャンピングカーシェアの安全性向上へ動画マニュアル必須化とシステム強化を実施
スポンサーリンク