産総研が日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開、少量データでの高性能音声AI構築が可能に
スポンサーリンク
記事の要約
- 産総研が日本語音声基盤モデル2種を一般公開
- 「いざなみ」と「くしなだ」がHugging Faceで利用可能
- 約6万時間の日本語音声データから構築された高性能モデル
スポンサーリンク
産総研が日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開
国立研究開発法人産業技術総合研究所は2025年3月10日、豊かな感情表現を含む6万時間の日本語音声データから構築された2種類の日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開した。これらのモデルは音声AI構築に利用可能で、Hugging Face上で公開されており、少量の音声データでも高性能な音声AIを構築できる基盤を提供している。[1]
「いざなみ」は利用者のデータを用いて容易に改良可能な特徴を持ち、一方の「くしなだ」は日本語の音声感情認識と音声認識において優れた性能を発揮することが特徴となっている。両モデルの開発により、高齢者の音声や感情豊かな表現を含む会話など、教師データが少量しかない場合でも高性能な音声AIの構築が可能になった。
音声基盤モデルの性能評価では、日本語の演技感情音声における音声感情認識において「いざなみ」で80.12%、「くしなだ」で84.77%という高い正解率を達成している。これらの性能は従来の音声基盤モデルを用いない場合と比較して10ポイント以上の改善を示しており、日本語音声処理における重要な進展となっている。
日本語音声基盤モデルの性能比較
いざなみ | くしなだ | |
---|---|---|
主な特徴 | 容易な改良が可能 | 高い感情認識・音声認識性能 |
音声感情認識正解率 | 80.12% | 84.77% |
スポンサーリンク
音声基盤モデルについて
音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルのことを指しており、主な特徴として以下のような点が挙げられる。
- 大規模な音声データから自己教師あり学習で構築可能
- 音声認識や音声感情認識などに応用が可能
- 少量の教師データで高性能な音声AIを構築可能
音声基盤モデルは音声データの特性や話者の感情表現を効果的に処理・解析することができる。音声基盤モデルを通じて得られる汎用的な音声の特徴表現を用いることで、少量の音声データと教師データでも高性能の音声AIが構築できるため、介護施設などでの活用が期待されている。
参考サイト
- ^ 産業技術総合研究所. 「産総研:日本語音声基盤モデル「いざなみ」「くしなだ」を公開」. https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250310/pr20250310.html, (参照 25-03-14).
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- VGG(Visual Geometry Group)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- Watsonとは?意味をわかりやすく簡単に解説
- Watson Assistantとは?意味をわかりやすく簡単に解説
- 【CVE-2025-1664】Essential Blocks 5.3.1にXSS脆弱性、認証済みユーザーによる不正スクリプト実行の危険性
- 【CVE-2024-58047】HarmonyOS 5.0.0のメディアライブラリに権限検証の脆弱性、サービスの機密性に影響の可能性
- タレントアンドアセスメントがSHaiNのアルバイト採用版を提供開始、若年層の面接体験を最適化へ
- Huberitus株式会社がエンタープライズ企業向けスポット相談プラットフォームFINOBAを正式リリース、高度な専門知識の提供と業務効率化を実現
- プロキッズが豊川高校で生成AI活用講座を開催、教員の校務効率化と授業準備の負担軽減に向けて本格始動
- JALが海外地区サイトでWOVN.ioを導入、11言語対応で情報アクセシビリティが向上
- Receptが銀行口座の個人情報をデジタル証明書として再利用可能な銀行VCサービスを発表、国内初のDID/VC技術活用で本人確認の新たな選択肢に
- BONXがBONX WORKにリアルタイム通訳α版を追加、250言語対応で現場のコミュニケーション革新へ
- グローバルハーモニーとオーダースーツSADAがAIコンテストを開催、ファッションとテクノロジーの融合で新たな可能性を追求
- INTLOOPが物流DX向けバース予約管理システムを開発、AITRIOSプラットフォームを活用し業務効率化を実現
スポンサーリンク