公開:

産総研が日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開、少量データでの高性能音声AI構築が可能に

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • 産総研が日本語音声基盤モデル2種を一般公開
  • 「いざなみ」と「くしなだ」がHugging Faceで利用可能
  • 約6万時間の日本語音声データから構築された高性能モデル

産総研が日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開

国立研究開発法人産業技術総合研究所は2025年3月10日、豊かな感情表現を含む6万時間の日本語音声データから構築された2種類の日本語音声基盤モデル「いざなみ」「くしなだ」を一般公開した。これらのモデルは音声AI構築に利用可能で、Hugging Face上で公開されており、少量の音声データでも高性能な音声AIを構築できる基盤を提供している。[1]

「いざなみ」は利用者のデータを用いて容易に改良可能な特徴を持ち、一方の「くしなだ」は日本語の音声感情認識と音声認識において優れた性能を発揮することが特徴となっている。両モデルの開発により、高齢者の音声や感情豊かな表現を含む会話など、教師データが少量しかない場合でも高性能な音声AIの構築が可能になった。

音声基盤モデルの性能評価では、日本語の演技感情音声における音声感情認識において「いざなみ」で80.12%、「くしなだ」で84.77%という高い正解率を達成している。これらの性能は従来の音声基盤モデルを用いない場合と比較して10ポイント以上の改善を示しており、日本語音声処理における重要な進展となっている。

日本語音声基盤モデルの性能比較

いざなみ くしなだ
主な特徴 容易な改良が可能 高い感情認識・音声認識性能
音声感情認識正解率 80.12% 84.77%
モデルのダウンロードはこちら

音声基盤モデルについて

音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルのことを指しており、主な特徴として以下のような点が挙げられる。

  • 大規模な音声データから自己教師あり学習で構築可能
  • 音声認識や音声感情認識などに応用が可能
  • 少量の教師データで高性能な音声AIを構築可能

音声基盤モデルは音声データの特性や話者の感情表現を効果的に処理・解析することができる。音声基盤モデルを通じて得られる汎用的な音声の特徴表現を用いることで、少量の音声データと教師データでも高性能の音声AIが構築できるため、介護施設などでの活用が期待されている。

参考サイト

  1. ^ 産業技術総合研究所. 「産総研:日本語音声基盤モデル「いざなみ」「くしなだ」を公開」. https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250310/pr20250310.html, (参照 25-03-14).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。