公開:

NABLASが多言語対応日本語音声合成モデルを開発、数秒の音声データで他言語話者の日本語音声合成が可能に

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)

NABLASが多言語対応日本語音声合成モデルを開発、数秒の音声データで他言語話者の日本語音声合成が可能に

PR TIMES より


記事の要約

  • NABLASが多言語音声データを用いた日本語音声合成モデルを開発
  • 数秒の音声データで他言語話者の日本語音声合成が可能に
  • 通訳や発話支援、エンターテインメント分野での活用に期待

NABLASの多言語対応日本語音声合成モデルの開発

NABLAS株式会社は、多言語話者の声質を保持したまま日本語テキスト音声合成を可能とするTTSモデルを2024年10月9日に開発した。このモデルは、言語を問わない数秒の発話音声データを用いて、他言語話者の音声から流暢な日本語の音声合成が可能となっている。従来の音声合成技術と比較して、より少ないデータで高品質な音声合成を実現している点が特筆される。[1]

本技術の開発背景には、音声合成の活用範囲の拡大がある。自動音声案内や本の読み上げ、動画の吹き替えなど、音声合成の需要が急速に増加している。しかし、これまでは日本語の音声合成に日本語話者による音声モデルが必要であり、他言語の音声モデルでは流暢な日本語での音声合成が困難だった。NABLASの新モデルは、この課題を克服し、言語の壁を越えた音声合成を可能にしている。

NABLASの音声合成モデルは、Google社が開発した音声生成モデル「SoundStorm」の構造をベースとしている。これに加えて、NABLASが独自に開発した日本語対応音声生成モデルを活用することで、瞬時に日本語の音声合成を実現している。この技術により、通訳や発話困難者への支援、映画や動画などのエンターテインメント作品の多言語化など、幅広い分野での応用が期待されている。

NABLASの音声合成モデルの特徴まとめ

技術的特徴 応用分野 期待される効果
多言語対応 言語を問わない数秒の音声データで合成可能 通訳、多言語コンテンツ制作 言語の壁を越えたコミュニケーション促進
高速処理 SoundStormベースの瞬時合成 リアルタイム通訳、ライブ配信 即時性のあるコンテンツ提供
声質保持 元話者の声質を維持した日本語合成 エンターテインメント、個人化サービス 自然で親和性の高い音声体験の提供
少量データ対応 数秒の音声データで高品質合成 個人向けサービス、カスタマイズ 導入の敷居を下げ、幅広い活用を促進
音声データの試聴はこちら

TTSについて

TTSとは「Text-to-Speech」の略称で、テキストデータを人工的に音声に変換する技術のことを指す。主な特徴として、以下のような点が挙げられる。

  • テキストを自動的に読み上げ可能な音声に変換
  • 多言語対応や声質の選択が可能
  • リアルタイムでの音声生成が可能

NABLASの開発した音声合成モデルは、従来のTTS技術を進化させ、多言語話者の声質を保持したまま日本語テキストを音声に変換することを可能にした。この技術により、例えば英語話者の声で日本語のコンテンツを生成したり、発話困難者が自身の声に近い音声で日本語を発話したりすることが可能になる。これは、コミュニケーションや表現の可能性を大きく広げる革新的な進歩といえるだろう。

NABLASの音声合成モデルに関する考察

NABLASの多言語対応日本語音声合成モデルは、言語の壁を超えたコミュニケーションを可能にする点で画期的だ。特に、数秒の音声データで高品質な合成が可能な点は、個人化されたサービスや小規模なプロジェクトにおいても音声合成技術の導入を容易にする。一方で、この技術の普及に伴い、音声の真正性の確認や著作権の問題が新たに浮上する可能性がある。

これらの課題に対しては、音声の出所を明確にするウォーターマーキング技術の開発や、音声使用に関する新たな法的枠組みの整備が解決策として考えられる。また、今後は感情表現や抑揚のよりリアルな再現、リアルタイムでの多言語間音声変換など、さらなる高度化が期待される。特に、非言語情報の伝達能力の向上は、より豊かなコミュニケーションの実現につながるだろう。

NABLASの技術開発は、音声合成分野に留まらず、AI技術全般の進化を促進する可能性を秘めている。今後は、この技術を基盤として、リアルタイム多言語コミュニケーションシステムの構築や、個人の声を永続的に保存し活用するサービスの開発など、新たな応用分野の開拓が期待される。同時に、技術の発展に伴う倫理的課題にも積極的に取り組み、社会に受け入れられる形での技術革新を進めていくことが重要だ。

参考サイト

  1. ^ PR TIMES. 「多言語音声データを用いた日本語音声合成モデルを開発 | NABLAS株式会社のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000086.000038634.html, (参照 24-10-11).
  2. Google. https://blog.google/intl/ja-jp/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。