公開:

SupertoneがAI音声技術のAPI提供を開始、TTSなどの導入が容易に、今後は歌唱合成や音声変換も追加予定

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)

SupertoneがAI音声技術のAPI提供を開始、TTSなどの導入が容易に、今後は歌唱合成や音声変換も追加予定

PR TIMES より


記事の要約

  • SupertoneがAPI公開によりAI音声技術の導入を容易に
  • TTSなどのAI音声技術をAPIで提供開始
  • 今後は歌唱合成音声や音声変換技術も追加予定

Supertone APIのクローズドベータテスト開始でAI音声技術の活用が加速

AIオーディオ企業のSupertoneは2024年12月23日、自社のAI音声技術を各種プラットフォームやアプリケーションなどと連携可能にする「Supertone API」をクローズドベータテスト形式で公開した。独自開発の音声合成基盤モデルNANSYを活用したTTS技術により、音色やピッチなどの要素を調整した自然な音声生成が実現されている。[1]

Supertone APIの第一弾として提供されるTTS技術は、対話型ゲームのキャラクター製作やオーディオブックなど幅広い用途での活用が可能となっている。NANSYモデルの改善によってテキストから音声への変換時間が短縮され、チャットボットのようなリアルタイム性が求められるサービスでの実装が容易になったのだ。

韓国のScatter Lab社が運営するインタラクティブAIコンテンツプラットフォーム「zeta」では、すでにSupertoneのTTS技術がAPIで導入されている。2024年11月初めにzetaで公開されたAIチャットボットキャラクター製作機能において、ユーザーは自らキャラクターを作成し音声を付与することが実現されたのである。

Supertone APIの主な機能と特徴

項目 詳細
提供開始日 2024年12月23日
提供形態 クローズドベータテスト
対応言語 日本語対応
主要技術 NANSYによる音声合成基盤モデル
調整可能要素 音色、発音、音高(ピッチ)、アクセント
今後の展開 歌唱合成音声技術、音声変換技術の追加予定
Supertone APIの詳細はこちら

NANSYについて

NANSYとはNeural Analysis & Synthesisの略称で、Supertoneが独自に開発した音声合成のための基盤モデルを指す。主な特徴として、以下のような点が挙げられる。

  • 音声合成に特化した深層学習モデル
  • 音色・発音・音高・アクセントの4要素を制御可能
  • 高品質な自然音声の生成を実現

NANSYモデルはTTS技術の基盤として実装され、テキストから自然で豊かな感情表現を持つ音声を生成することが可能である。チャットボットのようなリアルタイム性が求められるサービスにおいても、最適化された処理速度で高品質な音声出力を実現することができるのだ。

参考サイト

  1. ^ PR TIMES. 「AIオーディオ企業のSupertoneがAPI公開、AI音声技術の活用広げる | 株式会社HYBE JAPANのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000471.000045862.html, (参照 24-12-24).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。