SupertoneがAI音声技術のAPI提供を開始、TTSなどの導入が容易に、今後は歌唱合成や音声変換も追加予定

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2024年12月のアーカイブ一覧
【2024年12月】AIに関するアーカイブ一覧
【2024年12月22日】AIに関するアーカイブ一覧
SupertoneがAI音声技術のAPI提供を開始、TTSなどの導入が容易に、今後は歌唱合成や音声変換も追加予定

SupertoneがAI音声技術のAPI提供を開始、TTSなどの導入が容易に、今後は歌唱合成や音声変換も追加予定

PR TIMES より

記事の要約

SupertoneがAPI公開によりAI音声技術の導入を容易に
TTSなどのAI音声技術をAPIで提供開始
今後は歌唱合成音声や音声変換技術も追加予定

Supertone APIのクローズドベータテスト開始でAI音声技術の活用が加速

AIオーディオ企業のSupertoneは2024年12月23日、自社のAI音声技術を各種プラットフォームやアプリケーションなどと連携可能にする「Supertone API」をクローズドベータテスト形式で公開した。独自開発の音声合成基盤モデルNANSYを活用したTTS技術により、音色やピッチなどの要素を調整した自然な音声生成が実現されている。^[1]

Supertone APIの第一弾として提供されるTTS技術は、対話型ゲームのキャラクター製作やオーディオブックなど幅広い用途での活用が可能となっている。NANSYモデルの改善によってテキストから音声への変換時間が短縮され、チャットボットのようなリアルタイム性が求められるサービスでの実装が容易になったのだ。

韓国のScatter Lab社が運営するインタラクティブAIコンテンツプラットフォーム「zeta」では、すでにSupertoneのTTS技術がAPIで導入されている。2024年11月初めにzetaで公開されたAIチャットボットキャラクター製作機能において、ユーザーは自らキャラクターを作成し音声を付与することが実現されたのである。

Supertone APIの主な機能と特徴

項目	詳細
提供開始日	2024年12月23日
提供形態	クローズドベータテスト
対応言語	日本語対応
主要技術	NANSYによる音声合成基盤モデル
調整可能要素	音色、発音、音高（ピッチ）、アクセント
今後の展開	歌唱合成音声技術、音声変換技術の追加予定

Supertone APIの詳細はこちら

NANSYについて

NANSYとはNeural Analysis & Synthesisの略称で、Supertoneが独自に開発した音声合成のための基盤モデルを指す。主な特徴として、以下のような点が挙げられる。

音声合成に特化した深層学習モデル
音色・発音・音高・アクセントの4要素を制御可能
高品質な自然音声の生成を実現

NANSYモデルはTTS技術の基盤として実装され、テキストから自然で豊かな感情表現を持つ音声を生成することが可能である。チャットボットのようなリアルタイム性が求められるサービスにおいても、最適化された処理速度で高品質な音声出力を実現することができるのだ。

参考サイト

^ PR TIMES. 「AIオーディオ企業のSupertoneがAPI公開、AI音声技術の活用広げる | 株式会社HYBE JAPANのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000471.000045862.html, (参照 24-12-24).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム