公開:

エーアイがAI音声合成・認識統合SDKのSLFramework評価版を提供開始、音声対話システム開発の効率化に貢献

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)

エーアイがAI音声合成・認識統合SDKのSLFramework評価版を提供開始、音声対話システム開発の効率化に貢献

PR TIMES より


記事の要約

  • エーアイがAI音声合成・認識SDKの評価版を提供開始
  • 音声合成と音声認識を1つのSDKで実現する新フレームワーク
  • 共通ユーザー単語辞書やローカル型SDKなど特長を搭載

SLFramework評価版のAI音声合成・音声認識機能

株式会社エーアイは高品質AI音声合成エンジンAITalkを開発する企業として知られており、AI音声合成と音声認識を一体化したSDK「組み込み型音声対話フレームワークSLFramework」の評価版を2025年1月より提供開始した。このフレームワークはユーザーの発話内容を認識してテキスト化する音声認識エンジンと、応答テキストを読み上げる音声合成エンジンを1つのSDKとして提供するものである。[1]

SLFrameworkの最大の特徴は、音声合成と音声認識でユーザー単語辞書を共有することにより、1つの操作で両方に対応した単語を登録できる点にある。外部へのアクセスを必要としないローカル型SDKであるため、セキュアな環境での利用が可能となっており、独自の言い回しや専門用語を含めたカスタマイズにも対応している。

SLFrameworkは使用するメモリがRAM400MBROM210MBと省リソースな設計となっており、Raspberry Pi4でも十分な動作が可能となっている。対話アプリやロボット、作業指示システム、券売機、ピッキングソリューション、コールセンターなど幅広い用途での活用が期待されており、2025年中の製品版リリースを目指している。

SLFrameworkの主な特長まとめ

項目 詳細
提供開始時期 2025年1月(評価版)
主要機能 音声合成エンジン、音声認識エンジンを1つのSDKで提供
対応OS Windows/Linux
必要リソース RAM:400MB、ROM:210MB
想定用途 対話アプリ、ロボット、作業指示システム、券売機、ピッキングソリューション、コールセンター

ユーザー単語辞書について

ユーザー単語辞書とは、音声合成や音声認識システムにおいてカスタマイズ可能な単語データベースのことを指す。以下のような特徴を持っている。

  • 独自の専門用語や固有名詞を登録可能
  • 音声合成時のアクセントを調整できる機能
  • 一度の登録で音声合成と音声認識の両方に反映

SLFrameworkでは音声合成と音声認識で共通のユーザー単語辞書を採用しており、効率的な単語登録を実現している。このアプローチにより、開発者は1つの操作で両方のエンジンに対応した単語を登録でき、音声対話システムの開発効率が大幅に向上する仕組みとなっている。

参考サイト

  1. ^ PR TIMES. 「AI音声合成/音声認識を1つのSDKで実現 SLFramework(仮)評価版提供開始のお知らせ | 株式会社エーアイのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000116.000099620.html, (参照 25-01-11).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。