公開:

audioコーパス社が音声認識AI用の新データセット『職業面談』を発表、AI開発の効率化と品質向上に貢献

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)

audioコーパス社が音声認識AI用の新データセット『職業面談』を発表、AI開発の効率化と品質向上に貢献

PR TIMES より


記事の要約

  • audioコーパス社が新データセット『職業面談』を発表
  • 音声認識AI用の教師データを150時間以上提供
  • AIの開発効率化と品質向上に貢献

audioコーパス社が音声認識AI用の新データセット『職業面談』をリリース

audioコーパス株式会社は2024年8月22日に音声認識AI用の新しい教師データ『職業面談』のデータセットの先行販売を開始した。このリリースにより提供される発話データの総時間数は150時間を超え、AIの学習に必要なデータをゼロから作成する手間が大幅に削減される。これによってAI開発者は必要な会話区分に沿った開発をより迅速に進めることが可能となった。[1]

audioコーパス データセットは音声とテキストをセットにした発話データであり、AI学習の要件に合わせてタグ付けなどの整形が済んでいる。音声データはwavファイル形式で提供され、テキストデータはcsv、txt、eafの各ファイル形式で提供される。また、収録された会話は一対一の対話形式でステレオ録音されており、著作権や個人情報などの権利関係も整理されている。

テキストデータには相づちやどもりなども忠実に書き起こされており、フィラーや言い間違いなどの抽出のために6つのタグが付与されている。さらに発話ごとに区間が区切られており、細かな発話の利用や分析が可能となっている。また、日本語の表記ゆれや誤字脱字、聞き間違いなどの問題に対処するため、「記者ハンドブック」(共同通信社発刊)の仕様に準じた表記ルールが採用されている。

audioコーパスデータセットの特徴まとめ

音声データ テキストデータ
ファイル形式 wavファイル csv、txt、eafファイル
収録方法 一対一の会話、ステレオ録音 忠実な書き起こし
特徴 著作権・個人情報の権利関係整理済み 6つのタグ付与、発話区間の区切り
対応会話区分 営業商談、コールセンター、対談、面談など 同左
表記ルール - 「記者ハンドブック」準拠
audioコーパス株式会社の公式サイトはこちら

発話データについて

発話データとは、人間の会話や発言を記録した音声およびテキストデータのことを指しており、主な特徴として以下のような点が挙げられる。

  • 自然な会話や発言を忠実に記録
  • 音声とテキストがセットになっている
  • AI学習や言語解析に活用可能

audioコーパス社の発話データは権利関係が整理されており、個人情報保護にも配慮されている。これにより、AI開発者は安心して発話データを利用することができる。また、「記者ハンドブック」に準拠した表記ルールを採用することで、日本語特有の表記ゆれや誤字脱字の問題に対処し、高品質なデータセットを提供している。

audioコーパスの新データセット『職業面談』に関する考察

audioコーパス社の新データセット『職業面談』のリリースは、AI開発者にとって大きな意義がある。これまで発話データの収集と整形に多大な時間と労力を要していたが、このデータセットにより開発プロセスが大幅に効率化される可能性が高い。また、権利関係が整理された高品質なデータを利用できることで、より精度の高い音声認識AIの開発が促進されるだろう。

一方で、今後の課題としては、さらに多様な会話シーンやアクセント、方言などへの対応が挙げられる。職業面談以外にも、医療現場や教育現場など、特殊な専門用語や状況が発生する場面でのデータ収集が求められるかもしれない。また、多言語対応や感情分析など、より高度な機能を持つAIの開発に向けて、データセットの拡充が期待される。

今後、audioコーパス社には、業界ごとのニーズに合わせたカスタマイズ可能なデータセットの提供や、リアルタイムでデータを更新できるシステムの構築などが期待される。さらに、AIの倫理的な使用や個人情報保護に関するガイドラインの策定など、技術面だけでなく社会的な側面からもAI開発をサポートする取り組みが求められるだろう。

参考サイト

  1. ^ PR TIMES. 「音声認識AIの教師データ「audioコーパス データセット」にて、新しい会話区分『職業面談』のデータセットの先行販売を開始 | audioコーパス株式会社のプレスリリース」. https://prtimes.jp/main/html/rd/p/000000001.000148224.html, (参照 24-08-24).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。