DeepLがリアルタイム音声翻訳ソリューションDeepL Voiceを発表、13言語での音声入力と33言語でのキャプション出力に対応

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

PR TIMES より

記事の要約

DeepLが音声対話翻訳ソリューションDeepL Voiceを発表
Voice for MeetingsとVoice for Conversationsの2つのモデルを提供
リアルタイムでの音声翻訳により言語の壁を解消

DeepL Voiceのリアルタイム音声翻訳ソリューション

DeepLは2024年11月14日、同社初となるリアルタイム音声翻訳ソリューション「DeepL Voice」を発表した。Voice for MeetingsとVoice for Conversationsの2つのモデルを提供し、バーチャル会議や対面での会話における言語の壁を取り除くことが可能になった。^[1]

DeepL Voiceは不完全な入力や発音の問題、遅延などさまざまな課題に対処できるよう設計されており、高品質な音声翻訳を実現している。モバイルデバイスでの1対1の対面会話にも対応し、翻訳されたキャプションをリアルタイムで表示することが可能だ。

英語やドイツ語、日本語、韓国語など13言語で音声入力に対応しており、翻訳されたキャプションはDeepL翻訳がサポートする33の言語すべてで利用できる。AIモデルは多様なアクセントや環境を考慮して訓練されており、ビジネス用途に求められる高い品質と精度を確保している。

DeepL Voiceの機能まとめ

	Voice for Meetings	Voice for Conversations
主な特徴	バーチャル会議の言語障壁解消	1対1の対面会話の翻訳
利用環境	オンライン会議システム	モバイルデバイス
出力形式	リアルタイムキャプション	2種類の表示モード

DeepL Voiceの詳細はこちら

リアルタイム音声翻訳について

リアルタイム音声翻訳とは、話者の発話をリアルタイムで認識し即座に他言語に翻訳する技術のことを指す。主な特徴として以下のような点が挙げられる。

音声認識と機械翻訳の組み合わせによるリアルタイム処理
複数の言語間での双方向コミュニケーションが可能
ビジネスや国際交流での言語バリアを解消

DeepL Voiceでは13の言語で音声入力に対応しており、33の言語でキャプション出力が可能となっている。不完全な入力や発音の問題、遅延などの課題に対処できるよう設計されており、ビジネス用途に求められる高品質な翻訳を実現することができる。

DeepL Voiceに関する考察

DeepL Voiceはオンライン会議や対面での会話における言語の壁を取り除く画期的なソリューションとなる可能性を秘めている。特にグローバルビジネスの現場では、リアルタイムで正確な翻訳が提供されることで、より円滑なコミュニケーションが実現できるだろう。

しかし、方言や専門用語、複数人が同時に話す状況など、音声認識の精度に影響を与える要因は依然として存在している。音声認識の精度向上や、より多くの言語への対応、専門分野に特化した翻訳モデルの開発などが今後の課題となるだろう。

今後はAIモデルの継続的な改善により、より自然な会話体での翻訳や、話者の感情やニュアンスの理解なども期待される。また、VRやARとの統合により、より没入感のあるコミュニケーション体験を提供できる可能性も広がっていくだろう。

参考サイト

^ PR TIMES. 「DeepL、リアルタイムでの音声対話翻訳ソリューション「DeepL Voice」で言語AIの新境地を開拓 | DeepLのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000028.000112534.html, (参照 24-11-15).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。