AWSがAmazon Bedrockに新機能を追加、プロンプトキャッシングとインテリジェントルーティングでコストとパフォーマンスを最適化

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2024年12月のアーカイブ一覧
【2024年12月】AIに関するアーカイブ一覧
【2024年12月05日】AIに関するアーカイブ一覧
AWSがAmazon Bedrockに新機能を追加、プロンプトキャッシングとインテリジェントルーティングでコストとパフォーマンスを最適化

記事の要約

AWSがAmazon Bedrockの新機能を発表
プロンプトのコンテキストをキャッシュする機能を追加
プロンプトを適切なモデルへ自動ルーティングする機能を実装

AWSがAmazon Bedrockの新機能としてプロンプトキャッシングとインテリジェントルーティングを発表

AWSは米ラスベガスで開催中のAWS re:Invent 2024において、Amazon Bedrockの新機能としてプロンプトキャッシングとインテリジェントルーティング機能をプレビュー提供開始した。プロンプトキャッシング機能では、頻繁に使用されるコンテキストを最大5分間キャッシュすることで、コストを最大90%、レイテンシーを最大85%削減することが可能になった。^[1]

インテリジェントプロンプトルーティング機能は、同一モデルファミリー内で適切なモデルを自動選択することで、コストとパフォーマンスを最適化する機能である。例えばAnthropicのClaude系モデルでは、Claude 3.5 SonnetとClaude 3 Haikuの間で自動的にルーティングを行い、コストを最大30%削減することが可能だ。

プロンプトルーティング機能は、AWS Management Console、AWS CLI、AWS SDKsを通じて利用可能である。現在のプレビュー段階では、AnthropicのClaudeモデルファミリーとMetaのLlamaモデルファミリーに対応しており、ドキュメントQ&Aシステムやコーディングアシスタントなどのアプリケーションでの活用が期待される。

Amazon Bedrock新機能の詳細

	プロンプトキャッシング	インテリジェントルーティング
主な利点	コストとレイテンシーの大幅削減	コストとパフォーマンスの最適化
削減効果	コスト最大90%、レイテンシー最大85%	コスト最大30%
対応モデル	Claude 3.5 Sonnet V2、Claude 3 Haiku他	Claude系、Llama系

プロンプトルーティングについて

プロンプトルーティングとは、AIモデルの選択を自動化し、各リクエストに最適なモデルを割り当てる技術のことである。主な特徴として、以下のような点が挙げられる。

複数のAIモデル間で最適なモデルを自動選択
コストとパフォーマンスのバランスを最適化
クエリの複雑さに応じて適切なモデルを選択

Amazon Bedrockのプロンプトルーティングでは、高度なプロンプトマッチングとモデル理解の技術を活用している。単純なクエリには軽量モデルを、複雑なクエリには高性能モデルを自動的に割り当てることで、システム全体のパフォーマンスを最適化することが可能だ。

Amazon Bedrock新機能に関する考察

Amazon Bedrockの新機能は、生成AIシステムの運用コストとパフォーマンスの最適化という課題に対する重要な解決策となる可能性が高い。特にプロンプトキャッシング機能による最大90%のコスト削減効果は、企業の生成AI導入における大きな障壁の一つであるコスト面の課題を解決する可能性を秘めている。

一方で、キャッシュの有効期限が5分という制限は、長期的なコンテキスト保持が必要なアプリケーションには課題となる可能性がある。今後はキャッシュ期間の柔軟な設定やキャッシュ戦略のカスタマイズなど、より細かな制御が可能になることが期待されるだろう。

プロンプトルーティング機能については、現在対応しているモデルファミリーの拡大が期待される。特に企業独自のカスタムモデルとパブリックモデルの組み合わせや、異なるモデルファミリー間でのルーティングなど、より柔軟なモデル選択が可能になることで、活用の幅が大きく広がるはずだ。