Kinesis Data Streamsとは？意味をわかりやすく簡単に解説

text: XEXEQ編集部

Kinesis Data Streamsとは
Kinesis Data Streamsを使ったデータ処理の流れ
Kinesis Data Streamsへのデータ取り込み
Kinesis Data Streams上でのデータ処理
Kinesis Data Streamsからのデータ出力
Kinesis Data Streamsのスケーラビリティとパフォーマンス
シャーディングによる水平スケーリング
スループットとレイテンシーの制御
モニタリングとオートスケーリング
Kinesis Data Streamsの料金体系とコスト最適化
シャード時間とデータ転送量に基づく料金
データ保持期間とコストの関係
コスト最適化のためのベストプラクティス

Kinesis Data Streamsとは

Kinesis Data Streamsは、Amazon Web Services(AWS)が提供するリアルタイムデータストリーミングサービスの一つです。大量のデータを収集、処理、分析するためのフルマネージド型のサービスとなっています。

Kinesis Data Streamsは、様々なソースから大量のデータをリアルタイムに取り込むことができます。例えば、ログデータ、IoTデバイスからのセンサーデータ、ソーシャルメディアのフィードなどを収集し、リアルタイムに処理することが可能です。

データは、シャードと呼ばれる複数の処理単位に分散され、スケーラブルに処理されます。各シャードは、1秒あたり最大1MBのデータ書き込みと、1秒あたり最大2MBのデータ読み取りをサポートしています。

Kinesis Data Streamsに取り込まれたデータは、リアルタイムに処理や分析を行うことができます。例えば、Lambda関数を使ってデータ変換を行ったり、Amazon EMRを使ってリアルタイム分析を行ったりすることが可能だ。

また、Kinesis Data Streamsは、他のAWSサービスとシームレスに統合できます。例えば、Kinesis Data Firehoseを使ってデータをS3やRedshiftに直接ロードしたり、Amazon Elasticsearchを使ってデータの全文検索を行ったりすることができます。

Kinesis Data Streamsを使ったデータ処理の流れ

Kinesis Data Streamsを使ったデータ処理の流れに関して、以下3つを簡単に解説していきます。

Kinesis Data Streamsへのデータ取り込み
Kinesis Data Streams上でのデータ処理
Kinesis Data Streamsからのデータ出力

Kinesis Data Streamsへのデータ取り込み

Kinesis Data Streamsへのデータ取り込みは、様々な方法で行うことができます。一般的には、Kinesis Producer Library(KPL)を使用して、アプリケーションからデータを送信します。

また、Kinesis Agentを使って、サーバー上のログファイルなどを直接Kinesis Data Streamsに送信することも可能です。AWS IoT、CloudWatch Logs、DynamoDBなどの他のAWSサービスからデータを取り込むこともできます。

データを送信する際は、パーティションキーを指定します。パーティションキーは、データを特定のシャードに割り当てるために使用されます。同じパーティションキーを持つデータは、同じシャードに割り当てられます。

Kinesis Data Streams上でのデータ処理

Kinesis Data Streams上でのデータ処理は、主にAmazon Kinesis Client Library(KCL)を使用して行います。KCLは、シャードからのデータ読み取りを管理し、レコードの処理を行うためのライブラリです。

KCLを使用することで、複数のコンシューマーアプリケーションを作成し、シャード間でデータ処理を分散させることができます。各コンシューマーは、割り当てられたシャードからデータを読み取り、独自の処理ロジックを適用します。

また、AWS Lambdaを使ってサーバーレスでデータ処理を行うこともできます。Kinesis Data StreamsをLambdaのトリガーとして設定することで、新しいレコードが到着するたびにLambda関数が自動的に呼び出されます。

Kinesis Data Streamsからのデータ出力

Kinesis Data Streamsからのデータ出力は、様々な方法で行うことができます。一般的には、KCLを使用してデータを読み取り、アプリケーションで処理した後、必要に応じて他のサービスに出力します。

また、Kinesis Data Firehoseを使用することで、Kinesis Data Streamsのデータを直接S3、Redshift、Elasticsearchなどの他のAWSサービスに出力することも可能です。Kinesis Data Firehoseは、データの変換やバッファリングを行い、信頼性の高いデータ配信を実現します。

さらに、AWS Glueを使ってデータをETLし、Amazon Athenaを使ってデータをインタラクティブに分析することもできます。これにより、リアルタイムデータをビジネスインサイトに変換することが可能となります。

Kinesis Data Streamsのスケーラビリティとパフォーマンス

Kinesis Data Streamsのスケーラビリティとパフォーマンスに関して、以下3つを簡単に解説していきます。

シャーディングによる水平スケーリング
スループットとレイテンシーの制御
モニタリングとオートスケーリング

シャーディングによる水平スケーリング

Kinesis Data Streamsは、シャーディングによって水平スケーリングを実現しています。シャードは、データストリームの読み取りと書き込みの容量を表す基本的な処理単位です。

各シャードは、1秒あたり最大1MBのデータ書き込みと、1秒あたり最大2MBのデータ読み取りをサポートします。シャード数を増やすことで、データストリームの容量を水平にスケールアウトすることができます。

シャード数は、データストリームの作成時に指定します。また、必要に応じてシャード数を動的に変更することも可能です。これにより、データ量の増減に柔軟に対応することができます。

スループットとレイテンシーの制御

Kinesis Data Streamsは、スループットとレイテンシーを制御するための様々な機能を提供しています。例えば、バッチ処理を使用することで、複数のレコードを一括して書き込むことができ、スループットを向上させることができます。

また、Enhanced Fan-Out機能を使用することで、コンシューマーアプリケーションごとに専用の読み取りスループットを割り当てることができます。これにより、読み取りレイテンシーを最小限に抑えつつ、高いスループットを実現できます。

さらに、Kinesis Data Streamsは、レコードの順序性を保証しています。同じパーティションキーを持つレコードは、常に書き込まれた順序で読み取られます。これにより、データの整合性を維持しつつ、リアルタイム処理を行うことができます。

モニタリングとオートスケーリング

Kinesis Data Streamsは、CloudWatchと統合されており、様々なメトリクスを収集・モニタリングすることができます。例えば、書き込みスループット、読み取りスループット、レイテンシーなどのメトリクスを確認し、パフォーマンスの問題を検出することができます。

また、CloudWatchアラームとAWS Auto Scalingを組み合わせることで、Kinesis Data Streamsのオートスケーリングを実現することも可能です。例えば、書き込みスループットが一定のしきい値を超えた場合に、自動的にシャード数を増やすことができます。

これにより、トラフィックの変動に応じて自動的にリソースを調整し、コストを最適化しつつ、パフォーマンスを維持することができます。Kinesis Data Streamsは、高度なスケーラビリティとパフォーマンスを実現するために設計されたサービスなのです。

Kinesis Data Streamsの料金体系とコスト最適化

Kinesis Data Streamsの料金体系とコスト最適化に関して、以下3つを簡単に解説していきます。

シャード時間とデータ転送量に基づく料金
データ保持期間とコストの関係
コスト最適化のためのベストプラクティス

シャード時間とデータ転送量に基づく料金

Kinesis Data Streamsの料金は、主にシャード時間とデータ転送量に基づいて計算されます。シャード時間は、シャードが存在した時間に対して課金されます。1シャード時間あたりの料金は、リージョンによって異なります。

データ転送量は、Kinesis Data Streamsに書き込まれたデータ量と、Kinesis Data Streamsから読み取られたデータ量に対して課金されます。データ転送量は、GBあたりの料金で計算されます。

また、Enhanced Fan-Out機能を使用する場合は、追加の料金が発生します。Enhanced Fan-Outは、コンシューマーごとに専用の読み取りスループットを割り当てるため、通常の読み取りよりも高い料金が設定されています。

データ保持期間とコストの関係

Kinesis Data Streamsでは、データの保持期間を設定することができます。デフォルトでは、データは24時間保持されます。保持期間を延長することで、最大168時間(7日間)までデータを保持することができます。

データ保持期間を延長すると、それに応じてコストが増加します。長期的なデータ保持が必要な場合は、Kinesis Data Firehoseを使ってデータをS3に出力し、S3でデータを長期保存するという方法もあります。

S3は、Kinesis Data Streamsと比べて格段に安価なストレージコストを提供するため、長期的なデータ保存に適しています。Kinesis Data Streamsは、リアルタイムデータ処理に特化したサービスであるため、長期的なデータ保持にはコスト面での制約があることを理解しておく必要があります。