講演中のQ&A

データ活用でキャンペーン成果の最大化を
  ~AWSで実現するデータ活用と分析基盤構築~

ウェビナー開催中に視聴者の方から頂いた質問と回答を公開します。

AWS Analytics サービスのご紹介

質問1 データレイクとは何でしょうか?

回答1

質問2 Redshift と Athena はどう使い分ければよいでしょうか?

回答2

質問3

回答3

顧客理解を深め、キャンペーン成果の最大化を目指すデータ活用

質問1 この事例では、どのようなツールやシステムを利用したのですか?

回答1

質問2 この仕組みの構築期間はどれほどかかりましたか?

回答2

AWSで作るデータ分析基盤 サービスの選定と設計のポイント

質問1 自前で作るのではなく、商用DMPを使うのはどうでしょうか?

回答1

質問2 小規模に始める場合、データウェアハウスだけで始めるのはどうでしょうか?

回答2

お問い合わせ先

NRIネットコム株式会社 セミナー事務局

webinar@nri-net.com

Copyright (c) NRI Netcom, Ltd. All Rights Reserved.

データレイクは規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。

Redshift と Athena ですが、基本的には Redshift は複雑で実行時間の長いクエリ処理に向いております。
そのため、Redshift はデータウェアハウスのような大量データのバッチ処理やレポート処理で利用し、Athena は現在あるデータの傾向や偏りなどをインタラクティブに、試行錯誤するような要件に向いています。
定型的な処理よりもアドホック(非定型)なニーズに気軽に実行できるのが特徴です。

一方、Redshift Spectrum と Athena についてですが、どちらも S3 上の半構造データを SQL ベースで分析、集計するという点では同じ効果が得られます。
もし既にデータウェアハウスとして、Redshift をご利用で、そのような要件の場合は、Redshift Spectrum をご選択ください。
また既存のデータベース表と S3 上のデータを組み合わせて分析する場合も Redshift Spectrum が向いています。

ETL の使い分けについては、処理の時間や規模にあわせてご検討いただければと思います。
Lambda の場合、1 ファンクションあたり、15 分という制約があるため、15 分以内に終わる処理が望ましいと思います。
並列実行出来るのであれば、AWS Stepfunctions と組み合わせ、規模の大きい処理も Lambda のみで対応出来るかもしれませんが、実際に検証してコストや使用言語、パフォーマンス、運用面等、全体のバランスを考慮して、ツールの利用をご検討いただくのが良いかと思います。

ETL ツールで 3 つの選択肢を説明されていましたが、使用する際はどのような基準で判断すれば良いですか?

情報の出し分けにはKARTEを利用しています。
出し分けの対象を裏側で判断する仕組みについては、色々な方法があります。

もともと計測等のデータを活用できる環境を整備していたので、ツール導入含めて3ヵ月ほどで構築した後、段階を経てパターン化しました。環境整備度合いによっては、半年から1年ほどかかるケースも考えられます。

商用ツールの活用も視野に入れると良いです。注意点としては、商用ツールはターゲットとする領域がそれぞれ異なるので、実施したい事を明確にした上でツール選定する必要があります。また拡張方法についても、事前に考慮しておいてください。

数ヶ月のPoCであれば、それも良いと思います。ただ原則として、データレイクとDWHは分離しておきましょう。後で分析したい内容が変わった場合に、DWHだけだと加工前の元データがなくなってるので、対応できない場合があります。

ウェビナー開催概要はこちら