【トライ系】

CloudFrontのログS3を解析する(途中まで)

目的


CloudFrontのログをS3に出力しているが、素データが解析し辛いので、解析方法の検討。
これが出来ると、お仕事で
・ログデータの解析に時間がかかる or そもそも見てねぇ。ってのが解決。
・ログを自サーバーからS3に移管できて、長期間のログ解析も可能。
がえきると思うのである。

利用AWSサービス


◾️CloudFront

コンテンツデリバリーサービス。オリジナルサーバーに負荷を与えず展開が可能。
あんまり語らない。

◾️S3

高可用性のストレージサービス。入力元。

◾️Glue

データの抽出、変換、ロード (ETL) サービス
今回のメイン、S3➡︎DynamoDBで連携する。

◾️DynamoDB

非リレーショナルデータベースサービス、いわゆるNoSQL。出力先。

フロー図


GlueでS3データを加工し、DynamoDBにUPする。

手順


◾️1.S3のログ

ブログの「https://seq-blog.com」にアクセスされる毎にログが出力される
1アクセスで1ファイルなのかな。

中身はこんな感じ。
キーはdate と time

◾️2.Glue:テーブルの設定

Glueの左メニューで「テーブル」➡︎「テーブルの作成」

テーブル名は任意、今回は"seq-blog-cf-logs"
キーはdate と time

こんな感じで作成されました。

◾️3.Glue:クローラーの設定。

Crawler:ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。
Glueの左メニューで「クローラー」➡︎「クローラーの追加」

クローラーの名前を入力。今回は"seq-blog-cf-logs-crawler"

choose a data storeは"S3"を選択。
インクルードパスは"S3://ディレクトリ"って形式で入力。

別のデータストアの追加を問われますが、今回はなし。

「IAMロールを作成する。」をチェック。
ロール名は任意ですが、今回は"seq-blog"という名前

クロールを使うタイミングを指定。今回はオンデマンド。

S3からの出力先テーブルをデータベースとして指定。
ここは中間的なデータベースのイメージ。

これまで設定した内容を確認。

必要であれば、"今すぐ実行しますか?"をクリックし、データを取得。

◾️4.つづきは後日。。。

別に書く。

関連記事

  1. 【トライ系】

    wordpressのDBをAuroraからMySQL on EC2

    やりたいこと当ブログをWebサーバーとDBサーバーと分割していたが…

  2. 【トライ系】

    CloudFrontのログS3を解析する(費用請求)

    費用請求awsの費用チェックで毎日金額をチェックしているのだが、…

  3. 【トライ系】

    Slack -Incoming Webhook-

    Slackを使ってみよう企画Slackって何か? いろんなアプリと連…

  4. 【トライ系】

    docker -Install-

    やりたいこととりあえずdockerとやらを試したい。dockerの…

  5. 【トライ系】

    Slack -Slash command-

    Slackを使ってみよう企画Slackって何か? いろんなアプリと連…

  6. 【トライ系】

    DeepRacerを遊んでみた(やってみた系)

    DeepRacerとは?https://aws.amazon.co…

アーカイブ

PAGE TOP