marketechlabさんの無料版データを有料版と同じようにBigqueryへ格納する方法は凄くいいなぁと思いつつ、一長一短あるなぁと思いながら見ていました。
bot排除が必要(逆にメリットとしてbotの動きを知れる)
bigqueryへの格納方法にもよりますが分析コストが高いflat化したり
既存GUIを見る事で足りるデータはあると思う(例えばブラウザバージョン分布等)
Bigqueryで舐めるデータ量が多そうなので工夫が必要かも?
bot以外の項目に関してはGAの有料版と同じだし、メリットも多い...ということでそちらへ切り替えようかどうしようか…と考えつつ、現状は力技で解決してしまっているため、今やっている方法も全くダメなんだよなぁといろいろ悩んでしまいました。
現状のデメリットとしては...
分析したいデータという観点でデータの組み合わせ、抽出スパン等を事前に考える必要がある
場合によってはlogだと1レコードで取得できる部分がテーブル違い等で重複して取得している場合がある
あたりでしょう。
■現状の構成
基本GCPで解決しているのは同じで、基本以下のような流れで進みます。現状だとStorageを挟む必要性もない構成なのですが、なんとなく噛ませてしまっていますね。あと鍵管理でKMSを利用していない部分が駄目。
Cloud...