@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「スケーラブルデータサイエンス」を読んだ

読み始めるとガツンとくる言葉から始まる

データ分析の主目的は、より良い決定を下すことです。分析結果に基づいた意思決定が必要なければ、そもそも、分析に時間を費やす必要はありません。
<スケーラブルデータサイエンス p.1>

第1章 データに基づくより良い意思決定
第2章 クラウドでのデータの取り組み
第3章 魅力的なダッシュボードを作成する
第4章 ストリーミング・データ処理
第5章 インタラクティブなデータ探索
第6章 Cloud Dataproc によるベイズ分類器
第7章 Spark によるロジスティック回帰分析
第8章 スライディングウィンドウによる集計処理
第9章 TensorFlow を用いた分類モデル
第10章 リアルタイム機械学習
付録A 機械学習データセット内の機密データに関する考慮事項

本書ではデータ分析の目的を正確な意思決定をシステマティックに行うことをデータドリブンな手法で支援することと定義している。この目的を達成するためにデータエンジニアという役割の説明をしている。
データエンジニアにはデータベーススキーマの設計、SQLクエリの作成、機械学習モデルの構築、データ処理パイプラインのコーディング、これらのスケールアップの方法を考える必要があると言っている。ただし本書ではGoogle Cloud Platform のマネージドサービスを使うことで容易になったと説明して様々なツールの説明、使い方の紹介をしている。

フライトの遅延状況によって会議をキャンセルしたほうが良いかという問題を元にGoogle Cloud Platform のサービスを実際に動かしながら問題を解決していくのを試すことができた。データを取り込み、ダッシュボードを作成し、データの取り込みをリアルタイム連携する練習をし、インタラクティブにデータ探索をする環境を作り、機械学習モデルを構築し処理を行うことを順番に試せた。

Google Cloud Platform を使うことでインフラを開発すること運用することをあまり細かく考えることなく動かすことができることを体験できた。動かす環境を作成するのは問題ないけど、何度でも簡単にそして誰でも作れることやどれを使って作るかなどを考えることは引き続き必要になると思う。今の自分の興味は使うためのデータを集める、見つけやすくする、安全なことを担保するなどなのでまた他にも勉強をしようと思った。

まとめ

  • データ分析の目的を決めて共有するのは大事だなと思った
  • Google Cloud Platform のデータに関するサービスを知ることができるのが良かった
  • 用語が自分で思っていたのと違ったので今後うまく統一化されていかないかなー