@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

202406 振り返り

なんと気がついたら年の半分が終わってしまった。
気がついたらでどんどん日々が過ぎてしまっていて良くない気がする。これからやりたいことなどをちょっと考えながらそれに向かってやること決めて活動をしていきたいな。
最近は掃除の仕方を調べることが増えた。

べんきょうかい

久しぶりにAWS のイベントに参加した。何人か知り合いに会うことができたが、参加者の人数が多く疲れてしまった。
データ分析のところでRedshift って単語があまり言われてないような気がして今ってみんな何使っているんだろうなーと思った。

ほん

今月は疲れが溜まっていたのかあまり文字を読むことができなかった。
本を買うスピードは変わってないので積読が増えてしまってちょっと頭を抱えた月となった。

技術本よめてないから読んでいかないと取り残されてしまう。

えいが

あぶない刑事は世代なのか?という疑問もありつつずっと見ているので見に行ってしまった。
そのかいもあり8月のイベントの際にインターコンチネンタルホテルを予約してしまったがしょうがない。

  • 帰ってきた あぶない刑事
  • 碁盤斬り
  • ディア・ファミリー

202405 振り返り

飲み会が徐々に増えてきたのと管理される時期が終わってしまったのでゆるやかに体重がもとに戻り始めてしまっている。
少しずつ頂いた本を読みすすめている。面白い本が多くて他にも買って手を出してしまっているがゆっくりと読み終えるように怠けず続けていこうと思う。

べんきょうかい

久しぶりにオフラインの勉強会に行ってその場でいろいろ話したことで得た知見があった。
やっぱり勉強はサボらずやらないとだなと思ったのでがんばるぞい。

ほん

GW で時間を取ることができたので、誕生祝にもらった本をいくつか読むことができた。
早く読まないと古い知識になってしまう本も多くあるので早めに読み進めることを頑張らないとな。

えいが

観に行くことがなかった。
最近は観に行くことのほうが珍しくなってきた。

ぶろぐ

GW に読んだ本について少々感想を書いた。データ、クラウドk8s と興味ある本を読んだので面白く読めることができた。
本は相変わらず溜まっているので読み続けるぞ。

hihihiroro.hatenablog.com

hihihiroro.hatenablog.com

hihihiroro.hatenablog.com

「AWSで実現するモダンアプリケーション入門」を読んだ

ピタゴラスイッチの様にうまく組み立てることが増えてきていると思っているので、そのための情報を知っておく必要があるなと思うので使えるサービスについて知っておこうと思った。

第1章 モダンアプリケーションとは何か
第2章 サンプルアプリケーションの紹介
第3章 アプリケーション開発におけるベストプラクティスを適用
第4章 データの取得による状況の可視化
第5章 サーバレスやコンテナテクノロジーによる運用改善
第6章 CI/CDパイプラインによるデリバリーの自動化
第7章 要件にあったデータベースの選択
第8章 モダンアプリケーションパターンの適用によるアーキテクチャの最適化

環境選びとしてアプリケーション開発以外に手を掛けなくて良い構成を選ぶのが大事ということはわかっている。ただ、マネージドにすればするほどログが設定できてなくて見れなかったり、トラブルの時の対応方法を調べるのが大変になってしまうことが多くて良いとわかっていても諦めてしまうことが多かった。
しかし、そこは諦めるのではなくモニタリングとオブザーバビリティの設定をしっかりとできるように自分の能力を上げていく必要があるのだろうなと思った。なんとなく使えてしまっているから大変なことになるまで対応をしてないため大変になることはわかっているので、まずは使うと決めたサービスで何ができて何ができないか、どんな設定をしないとダメかを試すことに時間と手間をかけるようにしていきたい。

まとめ

  • 最後の章のパターンは覚えておく様に何度か読み直す
  • 作り直せるところから順番にやり直していきたいものだ
  • 最近はAWS 触る時間減っているからもっといっぱい触る

「つくって、壊して、直して学ぶ Kubernetes入門」を読んだ

Kubernetes で悩むことが多いので読むことにしてみた。

目次は以下。

Chapter1 Dockerコンテナをつくってみる
Chapter2 Kubernetesクラスタをつくってみる
Chapter3 全体像の説明
Chapter4 アプリケーションをKubernetesクラスタ上につくる
Chapter5 トラブルシューティングガイドとkubectlコマンドの使い方
Chapter6 Kubernetesリソースをつくって壊そう
Chapter7 安全なステートレス・アプリケーションをつくるには
Chapter8 総復習:アプリケーションを直そう
Chapter9 Kubernetesの仕組み、アーキテクチャを理解しよう
Chapter10 Kubernetesの開発ワークフローを理解しよう
Chapter11 オブザーバビリティとモニタリングに触れてみよう
Chapter12 この先の歩み方

大きくは3部構成となっておりKubernetesの構築、Kubernetesを使用してのアプリケーション実行、最後にアーキテクチャの説明や実践的知識の紹介がされている。絵がたくさん書かれているので読む分には疲れることがとても少ないと思った。
章をすすめるたびに書かれているコマンドの実行やファイルの適応をしていくことで少しずつ理解を深めていくことができて面白かった。ローカルだけでも動かせる内容だったので試すことも楽だった。

また他の書籍とは違う点として順調に動かすところを試していくだけではなく、自分たちでシステムを破壊したあとに調査を行う。その後に原因を探ることで修正をすることまで実体験できるのは面白かった。調査をするコマンドが多かったりするので実際に打つことは確かにそちらのコマンドの方が多いよなと思った。
調査の方法としても見ていく順番が紹介されている。切り分けをすることが難しくなるので小さいところから調べるなど他のトラブル調査にでも役立つ情報だなと。

他にも試してみたことないコマンドなども紹介があったのでもう少し試してみようと思った。

まとめ

  • 読みやすかったので復習に良かった
  • 試したことないコマンドなどもあったので試してみよう
  • デバッグのやり方、トラブル調査の仕方は役立ちそう

「データエンジニアリングの基礎」を読んだ

もっと早く読もうと思っていたのだが読めたので。

目次。

1章 データエンジニアリング概説
2章 データエンジニアリングライフサイクル
3章 適切なデータアーキテクチャの設計
4章 データエンジニアリングライフサイクルにおけるテクノロジの選択
5章 ソースシステムにおけるデータ生成
6章 ストレージへの保存
7章 データ取り込み
8章 クエリ、データモデリング、変換
9章 アナリティクス、機械学習、リバースETL へのデータの提供
10章 セキュリティとプライバシー
11章 データエンジニアリングの未来
付録A シリアライズと圧縮技術の詳細
付録B クラウドのネットワーク

実際に働いてみて幅広い分野に関わること多いよなと思っていたけど、本書でデータエンジニアが気にするべき領域が書かれていて本当に幅広く知識をもって働かなきゃいけないんだと気付かされた。本書ではツールや特定技術ソリューションの話題は避け、データエンジニアリングの背後にある普遍的な技術概念の説明に徹してるとのことなので具体的な話だけではないことを学ぶことができた気がする。

本書では、データをプロダクト価値に変えていく一連の流れをデータエンジニアリングライフサイクルという言葉で表現している。データエンジニアリングライフサイクルは以下と紹介されている。

  • データの生成
  • 保存
  • 取り込み
  • 変換
  • 提供

また、これらの土台となる要素としてセキュリティ・データ管理・DataOps・データアーキテクチャオーケストレーション・ソフトウェアエンジニアの説明がされている。

データアーキテクチャの例としていくつか例として取り上げられている。例えば、データウェアハウス、データレイク、Lambdaアーキテクチャ、Kappaアーキテクチャ、Dataflowモデルなどなど。この辺りがツールに偏っての説明ではないためどんなものを使う時でも話がしやすいようになっているなと思った。

データ生成の部分ではデータベースについての話や、保存のための箇所ではストレージに対するトレードオフなど自分たちが関わるサービスについては知識を持つことの大事さが紹介されていた。たしかに性能問題などが起きた時など結局色々と調べることが多いので広く勉強をしておく必要はあると再認識した。そのための勉強する範囲がまとまっているのでとても参考になった。

どの章にも参考資料がたくさん紹介されている。本だけではなくブログなども記載されておりどんどん幅広い勉強ができるだろうなと思うほどの量が書かれているので順番に読んでいくことをすすめたい。
ストリーミングの話やセキュリティ、モデリングなどはあまり自分から関わりにいってないところなので苦手意識があるので勉強はしないとなと思っている。勉強するのに良さそうなものをまずは参考資料から探そうと。

まとめ

  • データエンジアリングの全体像ってこんなにかと思うほど広範囲なことがまとめられている
  • 自分が知っている、関わっている範囲は狭いなと認識できたのでもっと頑張らなきゃ
  • 引き続き勉強頑張っていかないと
  • いろいろやることあって面白い職種なので興味ある方はぜひお話ししましょう!

202404 振り返り

なんか最近謙虚さがないなと反省することが多い気がしている。
他の人の意見を聞き入れたなと思うことがとても少なくなっている。本を読んだり勉強会に出たりすることも減っているので、このままでは凝り固まった人になってしまうのでそれは避けたいと思っている。あれ?これはと話していて気になった人は指摘してもらえると助かります。

今年も誕生日のほしい物リストからたくさんのプレゼントをいただきましてありがとうございました。
なにかしら簡単にプレゼントをお返ししたり、いただいた本などで得た知識でお返しができるようになるために頑張っていこうと思いますので今後もよろしくお願いします。

べんきょうかい

最近はこれといった勉強会に出てなくても焦らなくなった。
情報のやり取りを簡単にできる人が増えてきたのでそちらで話をすることがメインになってきたからかもしれない。 でも知らないことも増えているのでそろそろ幅広い情報共有としてまた参加してみようと思う。

ほん

電車の中でも本を読めるようになってきた。
結局集中して読むには時間をまとめて時価を取った方が良いけどあまり集中して読まなくても良いなと思う本については出社時間などに読んでいくことで本を消化し続けていきたい。

えいが

少しずつ映画を観にいく習慣が戻ってきた。
前ほど何でもかんでも観にいくようにはならないけど今後も何本かは観に行けると良いな。

ぶろぐ

GW なので積んでいた本をいつも通り消化することが少しだけでできたので、読んで興味あったものについていつも通りの雑記をした。

hihihiroro.hatenablog.com

hihihiroro.hatenablog.com

「ゼロからのデータ基盤 Snowflake実践ガイド」を読んだ

データエンジニアとして頑張ろうと思っているのでまずは薄い本から読んでみることにした。

目次は以下。

第1章 データ基盤とは
第2章 Snowflake とは
第3章 Snowflake の導入と操作
第4章 権限管理とガバナンス
第5章 実践的データ基盤の構築
第6章 ETL とReverse ETL
第7章 データオーケストレーション
第8章 BI ツール
第9章 データアプリケーションと分先

タイトルにSnowflake と書いてあるがデータ基盤について話がたくさん書かれているのでSnowflake を使わないとしても勉強になる。本書ではデータ基盤の構成として以下が紹介されている。

Snowflake を使ってみた感想としては、ロールベースでの権限管理が徹底されていてデータを管理して提供する側としてはとてもやりやすいなと思った。そしてスキーマ、テーブルだけではなく、ユーザや実行環境に関してもすべてSQL で作成することができるなどが面白かった。またPython の実行環境なども用意されておりやりたいことがいろいろと実行できるようになっており便利。データ共有がとてもやりやいものだなというのもあった。

ETL については最近Embulk 以外でバッチ処理をうまくやるものについては興味があって調べている。Embulk はいろいろ使いやすいがJava のバージョンだったり起動時間などが気になることが増えてきており、もう少し早く使いやすいものないかなと思っている。また、DWH からデータを書き戻すReverseETL もユーザ要望が徐々に増えているなと感じているのでツールについていくつか紹介されていたので使ってみたいと思う。また、データを活用していく用語としてデータアクティベーションというのを初めて知った。

他にもオーケストレーション、BI ツールについてもツールの紹介がいくつかされており、使ったことがないものもいくつもあったので面白かった。少しでも使いやすいものにしていきたいので触ったことないものについては試してみようと思った。最近は生成AI が徐々に使えるようになってきているのでDWH もメタデータの充足が求められてきているなと感じることが多い。ここについてはあまり説明がなかったので少し残念だった。

まとめ

  • データ基盤についての簡単なまとめとして読むのにちょうどよかった
  • Snowflake には便利な機能がいくつもあるので使えるところでは使いたい
  • 結局データ連携部分って宦官得ることが多いな