Data Engineer / Stats & Machine Learning Enthusiast / As an Amazon Associate, I earn from qualifying purchases / Tweets are totally personal & my own

Joined May 2023
15 Photos and videos
今年は仕事やプライベートが急に忙しくなってしまい、Xをやる時間がかなり減ってしまった。 読書はできていたので良かった。
218
メダリオンアーキテクチャも非構造化データに対応するように考慮され始めている。 非構造化データとLLMを組み込み拡張できるようなRAGパターンがいくつか紹介されている。 どうやって構造化データと非構造化データを統合していくかが鍵になってきたりする。 piethein.medium.com/unstruct…
1
13
148
14,849
比較的新しいデータエンジニアリングの情報を英語で取りに行くなら、このようなコミュニティとかを見ると面白い。 普段、海外のデータエンジニアやアナリストがどんなことで困っていて、どんな技術をキャッチアップしているのかを見ることができる。 reddit.com/r/dataengineering…
7
102
5,052
これ、すごくありがちで さらに、いつから間違っていたのかすらも判明しないということも少なくない。 結構つらい...
これありがち 実は何年も間違った計算が行われてたやつ… 真っ青になるよね、元システムの人
4
5,729
データの整合性を考慮したパイプライン作り。 データパイプラインが複雑になればなるほど難しくなるが、チェックポイントを使った実装は無難だと思っている。 自動的にリトライされるようになっていても良いし、別フローとして意図的に再実行させるのもケースによる。 medium.com/@vivekburman1997/…
1
18
1,577
データ同期処理を劇的に改善した事例。 このように既存の仕組みがボトルネックになり、新方式移行する必要が発生するのは往々にしてある。 既存機能調査や他チームへの交渉、新方式の検証といった泥臭い内容は非常に参考になる。 federated queryが使えるとシンプルになる。 techblog.goinc.jp/entry/2022…
1
7
1,203
ビッグデータの品質を評価し、管理するための資料。 サンプリング、プロファイリング、データ品質のディメンションが記載されている。あくまで品質手法の話で、あわせて書籍データ品質実践ガイドも読みたい。 リンク先のPDFは無料で取得できた。 link.springer.com/chapter/10…
3
21
992
5つの層から成るアーキテクチャのフレームワーク。 こんな論文が出ていたからなのか、メダリオンアーキテクチャ2.0とかプラチナレイヤー等の概念が少しづつ登場したのかもしれない。 ibimapublishing.com/articles…
13
118
8,634
このようなクエリのルールは改めて重要だと感じる。 今はAIがクエリを書いたりレビューしたりするが、ルールを定めて守らせないと想定した挙動をしないことがある。 最終的な人間の判断のため、サブクエリは使わないとか、カラムにJOIN元のCTEsを明記させるとかは必要。 zenn.dev/tenajima/articles/e…
3
15
778
Data Vaultを運用した記事。 ディメンショナルモデリングとの相性の良さ等のメリット・デメリットや手法の採用基準、その他技術も紹介。 これだけの内容を全て無料で公開してくれているのは非常にありがたいこと。 Data Vaultを3年以上運用して得た学び - yasuhisa's blog yasuhisay.info/entry/2025/09…
2
11
945