Data Engineer / Stats & Machine Learning Enthusiast / As an Amazon Associate, I earn from qualifying purchases / Tweets are totally personal & my own
データエンジニアが流行しだしてから数年が経過していますが、まだまだデータエンジニアリング分野は発展途上で、次々に新しいSaaSやツール、書籍が登場しています。 データエンジニアは、データの収集、分析、活用に必要なデータ基盤を構築・運用する職種です。企業によっては、データのマネジメントやその周辺知識も必要になります。データエンジニアとして活躍するためには、非常に幅広い知識と能力が求められます。...
データファブリック、データレイクハウス、データメッシュは、これまで広く使われてきたデータウェアハウスに代わる選択肢として登場しています。ただし、これらはいずれも万能というわけではありません。本書は、それぞれの長所と短所を理解できるよう、これらのアーキテクチャを分かりやすく解説します。データウェアハウスがデータレイクの機能と連携するためにどのように進化してきたかを含めて、データアーキテクチャを...
★大規模プロジェクトを複数手掛ける著者2名が執筆! ★500ページ超のボリュームで包括的に解説! 近年、データ活用の重要性が高まる一方で、適切な技術を選んで効果的に活かすことは容易ではありません。データ基盤の構築手段は多様化しているため、どの技術をどのように組み合わせるべきか迷う場面も多いでしょう。 本書は、ビジネスの成長に不可欠な「データプラットフォーム」の構築と活用について解説する一冊で...
データレイクは膨大なデータを柔軟に扱える一方で、スキーマ管理の複雑さや性能の低下、ガバナンスの難しさなど多くの課題を抱えてきました。本書は、これらの問題を解決するデータレイクハウスアーキテクチャの全貌を解き明かします。オープンソースのDelta Lakeを軸に、ACIDトランザクション、タイムトラベル、スキーマ進化、デー夕品質管理といった重要機能をわかりやすく解説します。さらに、Apache...
How LLMs and the Medallion framework work together on scaling unstructured data management
News & discussion on Data Engineering topics, including but not limited to: data pipelines, databases, data formats, storage, data modeling, data governance, cleansing, NoSQL, distributed systems,...
データサイエンティストがより良いコードを書くために、ソフトウェア開発の基本手法を学ぶための実践的なガイドブック。読みやすく保守しやすいPythonコードの書き方を具体的な例とともに解説します。テスト、ロギング、リファクタリング、ドキュメント、パフォーマンス、デプロイなど、実務に役立つ内容が満載です。AIがコードを自動生成する時代でも、コードの質を見極める力が重要だという視点に立脚し、自らの判...
データ整備/データ基盤システムの構築/データ分析組織立ち上げのプロがすぐ効くノウハウを教えます! 「会社内でバラバラになっているデータを集めたが、これから何をしていいか分からない」 「最新技術を利用してデータ基盤をつくったがニーズがなかった」 「頻繁に障害が発生するデータ収集に対応してきたが、そのデータは誰にも利用されていなかった」 「データの意味が分からず、データの意味の聞き込み調査で1日...
本書は生成AIの活用を視野に入れたデータマネジメントの仕組みをつくるための「教科書」です。データ活用は経営者の号令、IT部門のデータ基盤整備、現場の業務担当者のデータ入力だけでは不十分です。データ活用とは、立場も役割も異なる人々が、同じ目標に向かって協力し合う「One Team」で実現する総力戦に他なりません。本書は、この三者の溝を埋めOne Teamとして機能するための「仕組みづくり」を...
Modern data engineering isn’t about moving data from A to B — it’s about doing it correctly every single time. The deeper a pipeline goes…
データサイエンティストに求められるスキルは、いまや分析技術だけではありません。実務で活躍できるデータサイエンティストになるためには、チームでの働き方も身に付けなければいけないでしょう。本書では、分析環境の準備・分析データのチェックから、機械学習モデルの運用やプロトタイプ開発まで、データサイエンティストが抑えるべき「分析前後」の知識を身に付けられます。ワンランク上のデータサイエンティストになる...
タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに 本記事では、タクシーアプリ「GO…
Big Data is becoming a standard data model, and it is gaining wide adoption in the digital universe. Estimating the Quality of Big Data is recognized to be essential for data management and data...
システム開発やデータ活用を進める際、 同じ言葉を使っているのに話が噛み合わない…… そんな経験はありませんか? それは、「データの意味のズレ」が 原因かもしれません。 データの意味は立場や文脈で変わります。 例えば「売上」という言葉ひとつ取っても、 営業部門と経理部門で解釈が異なることも。 データが増え続ける中、意味のすれ違いが システム開発やデータ基盤構築、DXの推進、 データ分析、データ...
背景: Data Vaultを運用し続けている事例の公開は多くない おさらい: Data Vaultとは何か データ分析基盤におけるData Vault Data Vault自体の解説記事 Data Vaultを使った開発 with dbt Data Vaultを運用してよかったこと データモデリングを強制される ディ…
インテグレーションのためのミドルウェア製品のテクニカルサポートを担当している山下です。 今回は レッドハットのシニアアーキテクトである Eric Murphy さんによる「マイクロサービスのための分散データ 〜 イベントソーシング vs チェンジデータキャプチャ(CDC)」の翻訳記事です。この記事では、イベントソーシン…