DataEngineering を X で検索 — Twitter ブラウザ

2026.06.17 19:10

# Snowflakeの機能と実践的な使い方 🚀 「サイズを1段上げると速くなるけど、コストは大丈夫?」——Snowflakeのコスト最適化は、この問いに正しく答えられるかで決まります。Virtual Warehouseのサイズと自動停止の仕組みを押さえましょう。 📌 タイトルと機能のURL タイトル: Working with Virtual Warehouses URL: 📝 概要 Virtual Warehouseは、SQLクエリやINSERT/UPDATE/DELETE/COPYなどのデータ操作に必要なCPU・メモリ・一時ストレージを提供する計算リソースのクラスタです。起動中のみクレジットを消費し、サイズ変更や自動停止を柔軟に設定できます。ワークロードごとにサイズと自動停止を設計することが、Snowflakeコスト最適化の第一歩です。 🔧 機能の説明ウェアハウスのサイズと課金の特徴は次の通りです。・サイズはX-Smallから6X-Largeまであり、1段大きくするごとに計算リソースとクレジット消費が2倍になります。X-Small=1、Small=2、Medium=4、Large=8、X-Large=16、2X-Large=32…6X-Large=512クレジット/時です。・課金は秒単位で、起動・再開のたびに最低60秒分が課金されます。例えばX-Largeを61秒動かすと約0.271クレジット、1時間フルで動かすと16クレジットです。・サイズが大きいほど大規模・複雑なクエリは速くなりますが、小さく単純なクエリは必ずしも速くなりません。・標準ウェアハウスのほか、ML学習など大きなメモリを要する処理向けにSnowpark-optimizedウェアハウスもあります。 🛠 実践的な使い方・`AUTO_SUSPEND`(既定で有効)で一定時間アイドルなら自動停止、`AUTO_RESUME`(既定で有効)でクエリ到着時に自動再開させ、待機中のクレジット浪費を防ぎます。・`CREATE WAREHOUSE etl_wh WAREHOUSE_SIZE = XLARGE` のように作成し、アドホック分析用は `WAREHOUSE_SIZE = SMALL AUTO_SUSPEND = 60` で「使った分だけ課金」にします。・`INITIALLY_SUSPENDED = TRUE` を付けると、作成直後は停止状態にできます。・ウェアハウスは稼働中でもサイズ変更でき、重い処理の直前だけ一時的に大きくする運用も可能です。 🎯 ユースケース・日次バッチをX-Largeで一気に終わらせる。1段上げると速度約2倍・所要時間半分になるため、同じクレジットでも処理時間を短縮できます。・アドホック分析用ウェアハウスをSmall + AUTO_SUSPEND=60秒にし、誰も使っていない時間は課金ゼロにする。・データロード用は小〜中サイズで十分なケースが多く、ファイル数・サイズに応じて見直す。 ⚠️ 注意点・再開のたびに最低60秒課金されるため、極端に短いAUTO_SUSPEND(数秒)はかえって起動・停止を頻発させ非効率になることがあります。・大きいサイズは小さなクエリには無駄です。「遅いクエリにはサイズアップ」が基本で、すべてを大きくすればよいわけではありません。・データロード性能はウェアハウスサイズよりファイルの数とサイズに依存します。サイズアップ前に並列化を検討します。 #Snowflake# #DataEngineering#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 16:58

🏗 毎日数ペタバイトを取り込む数万件のジョブを、データ提供を一切止めずに丸ごと移行する——。Metaが「シャドウ→逆シャドウ→クリーンアップ」の3段階でレガシーを100%廃止した実戦記です。タイトル: Migrating Data Ingestion Systems at Meta Scale URL: 📝 概要 Metaは世界最大級のMySQL展開から、毎日数ペタバイトのソーシャルグラフデータをデータウェアハウスへ増分取り込みしています。本記事は、その数万件の取り込みジョブを、分析・レポーティング・MLの各パイプラインを止めずに、新しいセルフマネージド型サービスへ移行した方法を解説します。 ❓ 解決する課題レガシーは顧客（チーム）所有のパイプラインで、小規模では有効でもハイパースケールで不安定でした。ますます厳しくなるデータ到着時刻の要求を満たしつつ、組織全体へのデータ提供を止めずに移行する必要がありました。 💡 方法論と提案手法 3フェーズのライフサイクルで移行します。・シャドウ：本番前環境で本番データを消費しつつ隔離テーブルへ書き込み、本番ジョブとの行数・チェックサムの不一致を継続監視します・逆シャドウ：シャドウジョブを本番テーブルへ昇格させ、元の本番ジョブをシャドウへ。両系統の出力を比較し続けて品質シグナルを得つつ、必要なら即ロールバックします・クリーンアップ：整合性を確認後、旧ジョブを廃止します・各ジョブを、差異ゼロ・ランディング遅延・リソース・カスタム基準の4軸で検証し、CDC（変更データキャプチャ）でフルダンプ・デルタ・ターゲットの各テーブルを保持します 🎯 ユースケース大規模なデータ取り込み基盤の移行、CDCパイプラインの段階的な切り替え、ゼロダウンタイムでのシステム置換の設計に役立ちます。 📊 実績・ワークロードの100%を移行し、レガシーシステムを完全に廃止しました・ジョブの状態シグナルをScubaへ継続送信し、各ジョブを監視してステージ間で自動昇格/降格する移行ツールで、数千件の同時移行を管理しました・不良パーティションをメタデータでフラグし、下流ジョブへの伝播を防いでアラートを発火させました・移行容量の制約に対し、旧システムが配信したスナップショットを初期値に再利用してフルダンプ負荷を削減し、生まれたデータ品質解析ツールは移行後もリリース検証で使われ続けています #DataEngineering# #DataInfrastructure#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 05:49

# Learning Palantir Foundry 🚀 Put business logic right on the ontology. Functions cure the "numbers don't match across departments" problem by centralizing logic in one place. 📌 Title and Feature URL Title: ファンクション URL: 📝 Overview Functions let you write server-side logic that executes in isolated environments, powering operational apps like dashboards and decision-support tools. They are designed to work with Foundry ontologies, so they can read object properties, traverse links, and perform flexible ontology edits. 🔧 How It Works - Supported languages: TypeScript (full feature support) and Python (beta, with growing support especially for serverless and deployed execution). - Serverless execution: spins up on demand when invoked and bills only during execution, with a 60-second total wall-clock timeout (30s CPU plus a 30s network buffer). Multiple versions can run simultaneously, making upgrades safer. - Deployed execution: reserves dedicated resources for cases serverless cannot meet, runs a single version at a time, and bills continuously while deployed. - Capability differences: ontology read/write, Workshop integration, and external API calls work in both languages. Pipeline Builder is Python, while model embedding and semantic search are TypeScript. 🛠 Practical Usage - Derived properties: display function-computed values as table columns. - Function-backed Actions: implement complex edits spanning multiple objects. - Workshop integration: run functions to compute or display variables. - API gateway: invoke query functions programmatically to reuse the same logic everywhere. 🎯 Use Cases - Implement derived-KPI logic once and return identical results to Workshop, OSDK, and the API. - Query external systems to enrich ontology objects. - Build complex validation or bulk updates as function-backed Actions. ⚠️ Caveats - The 60-second timeout applies uniformly across execution modes, so optimize for efficiency. - Available capabilities depend on the invocation context (for example, model embedding and semantic search are TypeScript only), so decide on language early. #PalantirFoundry# #DataEngineering#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 05:49

# Palantir Foundryを学ぶ 🚀 ビジネスロジックをオントロジーに常駐させる。ファンクションは「部門間で数字が合わない」問題を、ロジックの一元化で根治します。 📌 タイトルと機能のURL タイトル: ファンクション URL: 📝 概要ファンクションは、隔離された環境でサーバーサイドのロジックを実行する仕組みです。ダッシュボードや意思決定支援といったオペレーショナルアプリを支えます。Foundryのオントロジーと連携して動くよう設計されており、オブジェクトのプロパティ読み取り、リンクの走査、柔軟なオントロジー編集が行えます。 🔧 機能の説明・対応言語: TypeScript(フル機能対応)と Python(ベータ、特にサーバーレス/デプロイ実行で対応が拡大中)をサポートします。・サーバーレス実行: 呼び出し時にオンデマンドで起動し、実行時のみ課金されます。合計60秒のウォールクロックタイムアウト(CPU30秒+ネットワーク30秒)があります。複数バージョンを同時稼働でき、アップグレードを安全にします。・デプロイ実行: 専有リソースを確保する方式で、サーバーレスで要件を満たせない場合に有効です。単一バージョンを稼働させ、デプロイ中は継続課金されます。・機能差: オントロジーの読み書きやWorkshop連携・外部API呼び出しは両言語で可能。Pipeline BuilderはPython、モデル埋め込みやセマンティック検索はTypeScriptが対応します。 🛠 実践的な使い方・派生プロパティ: 計算列としてファンクションで算出した値を表示します。・ファンクション付きアクション: 複数オブジェクトにまたがる複雑な編集を実装します。・Workshop連携: 変数の計算や表示のためにファンクションを実行します。・APIゲートウェイ: クエリ系ファンクションをプログラムから呼び出し、同一ロジックを再利用します。 🎯 ユースケース・派生KPIの算出ロジックを一元実装し、Workshop/OSDK/APIから同じ結果を返す。・外部システムを照会してオントロジーのオブジェクトをエンリッチする。・複雑な検証や一括更新を、ファンクション付きアクションとして実装する。 ⚠️ 注意点・60秒のタイムアウトが全実行モードに一律適用されるため、効率的な実装が求められます。・呼び出しコンテキストにより利用可能な機能が変わります(例: モデル埋め込みやセマンティック検索はTypeScriptのみ)。言語選定は早めに見極めてください。 #PalantirFoundry# #DataEngineering#

0

コミュニティへ転送