登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

検索結果 MLOps
MLOps コミュニティ
1つのキーワードが1つのコミュニティです。
コミュニティ作成
アカウント
見つかりません
MLOps を含む検索結果
🛠 MLOpsは「なんとなくその場しのぎ」で進めがち。実務者のブログやホワイトペーパー103件を分析し、アーキテクチャ上重要な25のガイドラインに整理した研究です。 タイトル: Architecturally Significant MLOps Guidelines for ML Model Integration and Deployment: a Gray Literature Review URL: 📝 概要 本論文は、査読論文ではなく実務者発のWeb情報(ブログ・ホワイトペーパー・ベンダー文書)を分析する「グレーリテラチャレビュー」で、MLモデルの統合とデプロイに関するアーキテクチャ指針を体系化しています。 ❓ 解決する課題 MLOps採用は進んでも、再利用可能な設計判断としての知識統合が乏しく、チームはその場しのぎになりがちでした。経験をプロジェクト間で移転しにくいのが課題でした。 💡 方法論と提案手法 ・33クエリでGoogleを検索し331件を取得、基準で絞り103件を分析しました ・2名が独立にテキストを抽出し、合意会議で不一致を解消しました ・3名が実践をガイドラインへ統合し、カードソーティングで5カテゴリに整理しました ・CI/CDと自動化、デプロイ戦略と環境、設計と統合戦略、モデルサービングと推論、MLコンポーネント管理の5テーマです 🎯 ユースケース ML統合・デプロイのアーキテクチャ判断の統合リファレンスとして使えます。包括的なMLOpsリファレンスアーキテクチャの構成要素にもなります。 📊 実験結果 ・25のアーキテクチャ上重要なガイドラインを抽出し、72%(18項目)が4回以上言及され実務者の合意を示しました ・最多引用はコンテナ化(27ソース)、次いでCI/CDパイプライン確立(53回言及)でした ・デプロイには16ガイドライン、統合には9ガイドラインと、統合側の文書化が手薄なギャップを特定しました #MLOps# #MachineLearning#
もっと見る
⚙️ 月125兆トークンを捌くLLM推論基盤は、どう信頼性とコストを両立しているのか。リクエスト数ではなく「モデルユニット」でコストを測り、GPUコストを80%削減しつつ安定運用を実現したDatabricksの実戦知です。 タイトル: Reliable LLM Inference at Scale URL: 📝 概要 本記事は、大規模なLLM推論を信頼性高く・コスト効率よく運用するための、Databricksのアーキテクチャと手法を解説します。GPUインフラの不安定さや、予測困難なリクエストコストといった本番特有の課題に、具体的な仕組みで対処しています。 ❓ 解決する課題 ・GPUインフラはCPUより本質的に不安定で、prefill/decodeを分離した構成では単一障害が複数ノードに波及します ・リクエストコストは事前推定が難しく、出力トークン生成がレイテンシを支配する一方、その時間は予測困難です ・高負荷時には、リクエストの組み合わせ次第で健全なサーバが突然不健全状態に陥ります 💡 方法論と提案手法 ・コストを「α×入力トークン+β×出力トークン+γ×マルチモーダル」とモデル化する「モデルユニット」抽象を導入し、係数はモデル/ハードウェアごとの自動ベンチマークで決定します ・自動シャーダーDicerが、キュー長でなくモデルユニットで測ったサーバ負荷でルーティングし、ステートフルセッションでキャッシュヒット率を高めます ・保留リクエスト数でなく「モデルユニット利用率」でオートスケールし、ピーク閾値に近づくと増設します ・ブラックボックスのヘルスチェックでサイレントハングを検知し、ヘルスチェックを最高優先度にして誤検知を防ぎます 🎯 ユースケース Superhumanやコーディングエージェント、サポートボットなど、トラフィックが数時間で急増するマルチテナントのエージェント型アプリを支えます。LLMアプリが単一テナントから共有本番環境へ移る局面に直結します。 📊 実験結果 ・コスト認識オートスケーリングで、静的なピーク見込みプロビジョニング比のGPUコストを80%超削減しました ・ヘルスチェックの誤検知を週数件からゼロへ、サイレント障害の検知・回復は5分未満に収めました ・画像処理をTorchvisionへ切り替え、OMP_NUM_THREADSをコンテナ上限に正しく設定し、同じレプリカ・負荷でスループットを3倍超に跳ね上げました ・月125兆トークンをマルチテナントで処理しています #LLM# #MLOps#
もっと見る