LLM評価を X で検索 — Twitter ブラウザ

2026.06.16 23:33

🎯 LLMの強化学習で当たり前に使われてきたPPOの「固定クリッピング」、実は探索の多様性を密かに潰していたかもしれません。その弱点を理論的に解消する新手法が登場しました。タイトル: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning URL: 🔍 概要 BandPOは、PPOの比率クリッピングを「Band」という統一オペレータに置き換える手法です。f-ダイバージェンスで定義された信頼領域を、確率を考慮した動的なクリッピング区間へと射影することで、行動の確率に応じて境界が適応的に変化します。 ❓ 解決する課題 PPOの固定クリッピング境界には構造的な弱点がありました。・低確率の行動（トークン）の上方向への更新幅を過度に制約してしまう・本来は高いアドバンテージを持つ「テール戦略」が押し潰される・探索が痩せ細り、方策が早期に決定論化するエントロピー崩壊を招く一律の固定境界が、探索と活用のバランスを崩していたのです。 💡 方法論と提案手法 BandPOは、信頼領域からクリッピング区間への写像を凸最適化問題として定式化し、大域的に最適な解が得られることを保証します。・特定のダイバージェンスでは閉形式解を導出し、計算上も扱いやすい・低確率かつ高アドバンテージな行動には制約を緩め、適切に更新できるようにする PPOの比率クリッピングとTRPO系の信頼領域という2つの系譜を、確率を考慮した境界で橋渡ししている点が新しいところです。 🎯 ユースケース RLHFやRLVRといったLLMの強化学習全般で、学習の安定性を保ちつつ探索の多様性を維持したい場面に有効です。エントロピー崩壊に悩まされてきた既存のPPOパイプラインの置き換え先として実用的です。 📊 実験結果多様なモデルとデータセットにわたり、標準的なクリッピングおよびClip-Higherを一貫して上回る性能を示しました。さらに、エントロピー崩壊を頑健に緩和し、学習を通じて方策の多様性を維持できることが確認されています。コードはOpenMOSS/BandPOで公開されています。 #強化学習# #LLM#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 21:57

⚙️ 月125兆トークンを捌くLLM推論基盤は、どう信頼性とコストを両立しているのか。リクエスト数ではなく「モデルユニット」でコストを測り、GPUコストを80%削減しつつ安定運用を実現したDatabricksの実戦知です。タイトル: Reliable LLM Inference at Scale URL: 📝 概要本記事は、大規模なLLM推論を信頼性高く・コスト効率よく運用するための、Databricksのアーキテクチャと手法を解説します。GPUインフラの不安定さや、予測困難なリクエストコストといった本番特有の課題に、具体的な仕組みで対処しています。 ❓ 解決する課題・GPUインフラはCPUより本質的に不安定で、prefill/decodeを分離した構成では単一障害が複数ノードに波及します・リクエストコストは事前推定が難しく、出力トークン生成がレイテンシを支配する一方、その時間は予測困難です・高負荷時には、リクエストの組み合わせ次第で健全なサーバが突然不健全状態に陥ります 💡 方法論と提案手法・コストを「α×入力トークン＋β×出力トークン＋γ×マルチモーダル」とモデル化する「モデルユニット」抽象を導入し、係数はモデル/ハードウェアごとの自動ベンチマークで決定します・自動シャーダーDicerが、キュー長でなくモデルユニットで測ったサーバ負荷でルーティングし、ステートフルセッションでキャッシュヒット率を高めます・保留リクエスト数でなく「モデルユニット利用率」でオートスケールし、ピーク閾値に近づくと増設します・ブラックボックスのヘルスチェックでサイレントハングを検知し、ヘルスチェックを最高優先度にして誤検知を防ぎます 🎯 ユースケース Superhumanやコーディングエージェント、サポートボットなど、トラフィックが数時間で急増するマルチテナントのエージェント型アプリを支えます。LLMアプリが単一テナントから共有本番環境へ移る局面に直結します。 📊 実験結果・コスト認識オートスケーリングで、静的なピーク見込みプロビジョニング比のGPUコストを80%超削減しました・ヘルスチェックの誤検知を週数件からゼロへ、サイレント障害の検知・回復は5分未満に収めました・画像処理をTorchvisionへ切り替え、OMP_NUM_THREADSをコンテナ上限に正しく設定し、同じレプリカ・負荷でスループットを3倍超に跳ね上げました・月125兆トークンをマルチテナントで処理しています #LLM# #MLOps#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 21:36

毎日数十億トークンのトレースを、フロンティアLLMで評価するのはコスト的に無理がありました💸 小型オープンモデルのファインチューニングで、同等精度を10〜100倍安く実現した事例です。タイトル: Building a 100x Cheaper Trace Judge with Fireworks URL: 💸 概要 LangChain LabsがFireworksと連携し、エージェントのトレースに対する「Perceived Error（知覚されたエラー）」検出器を構築した事例です。ユーザーが「間違い」や「修正が必要」と感じたケースを、小型のオープンモデルで検出します。 ❓ 解決する課題 LangSmithは本番トレースを通じて日次で数十億トークンを処理しています。・これらをフロンティアの大規模LLMで評価すると、規模が大きすぎてコストが非現実的になります・「フロンティア級の性能を保ちつつ、全トレースから重要なシグナルをコスト効率よく抽出できるか」が問いでした 💡 方法論と提案手法・オープンソースのQwen-3.5-35Bを、Fireworks基盤上でLoRAによる教師ありファインチューニング（SFT）・訓練データは2つの本番データセット：chat-langchain（技術Q&A・707例）とFleet（ノーコードエージェント・727例）・「Perceived Error」を学習し、巨大なフロンティアモデルに頼らず評価をこなします 📊 実験結果・精度：ファインチューニングしたQwenがフロンティアモデルと同等以上（chat-langchainで96.1%、ドメイン横断のFleetで90.8%）・コスト：トレース量に応じてフロンティアより10〜100倍安い・転移性：chat-langchainで訓練したモデルが、再訓練なしでFleetでも全フロンティアモデルを上回る #LLM評価# #ファインチューニング#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 07:06

# OpenAI Agent SDKの便利で実践的な使い方 🌍 LLM の出力を「文字列のまま祈る」のではなく、型安全な構造化データとして受け取りましょう。output_type を使えば、壊れた JSON に悩まされる日々とはお別れです。 output_type に Pydantic モデル・dataclass・TypedDict を指定するだけで、エージェントの出力が自動的にバリデーション済みの構造化データになります。 📌 タイトル：Agents -- Output types 🔗 URL： 🧩 概要 Agent の `output_type` パラメータを設定すると、LLM の出力が Structured Outputs として強制されます。Pydantic BaseModel、dataclass、TypedDict のいずれかを指定でき、出力は自動的にパースされバリデーションされます。これにより、下流のコードが安全に構造化データを扱えるようになります。`output_type` を設定すると、エージェントのファイナル出力はテキストではなく指定した型のオブジェクトになります。 🛠 使い方 `BaseModel` を継承した `CalendarEvent` クラスに `name: str`, `date: str`, `participants: list[str]` フィールドを定義し、`Agent` の `output_type=CalendarEvent` に指定します。` ...)` の ` が `CalendarEvent` 型として返され、` や `event.participants` で型安全にアクセスできます。 🏗 実践的な使い方 **メールからカレンダーイベントを抽出して API 登録** 構造化出力をそのまま外部 API に渡すパイプラインです。 ` email_body)` で抽出した ` を `CalendarEvent` 型として受け取り、`calendar_api.create_event(title= date= attendees=event.participants)` でそのまま外部 API に渡します。 **Enum 出力による分岐オーケストレーション** 分類結果を enum で返し、コードで確実に分岐させるパターンです。 `TicketCategory(str, Enum)` で `billing`, `technical`, `general` を定義し、`Classification(BaseModel)` に `category: TicketCategory` と `confidence: float` を持たせます。`Agent` の `output_type=Classification` を設定して分類を実行し、` を `match` 文で分岐して `handoff_to_billing`, `handoff_to_engineering`, `handoff_to_general` にルーティングします。 **ビジネスクリティカルな処理での型保証** 「壊れた JSON は絶対に許容できない」業務で、Structured Outputs が安全弁として機能します。 `InvoiceData(BaseModel)` に `invoice_number: str`, `amount: float`, `currency: str`, `due_date: str`, `line_items: list[dict[str, str | float]]` を定義し、`Agent` の `output_type=InvoiceData` に指定することで、請求書データの構造化抽出を型安全に保証します。 💡 ユースケース 📧 メールから CalendarEvent(name, date, participants) を抽出し、カレンダー API に自動登録 🏷 サポートチケットを Enum 分類し、category に応じてコードで確実にルーティング 💰 請求書・契約書の構造化抽出で「壊れた JSON が許されない」業務処理を型安全に 📊 アンケート自由記述を構造化データに変換し、集計パイプラインに直接投入 ⚠️ 注意点 - output_type を指定すると、エージェントの最終出力は必ずその型になります。通常のテキスト応答は返せなくなるため、テキスト応答が必要な場合は output_type を設定しないでください。 - 複雑すぎるネスト構造は LLM の出力精度を下げる可能性があります。できるだけフラットな構造を心がけましょう。 - Optional フィールドを適切に使い、LLM が情報を見つけられなかった場合の None を許容する設計にしましょう。 ✨ output_type を活用すれば、LLM の出力をそのままビジネスロジックに組み込めます。「パースして祈る」から「型で保証する」へ、一歩進んだエージェント開発を始めましょう！ #OpenAIAgentSDK# #AIAgent#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.18 02:40

便利だけど知られていないOpenAI APIの機能 📦 数千件のLLMリクエスト、1件ずつ投げて料金明細にため息をついていませんか？ OpenAIの「Batch（バッチ）」機能を使えば、大量のリクエストをまとめて非同期実行し、大幅な割引価格で処理できます。評価・分類・データ生成など、リアルタイム性が不要な大量ジョブの定番手段です。 📌 タイトル：Batch（バッチ） 🔗 URL： 🧩 概要 LLMを大量に呼ぶワークロードでは、1リクエストずつ同期的に投げるとコストもレイテンシも膨らみます。Batch APIはリクエストをJSONLファイルにまとめてアップロードし、一括で非同期処理してくれる仕組み。通常のAPI呼び出しに比べて大幅に安く、結果は完了後にまとめて取得できます。 🛠 使い方リクエストをJSONL形式のファイルにまとめてアップロードし、バッチジョブを作成します。処理が完了したら結果ファイルをダウンロード。各リクエストは通常のChat Completionsと同じフォーマットなので、既存のプロンプトをそのまま流用できます。Webhooksと組み合わせれば、完了通知を自動で受け取ることも可能です。 🏗 本番システムへの組み込み方・データセットの一括分類・ラベリング：数万件のテキストをカテゴリ分けする処理を夜間バッチで回す。翌朝にはラベル付きデータが揃う。・合成データ生成パイプライン：学習用データの生成を大量に回す場合、バッチの割引が効いてコストが大きく変わる。・モデル評価・ベンチマーク：複数プロンプトの品質比較を一括実行。結果をまとめて分析できる。・定期的な要約・レポート生成：毎週の記事要約や顧客フィードバック分析など、まとめて処理するジョブに。 💡 ユースケース 🗂 大規模テキスト分類・タグ付け 🧬 合成データ・学習データの生成 📊 モデル評価・プロンプト比較 📝 定期バッチでの要約・抽出処理 ⚠️ 注意点バッチ処理は非同期なので、結果が返るまでに時間がかかります。リアルタイム応答が必要な場面には使えません。また、バッチ内の個別リクエストが失敗することもあるので、結果ファイルのエラーハンドリングは必ず実装しておきましょう。大量ジョブを投入する前に、小さなバッチでテストするのがおすすめです。 ✨ 大量処理のコスト削減は「まとめて投げる」が基本。まずは評価パイプラインをバッチに切り替えて、料金の差を実感してみてください。 #OpenAI# #LLM#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.16 21:38

🧠 「記憶は検索されるのではなく、再構成される」——LLMエージェントのメモリを、一度きりの検索から推論しながら掘り進む方式に作り変えた研究がICML 2026に採択されました。タイトル: Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents URL: 🧠 概要提案手法MRAgentは、連想記憶グラフと「能動的再構成メカニズム」を組み合わせたLLMエージェントのメモリ手法です。LLMの推論をメモリアクセスそのものに組み込み、推論中に見えてきた証拠をもとに検索パスを反復的に探索していきます。 ❓ 解決する課題既存のメモリ拡張エージェントの多くは「まず検索→次に推論」という固定パイプラインでした。・最初のクエリだけで一度きりに取り出すため、推論の途中で重要だと分かった手がかりを使い直せない・長い対話履歴から多段で証拠をたどる質問に弱い 💡 方法論と提案手法メモリをCue（手がかり）・Tag（意味的な橋渡し）・Content（内容）の3種ノードを持つグラフで表現します。・まず関連するTagを選び、次にCueとTagの両方を条件にContentを取得する2段階検索・「どの方向に探すか」と「何を取り出すか」を分離し、組合せ爆発を回避・推論中の状態を保持し、新たな手がかり（例:「7月」という時間軸）を発見して未到達の証拠まで辿れる 🎯 ユースケース長期記憶が必要な対話エージェントや、複数セッションをまたいで事実を組み合わせるアシスタントに有効です。十分な証拠が集まったとLLM自身が判断して探索を打ち切るため、無駄な検索も抑えられます。 📊 実験結果・LoCoMoでGeminiのスコアが68.31%→84.21%（相対+23.3%）、Claudeで75.88%→90.19% ・LongMemEvalで53.01%→72.95%（相対+37.6%）。マルチホップや時間推論で特に強い・トークン消費は118kとベースライン（245k〜3,268k）より大幅に少なく、性能と低コストを両立 #LLMエージェント# #メモリ#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.13 10:30

🧩 「エージェントを増やせば速くなる」は本当か？マルチエージェントLLMを分散システム理論のレンズで分析したら、アムダールの法則も通信オーバーヘッドもそのまま効いていました。タイトル: Language Model Teams as Distributed Systems URL: 📝 概要本論文は、LLMのマルチエージェントチームを分散システムとして捉え、協調・整合性・スケーラビリティの理論で設計・評価する枠組みを提案します。試行錯誤ではなく、分散コンピューティングの蓄積を直接活かす発想です。 ❓ 解決する課題チーム性能はタスク依存性が高く、通信オーバーヘッドや一貫性の衝突、誤りの増幅といった弊害もありました。「いつチームが個を上回るか」を予測する原理的枠組みが欠けていました。 💡 方法論と提案手法・LLMチームと分散システムが共有する4性質（独立性・通信・並行性・可謬性）を起点に分析します・アムダールの法則、集中型vs分散型、整合性の衝突、O(n²)の通信、ストラグラー、コスト効率の原理を適用します・協調コーディングで2実験（集中型/分散型）、チームサイズ1〜5、並列/混在/直列タスク、複数モデルで検証します 🎯 ユースケースマルチエージェントのコード生成・レビュー、データ分析の並列分解、そして「マルチエージェントが有益か有害か」を実装前に予測する設計判断やコスト予算化に役立ちます。 📊 実験結果・並列タスクは中央値2.0倍超で高速化、直列タスクは約1.2倍止まり（アムダールの法則を実証）・高速化の中央値は集中型1.36倍に対し分散型0.88倍と、分散型はむしろ遅くなりました・テスト失敗の中央値は分散型19件 vs 集中型4件と、一貫性の衝突が顕著でした・直列タスクではトークン5.83倍に対し高速化1.13倍と、コスト効率の悪化も定量化されました #MultiAgent# #DistributedSystems#

0

1

0

コミュニティへ転送