推論モデルを X で検索 — Twitter ブラウザ

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

0

1

2

コミュニティへ転送

cv usk@cv_usk

4hours ago

AIの「思考の過程」を読んで挙動を当てる——実はそれ、あまり当てになりません🔮 挙動予測そのものを学習タスクにする発想が新しいです。タイトル: Forecasting Future Behavior as a Learning Task URL: 🔮 概要大規模推論モデル（LRM）が新しい入力にどう振る舞うかを予測する手法です。明示的な説明に頼るのではなく、単一の推論軌跡を分析して出力を予測する訓練可能なモデル「Behavior Forecasters」を導入します。 ❓ 解決する課題 LRMの挙動を理解・予測したいですが、従来手法には限界がありました。・既存の説明手法は、長い推論軌跡にうまくスケールしません・推論軌跡を自然言語として読むと、その内容は信頼できないことが多いですモデルが書いた思考が、実際の挙動を正しく反映するとは限らないのです。 💡 方法論と提案手法・挙動の予測そのものを「学習可能なタスク」として扱います・訓練データはLRMへの問い合わせから直接得られ、人間のアノテーションは不要です・推論時は単一のフォワードパスで動作します・2つの予測タスクで具体化：再実行をまたいだ答えの一貫性の推定、入力変更が出力に与える影響の予測・バックボーンのエンドツーエンドのファインチューニングと、対象LRMの重みからの初期化が不可欠でした 📊 実験結果・Behavior Forecastersは、「素朴な読み手」としてのGPT-5.4やClaude Opus-4.6を上回りました・しかも推論コストはそれらのごく一部で、より高い精度を達成しました #LLM解釈可能性# #推論モデル#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 04:25

言語モデルの推論ミスには「型」があった。トークンレベルの不確実性が、その“失敗のサイン”を映し出します🔬 タイトル: How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures URL: 🔬 概要言語モデルが推論にどう失敗するのかを、トークンレベルの不確実性から分析した研究です。失敗が立ち現れるパターンを特徴づけ、検出に活かせる手がかりを示します。 ❓ 解決する課題モデルは推論に失敗しますが、そのメカニズムは未解明でした。「いつ・どう失敗が検出可能になるか」を理解することが、信頼性向上に不可欠です。 💡 方法論と提案手法トークン単位の不確実性分析から、2つの失敗パターンを特定しました。・コミット型の失敗：早い段階で誤った推論経路に固執する。診断上の「コミット点」があり、それを過ぎるとトークンを足すほど検出が難しくなる・持続的な不確実性：生成全体で不確実性が徐々に蓄積し、成功と失敗の区別には全トレースが必要複数のモデル×データセットでシグナルを分析しました。 📊 実験結果・23のモデル×データセット構成で検証・反証可能な予測が23例中20例で成立（偶然を大きく上回る）・不確実性シグナルが自己整合性を補完する場面と、冗長になる場面を識別 #LLM# #信頼性#

0

コミュニティへ転送

cv usk@cv_usk

8hours ago

LLMエージェントの「検索」を「推論」から切り離すと、精度はほぼ維持したまま検索コストを最大98%削減できました🔌 タイトル: Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents URL: 🔌 概要検索による根拠づけ（grounding）を、言語モデルの推論から切り離す手法DSGの提案です。Model Context Protocol（MCP）に準拠した独立ゲートウェイとして動作し、ベンダー非依存の中間層として機能します。 ❓ 解決する課題本番のLLMエージェントでは、リアルタイム検索がモデルプロバイダーに密結合しています。・システムの検査・再構成・転用・移行が難しい・検索が「Search-Induced Verbosity（検索起因の冗長化）」を招き、厳格な出力要件に違反することがある検索と推論の一体化が、柔軟性とコストのボトルネックでした。 💡 方法論と提案手法根拠づけを「モデルの中」ではなく「検索と生成の境界」に置きます。これまでモデルに埋め込まれていた要素を制御可能な第一級機能として公開します。・プロバイダールーティング（検索先の選択・切り替え）・ソースを意識したコンテキストレンダリング・設定可能なフォールバック機構・検索深度の管理・厳密キャッシュとセマンティックキャッシュの両方 📊 実験結果・SimpleQA：精度86.1%（ネイティブ検索87.7%）を保ちつつ検索コストを91%削減・キャッシュのウォームヒット率99.4%、レイテンシ68%削減・本番Eコマース：ネイティブ同等の精度で検索コストを98%以上削減・一方、新しさが重要なFreshQAではネイティブ検索が優位 #LLMエージェント# #検索#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 05:19

ハーネスエンジニアリングのアンチパターン AP3. 足場のラチェット（The Scaffolding Ratchet） 🎯 ポイント失敗するたびにルールが足され、何ひとつ外されない。気づけばRube Goldberg装置のようなハーネスが、モデルと戦い始めています。「一度効いた」は「今も要る」を意味しません。 ❗ 発生する課題ルール・ステップ・ガードレールが際限なく蓄積し、ハーネスが複雑な迷宮になります。モデルの能力が向上しても過去の足場が性能の天井を作り、誰も全体を把握できないため改善も困難になります。 🔍 メカニズムと症状このアンチパターンが蔓延するのは、各ルール追加が局所的には正当（「あの事故を一度は防いだ」）であり、削除はリスクに見えるからです。しかし、足場は一方向にしか回らないラチェットになり、Rube Goldberg装置に堕します。モデルが賢くなると、過去の足場はモデルの推論を不必要に制約する性能の天井になります。症状としては、誰も全ルールを把握していない、新しいルールが古いルールと矛盾する、モデルを更新しても性能が上がらない（足場が制約しているため）、ハーネスの修正が怖くて誰も触れない、といった現象が見られます。 📋 シナリオ・あるバグで「必ずファイルAを先に読め」というルールを追加。別のバグで「ファイルBを先に読め」を追加。さらに別のバグで「計画を必ず3段階に分けろ」を追加。結果、エージェントは毎回不必要な手順を踏み、簡単なタスクでも遅くなる。・モデルをGPT-4からClaude Opusに更新したが、GPT-4の弱点を補うために追加した足場がClaude Opusの強みを殺し、性能が変わらない。・ハーネスのルールファイルが500行に膨れ上がり、新しいチームメンバーが理解不能。改善提案をしても「前に事故があったから」と却下される。 🛡 回避方法・足場にもガベージコレクションを導入し、モデル更新ごとに全ルールを棚卸しして不要なものを削除します・各ルールに「なぜ追加されたか」「いつ追加されたか」「どのモデルバージョンで追加されたか」を記録します・定期的に足場を外した状態でベンチマークを実行し、本当に必要な足場だけを残します・「ルール追加」だけでなく「ルール削除」も改善アクションとして意識的に実施してください #HarnessEngineering# #AIAgent#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 06:51

🤝 「最強の1モデル」より「複数モデルのチーム」の方が強い。しかも安いモデルの寄せ集めが、単体のフロンティアモデルを上回る——OpenRouterがデータで示しました。タイトル: Surpassing Frontier Performance with Fusion URL: 💡 概要 Fusionは、複数のAIモデルの出力を1回のAPI呼び出しで合成するOpenRouterのツールです。参加モデルの「パネル」と、結果を束ねる「ジャッジモデル」を選ぶだけで、単一モデルを呼ぶ感覚でアンサンブルの力を使えます。 ⚠️ 解決する課題通常のベンチマークは事実想起や推論パズルは測れても、複数情報源を統合して引用付きで分析を書く「現実のリサーチ力」を評価できません。また単体モデルの性能限界をどう超えるかも課題でした。 🛠 方法論・プロンプトをパネル各モデルに並列ディスパッチ（web検索・fetch有効）・ジャッジが全回答を分析し「合意点・矛盾・部分カバー・独自の洞察・盲点」を構造化・呼び出し元モデルがその統合分析をもとに最終回答を生成・採点基準への汚染はドメイン除外で防止 📊 実験結果（DRACOベンチ100件）・Fable 5 + GPT-5.5（Opus 4.8が合成）が69.0%で全単体モデルを上回り最高・Opus 4.8の自己合成は65.5%で、単体58.8%から6.7ポイント向上・安価な3モデルのバジェットパネルは64.7%で、GPT-5.5やOpus 4.8の単体を上回り、約50%低コスト合成そのものが効くこと、安いモデルの多様性が単体フロンティアに匹敵することを示しました。 #LLM# #AIエージェント#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 21:57

⚙️ 月125兆トークンを捌くLLM推論基盤は、どう信頼性とコストを両立しているのか。リクエスト数ではなく「モデルユニット」でコストを測り、GPUコストを80%削減しつつ安定運用を実現したDatabricksの実戦知です。タイトル: Reliable LLM Inference at Scale URL: 📝 概要本記事は、大規模なLLM推論を信頼性高く・コスト効率よく運用するための、Databricksのアーキテクチャと手法を解説します。GPUインフラの不安定さや、予測困難なリクエストコストといった本番特有の課題に、具体的な仕組みで対処しています。 ❓ 解決する課題・GPUインフラはCPUより本質的に不安定で、prefill/decodeを分離した構成では単一障害が複数ノードに波及します・リクエストコストは事前推定が難しく、出力トークン生成がレイテンシを支配する一方、その時間は予測困難です・高負荷時には、リクエストの組み合わせ次第で健全なサーバが突然不健全状態に陥ります 💡 方法論と提案手法・コストを「α×入力トークン＋β×出力トークン＋γ×マルチモーダル」とモデル化する「モデルユニット」抽象を導入し、係数はモデル/ハードウェアごとの自動ベンチマークで決定します・自動シャーダーDicerが、キュー長でなくモデルユニットで測ったサーバ負荷でルーティングし、ステートフルセッションでキャッシュヒット率を高めます・保留リクエスト数でなく「モデルユニット利用率」でオートスケールし、ピーク閾値に近づくと増設します・ブラックボックスのヘルスチェックでサイレントハングを検知し、ヘルスチェックを最高優先度にして誤検知を防ぎます 🎯 ユースケース Superhumanやコーディングエージェント、サポートボットなど、トラフィックが数時間で急増するマルチテナントのエージェント型アプリを支えます。LLMアプリが単一テナントから共有本番環境へ移る局面に直結します。 📊 実験結果・コスト認識オートスケーリングで、静的なピーク見込みプロビジョニング比のGPUコストを80%超削減しました・ヘルスチェックの誤検知を週数件からゼロへ、サイレント障害の検知・回復は5分未満に収めました・画像処理をTorchvisionへ切り替え、OMP_NUM_THREADSをコンテナ上限に正しく設定し、同じレプリカ・負荷でスループットを3倍超に跳ね上げました・月125兆トークンをマルチテナントで処理しています #LLM# #MLOps#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.18 13:59

🎬 蒸留された自己回帰の動画モデルは速い一方で、人間の好みからズレがちです。再蒸留も逆プロセスの展開も使わず、「順プロセス」で強化学習アラインメントを行うAstrolabeが、その難題に答えます。タイトル: Astrolabe: Steering Forward-Process Reinforcement Learning URL: 📝 概要 Astrolabeは、蒸留された自己回帰（AR）動画モデルを人間の視覚的な好みに整合させる強化学習フレームワークです。最大の特徴は、従来の逆プロセス最適化ではなく、順プロセス（forward-process）でRLを行う点にあります。全53ページ・37図の大規模な研究です。 ❓ 解決する課題蒸留AR動画モデルは効率的なストリーミング生成に向く一方、人間の好みと乖離しやすいという弱点があります。さらに既存のRLは、こうしたアーキテクチャに自然には合いません。一般に、高コストな再蒸留か、ソルバー結合の逆プロセス最適化のいずれかを必要とし、どちらも重くスケールしにくいものでした。 💡 方法論と提案手法 3つの工夫から成ります。・負例認識の微調整：推論の終端で正例と負例を対比させ、逆プロセスを展開せずに、暗黙的なポリシー改善の方向を確立します・ストリーミング学習：ローリングKVキャッシュでシーケンスを段階的に生成し、RL更新は局所的なクリップウィンドウにのみ適用、長距離の一貫性は先行コンテキストへの条件付けで維持します・複数報酬の目的関数：不確実性を考慮した選択的正則化と動的な参照更新を統合し、報酬ハッキング（見かけのスコアだけ上げる崩壊）を緩和します 🎯 ユースケースリアルタイム・ストリーミングな動画生成で、効率的な蒸留モデルを速さを保ったまま好みへ整合させたい場面に向きます。複数の蒸留AR動画モデルに適用でき、推論の軽さを犠牲にせずに品質を底上げできます。 📊 意義と結果・再蒸留や逆プロセス展開という重い経路を避けることで、計算効率のボトルネックに対処します・順プロセスでの負例認識・ストリーミング更新・報酬ハッキング対策を組み合わせ、堅牢でスケーラブルなアラインメント解を提供します・複数の蒸留ARモデルにわたって有効性が示され、詳細な定量評価とアブレーションを含みます #VideoGeneration# #ReinforcementLearning#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 15:31

1時間級の長尺動画を丸ごと理解し、ツールも検索も使いこなす——総30Bパラメータでも推論時はわずか3Bで動く、効率的なマルチモーダルモデルです🎬 タイトル: Kwai Keye-VL-2.0 Technical Report URL: 🎬 概要 Kuaishou（快手）が開発した、長尺動画理解とエージェント的知能に特化したオープンソースのマルチモーダル基盤モデルです。Mixture-of-Experts（MoE）構成を採用し、総30Bパラメータのうち推論時に活性化するのは3Bのみという効率性を実現しています。 ❓ 解決する課題時間単位（hour-level）の長い動画を扱うには、膨大な計算が必要になります。・フレーム数が多く、長距離の時間依存を捉えるのが難しい・計算制約に対処しつつ、多様なタスクで高い性能を保つことが課題でした 💡 方法論と提案手法・長文脈処理：DeepSeek Sparse Attention（DSA）をGQAベースのアーキテクチャに適応させ、256Kコンテキストのロスレス処理を実現。重要なフレームと長距離の時間依存を捉えます・インフラ：スケーラブルな動画I/O、異種のViT-LM並列化、カスタムのDSAカーネル・訓練：マルチタスクのアライメント時に生じる破滅的忘却に対処するため、Cross-Modal Multi-Teacher On-Policy Distillation（MOPD）を、Context-RL・Video-RLと組み合わせます 📊 実験結果・同規模のモデルの中で最先端（SOTA）の性能を達成しました・特に、TimeLensでの細粒度な時間的ローカライズで際立ちます・Video-MME-v2とLongVideoBenchでの長尺動画理解でも優れています・Code・Tool・Searchをまたぐマルチモーダルなエージェント協調や、自己修正能力も備えます 🌍 ユースケース長い動画の理解・検索・モデレーション、動画を扱う自律エージェントの基盤などに向きます。スパースアテンションをこの規模のマルチモーダルに初めて適用した点で、時間単位の動画処理を計算コストを抑えて現実的に回せるのが大きな強みです。 #動画理解# #マルチモーダル#

0

コミュニティへ転送