ベンチマークを X で検索 — Twitter ブラウザ

みぃこ / Miico🎀@mmm_mii_

2025.02.05 09:36

ベンチマークきてたー！！！非常に快適！たのしみすぎてる😊✨ #モンハンワイルズ# #MHWilds#

0

8

317

4

コミュニティへ転送

落合陽一 Yoichi OCHIAI@ochyai

2026.06.12 03:40

AI画像編集能力判定のための「ミルクシーフードベンチマーク」．これはgpt-image-2．

0

8

654

62

コミュニティへ転送

東雲りか（Rika）🐈‍⬛🌙@lazulinescent

2025.02.27 11:40

しごおわ！今更ながらワイルズのベンチマークやってるけどモンスターポリゴンになっても快適にプレイできますってホントかなwwwやるとしたらPS5かな…

0

6

30

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 22:26

🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか？」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? URL: 🎮 概要 GameCraft-Benchは、自然言語の仕様から実エンジン（Godot 4）上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。 ❓ 解決する課題これまでのコーディング評価は「コードが正しいか」が中心でした。・ゲームの良し悪しは、実際に動かしたときの挙動で決まる・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった 💡 方法論と提案手法 3つの評価原則を立てています。・Engine Grounding：実エンジンGodot 4上で開発（ヘッドレス実行で再現可能な自動テスト）・Artifact Completeness：起動可能で自己完結したプロジェクトを提出。起動できなければ0点（Build Gate）・Interactive Verification：エージェントが入力トレース（マウス/キー操作列）を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。 🎯 ユースケースコーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。 📊 実験結果・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満・Core Mechanicsは比較的強い（上位で約55%）が、Art & Presentationが最も弱い（約36%）・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ（r=+0.016）で、build→replay→evaluateのループを閉じることが鍵でした #AIエージェント# #ゲーム生成#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 07:22

操作に応じて映像を生み出す「動画ワールドモデル」、その実力を公平に測る統一ベンチマークが登場しました🎮 タイトル: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation URL: 🎮 概要インタラクティブな動画ワールドモデルを包括的に評価する統一フレームワークです。289テストケース・1,058インタラクションターンで、テキスト・6-DoF姿勢・離散アクションという異なる操作方式のモデルを同じ土俵で比較できます。 ❓ 解決する課題インタラクティブなワールドモデルは急速に進歩する一方、能力を体系的に測る基準がありませんでした。既存ベンチマークは一部しかカバーできず、入力方式がモデルごとに違うため横並び比較も困難でした。 💡 方法論と提案手法評価は5つの次元で行います。・映像品質・設定への忠実性・インタラクションへの忠実性・一貫性・物理法則への整合性タスクはナビゲーション・被写体アクション・イベント編集・視点切り替えの4種。専門視覚モデルと大規模マルチモーダルモデルを組み合わせた22の自動指標を、人間の判断と照合して検証しています。 📊 実験結果最先端20モデルを分析した結果、すべての次元で強いモデルは1つも存在しないことが判明。各アプローチに特徴的な強み・弱みと、共通の難題が浮かび上がりました。 #ワールドモデル# #ベンチマーク#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 06:51

🤝 「最強の1モデル」より「複数モデルのチーム」の方が強い。しかも安いモデルの寄せ集めが、単体のフロンティアモデルを上回る——OpenRouterがデータで示しました。タイトル: Surpassing Frontier Performance with Fusion URL: 💡 概要 Fusionは、複数のAIモデルの出力を1回のAPI呼び出しで合成するOpenRouterのツールです。参加モデルの「パネル」と、結果を束ねる「ジャッジモデル」を選ぶだけで、単一モデルを呼ぶ感覚でアンサンブルの力を使えます。 ⚠️ 解決する課題通常のベンチマークは事実想起や推論パズルは測れても、複数情報源を統合して引用付きで分析を書く「現実のリサーチ力」を評価できません。また単体モデルの性能限界をどう超えるかも課題でした。 🛠 方法論・プロンプトをパネル各モデルに並列ディスパッチ（web検索・fetch有効）・ジャッジが全回答を分析し「合意点・矛盾・部分カバー・独自の洞察・盲点」を構造化・呼び出し元モデルがその統合分析をもとに最終回答を生成・採点基準への汚染はドメイン除外で防止 📊 実験結果（DRACOベンチ100件）・Fable 5 + GPT-5.5（Opus 4.8が合成）が69.0%で全単体モデルを上回り最高・Opus 4.8の自己合成は65.5%で、単体58.8%から6.7ポイント向上・安価な3モデルのバジェットパネルは64.7%で、GPT-5.5やOpus 4.8の単体を上回り、約50%低コスト合成そのものが効くこと、安いモデルの多様性が単体フロンティアに匹敵することを示しました。 #LLM# #AIエージェント#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

0

1

2

コミュニティへ転送

cv usk@cv_usk

2026.06.17 21:57

⚙️ 月125兆トークンを捌くLLM推論基盤は、どう信頼性とコストを両立しているのか。リクエスト数ではなく「モデルユニット」でコストを測り、GPUコストを80%削減しつつ安定運用を実現したDatabricksの実戦知です。タイトル: Reliable LLM Inference at Scale URL: 📝 概要本記事は、大規模なLLM推論を信頼性高く・コスト効率よく運用するための、Databricksのアーキテクチャと手法を解説します。GPUインフラの不安定さや、予測困難なリクエストコストといった本番特有の課題に、具体的な仕組みで対処しています。 ❓ 解決する課題・GPUインフラはCPUより本質的に不安定で、prefill/decodeを分離した構成では単一障害が複数ノードに波及します・リクエストコストは事前推定が難しく、出力トークン生成がレイテンシを支配する一方、その時間は予測困難です・高負荷時には、リクエストの組み合わせ次第で健全なサーバが突然不健全状態に陥ります 💡 方法論と提案手法・コストを「α×入力トークン＋β×出力トークン＋γ×マルチモーダル」とモデル化する「モデルユニット」抽象を導入し、係数はモデル/ハードウェアごとの自動ベンチマークで決定します・自動シャーダーDicerが、キュー長でなくモデルユニットで測ったサーバ負荷でルーティングし、ステートフルセッションでキャッシュヒット率を高めます・保留リクエスト数でなく「モデルユニット利用率」でオートスケールし、ピーク閾値に近づくと増設します・ブラックボックスのヘルスチェックでサイレントハングを検知し、ヘルスチェックを最高優先度にして誤検知を防ぎます 🎯 ユースケース Superhumanやコーディングエージェント、サポートボットなど、トラフィックが数時間で急増するマルチテナントのエージェント型アプリを支えます。LLMアプリが単一テナントから共有本番環境へ移る局面に直結します。 📊 実験結果・コスト認識オートスケーリングで、静的なピーク見込みプロビジョニング比のGPUコストを80%超削減しました・ヘルスチェックの誤検知を週数件からゼロへ、サイレント障害の検知・回復は5分未満に収めました・画像処理をTorchvisionへ切り替え、OMP_NUM_THREADSをコンテナ上限に正しく設定し、同じレプリカ・負荷でスループットを3倍超に跳ね上げました・月125兆トークンをマルチテナントで処理しています #LLM# #MLOps#

0

コミュニティへ転送