註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
240 正在關注    207 粉絲
🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか?」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。 タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? URL: 🎮 概要 GameCraft-Benchは、自然言語の仕様から実エンジン(Godot 4)上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。 ❓ 解決する課題 これまでのコーディング評価は「コードが正しいか」が中心でした。 ・ゲームの良し悪しは、実際に動かしたときの挙動で決まる ・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった 💡 方法論と提案手法 3つの評価原則を立てています。 ・Engine Grounding:実エンジンGodot 4上で開発(ヘッドレス実行で再現可能な自動テスト) ・Artifact Completeness:起動可能で自己完結したプロジェクトを提出。起動できなければ0点(Build Gate) ・Interactive Verification:エージェントが入力トレース(マウス/キー操作列)を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点 採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。 🎯 ユースケース コーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。 📊 実験結果 ・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満 ・Core Mechanicsは比較的強い(上位で約55%)が、Art & Presentationが最も弱い(約36%) ・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ(r=+0.016)で、build→replay→evaluateのループを閉じることが鍵でした #AIエージェント# #ゲーム生成#
顯示更多