🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか?」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。
タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
URL:
🎮 概要
GameCraft-Benchは、自然言語の仕様から実エンジン(Godot 4)上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。
❓ 解決する課題
これまでのコーディング評価は「コードが正しいか」が中心でした。
・ゲームの良し悪しは、実際に動かしたときの挙動で決まる
・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった
💡 方法論と提案手法
3つの評価原則を立てています。
・Engine Grounding:実エンジンGodot 4上で開発(ヘッドレス実行で再現可能な自動テスト)
・Artifact Completeness:起動可能で自己完結したプロジェクトを提出。起動できなければ0点(Build Gate)
・Interactive Verification:エージェントが入力トレース(マウス/キー操作列)を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点
採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。
🎯 ユースケース
コーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。
📊 実験結果
・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満
・Core Mechanicsは比較的強い(上位で約55%)が、Art & Presentationが最も弱い(約36%)
・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ(r=+0.016)で、build→replay→evaluateのループを閉じることが鍵でした
#
AIエージェント# #
ゲーム生成#