cv usk(@cv_usk):🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか？」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? URL: https://t.co/taC9A1drfM 🎮 概要 GameCraft-Benchは、自然言語の仕様から実エンジン（Godot 4）上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。 ❓ 解決する課題これまでのコーディング評価は「コードが正しいか」が中心でした。・ゲームの良し悪しは、実際に動かしたときの挙動で決まる・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった 💡 方法論と提案手法 3つの評価原則を立てています。・Engine Grounding：実エンジンGodot 4上で開発（ヘッドレス実行で再現可能な自動テスト）・Artifact Completeness：起動可能で自己完結したプロジェクトを提出。起動できなければ0点（Build Gate）・Interactive Verification：エージェントが入力トレース（マウス/キー操作列）を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。 🎯 ユースケースコーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。 📊 実験結果・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満・Core Mechanicsは比較的強い（上位で約55%）が、Art & Presentationが最も弱い（約36%）・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ（r=+0.016）で、build→replay→evaluateのループを閉じることが鍵でした #AIエージェント #ゲーム生成

2026.06.17 22:26

🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか？」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? URL: 🎮 概要 GameCraft-Benchは、自然言語の仕様から実エンジン（Godot 4）上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。 ❓ 解決する課題これまでのコーディング評価は「コードが正しいか」が中心でした。・ゲームの良し悪しは、実際に動かしたときの挙動で決まる・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった 💡 方法論と提案手法 3つの評価原則を立てています。・Engine Grounding：実エンジンGodot 4上で開発（ヘッドレス実行で再現可能な自動テスト）・Artifact Completeness：起動可能で自己完結したプロジェクトを提出。起動できなければ0点（Build Gate）・Interactive Verification：エージェントが入力トレース（マウス/キー操作列）を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。 🎯 ユースケースコーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。 📊 実験結果・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満・Core Mechanicsは比較的強い（上位で約55%）が、Art & Presentationが最も弱い（約36%）・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ（r=+0.016）で、build→replay→evaluateのループを閉じることが鍵でした #AIエージェント# #ゲーム生成#