コーディングエージェントを X で検索

2026.06.15 21:36

コーディングエージェントは1タスクで数十回もAPIを叩くので、誰にも気づかれず週に数千ドル溶かしてしまう——LangChainがこの「支出の予測不能性」を社内でどう潰したかの話です💸 鍵は予算管理をオブザーバビリティと同じ場所に統合することでした。タイトル: How LangChain Made Coding Agent Spend Predictable URL: 💸 概要 LangSmithに統合した「LLM Gateway」で、全社のモデル支出を分単位で俯瞰し、予算を中央集権的に管理する仕組みです。外付けプロキシではなく、既存のトレース・評価・ユーザー管理と同じ基盤の上に乗せた点が特徴です。 ❓ 解決する課題モデル利用が一部チームから全社に拡大し、プレミアムモデルの値上げも重なってコストが急増。・コーディングエージェントは1タスクで数十回のAPI呼び出しを発生させます・個々の開発者が気づかぬうちに週数千ドルを使い、月末まで誰も気づけませんでした 💡 方法論と提案手法予算を多階層で設定できます。・組織／ワークスペース／ユーザー／APIキーの単位で上限を設定・月次・週次・日次・時間単位の既定ウィンドウを全従業員に適用し、高負荷プロジェクトには例外を許可・Claude Code・Codex・LangChain Deep Agents経由のエージェントをカバー・MDMで配布し各自のセットアップを不要に・実行はトレースされユーザーとAPIキーに紐づき、超過時は該当トレースを評価データで診断できます 🌍 ユースケースチーム単位で上限を設定しつつ、サプライズ請求の不安なくエージェント利用を許可できます。月末の請求ショックを、リアルタイム監視に置き換えるのが実用的な価値です。 📊 教訓と成果・モデル価格は静的な表ではすぐ陳腐化するため、キャッシュやティア差を含め動的に扱う必要がありました・CursorやClaude DesktopはきれいにルーティングできずGateway捕捉分と提供側設定の差分を計測して補正・ハードリミットだけでは業務が止まるため、早期警告アラートと監査可能な増額申請に進化・社内展開以降、LLMコストは予算内に収まっています #コーディングエージェント# #LLMOps#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 22:26

🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか？」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? URL: 🎮 概要 GameCraft-Benchは、自然言語の仕様から実エンジン（Godot 4）上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。 ❓ 解決する課題これまでのコーディング評価は「コードが正しいか」が中心でした。・ゲームの良し悪しは、実際に動かしたときの挙動で決まる・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった 💡 方法論と提案手法 3つの評価原則を立てています。・Engine Grounding：実エンジンGodot 4上で開発（ヘッドレス実行で再現可能な自動テスト）・Artifact Completeness：起動可能で自己完結したプロジェクトを提出。起動できなければ0点（Build Gate）・Interactive Verification：エージェントが入力トレース（マウス/キー操作列）を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。 🎯 ユースケースコーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。 📊 実験結果・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満・Core Mechanicsは比較的強い（上位で約55%）が、Art & Presentationが最も弱い（約36%）・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ（r=+0.016）で、build→replay→evaluateのループを閉じることが鍵でした #AIエージェント# #ゲーム生成#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 06:10

# Codexの機能と実践的な使い方 🚀 「コードを書くすべての場所に、ひとつのエージェントを」。OpenAI Codexは、生成から理解・レビュー・デバッグまでを丸ごと任せられるAIコーディングエージェントです。 🏷️ タイトル: Codex 基礎 🔗 URL: 📘 概要 Codexは、ソフトウェア開発のためにOpenAIが提供するAIコーディングエージェントです。単なるコード補完ではなく、既存のプロジェクト構成や規約を読み取りながら、自律的にタスクを進めてくれます。ChatGPTのPlus/Pro/Business/Edu/Enterpriseプランに組み込まれています。 ⚙️ 機能の説明 Codexの中心となる能力は大きく5つです。・コード生成: 「何を作りたいか」を伝えると、既存の構成や命名規約に合わせてコードを書きます。・コードベース理解: 複雑なコードやレガシーコードを読み解き、システムの構造を説明します。・コードレビュー: バグ・ロジックの誤り・未処理のエッジケースを洗い出します。・デバッグ: 失敗を追跡し、根本原因を診断して、的を絞った修正を提案します。・反復作業の自動化: リファクタリング・テスト・マイグレーション・セットアップを代行します。これらを安全に動かすために、サンドボックスによる実行境界と承認ポリシーという仕組みが土台にあります。 🛠️ 実践的な使い方 Codexは「コードを書くあらゆる場所」で動くのが特徴で、複数の入口が用意されています。・CLI: ターミナルで `codex` を起動して対話的に作業・IDE拡張: エディタ内からそのまま委任・Web / クラウド: ローカルに無いリポジトリのタスクを並列実行・GitHub連携: PRに `@/codex review` でレビューを依頼・Slack連携: スレッドで `@/codex` にメンションしてタスク起動まずはCLIで `npm i -g @/openai/codex` から始め、慣れてきたらGitHubやSlackに広げるのが王道です。 💡 ユースケース未知のリポジトリに参加した初日に「このプロジェクトについて教えて」と尋ねて全体像をつかむ、レビュー前にバグを先に潰してもらう、退屈な一括リファクタリングを丸ごと委任する、といった使い方が現実的です。人間は方針決定とレビューに集中できます。 ⚠️ 注意点 Codexはファイルの読み書きやコマンド実行を伴う自律エージェントです。タスクの前後でGitのチェックポイント（コミット）を作っておくと、いつでも安全に巻き戻せます。認証はChatGPTアカウントが推奨で、APIキー認証では一部機能が制限される場合があります。 #OpenAICodex# #AIコーディング#

0

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.18 02:52

🧩仕様書や設計書がなく、運用ができない状態になっていませんか？IBMのAIコーディング・エージェントはコードを業務の意味まで説明できる状態にすることで、属人化の構造的な解消を支援します。

0

216

18

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.18 02:52

👉問題は「どこから手を付けるか」を判断できないことです。IBMのAIコーディング・エージェントは、コードの構造と影響を整理し、安全に修正できる範囲を判断可能にします。

0

70

2

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.18 02:52

⚙️問題は、スピードではありません。「なぜその変更を選んだのか」が残らないことです。IBMのAIコーディング・エージェントは、判断の背景を整理し、レビューや引き継ぎで立ち止まらない開発の実現を支援します。

0

126

4

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.18 02:52

🧠多くのチームでは、影響範囲の確認、前提の整理、選択肢の比較に時間がかかっています。IBMのAIコーディング・エージェントがこの下準備を担い、レビューや合意形成がスムーズに。

0

143

7

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.18 02:52

🔍プロジェクトが増えるほど、「システム全体の構成・方針」を把握できなくなっていませんか？IBMのAIコーディング・エージェントは、変更や設計判断のつながりを読み解き、システム全体を把握。先を見通した開発を実現しませんか？

0

100

1

コミュニティへ転送

cv usk@cv_usk

2026.06.17 22:29

🧑‍💻 AIがコードを書く時代、得をするのは「コードが書ける人」ではなく「問題を深く理解している人」でした。Anthropicが約40万件のClaude Codeセッションを分析した結果が興味深いです。タイトル: Agentic coding and persistent returns to expertise URL: 🧑‍💻 概要 2025年10月から2026年4月までの約40万件のClaude Codeセッションを、プライバシーを保護した分類器で分析した研究レポートです。コーディングエージェントが知識労働や働き方をどう変えるかを、実データから読み解いています。 ❓ 解決する課題・プログラマーでない人でも、複雑な技術作業を指揮できるのか・コーディングエージェントは職業や知識労働にどんな影響を与えるのかこの2つの問いに、推測ではなく大規模な実データで答えようとしています。 💡 主要な発見・分業：人間は計画の意思決定の約70%を担う一方、実行の意思決定は約20%だけ。目的は人間、実装はClaudeという役割分担です・成功を決めるのはコーディング歴ではなく「ドメイン専門性」。専門家のセッションは初心者の2倍以上の行動連鎖（12対5アクション）を生みます・職種を超えた成功：コード生成セッションでは主要職種すべてがソフトウェアエンジニアの成功率の7ポイント以内に収まり、管理職がわずかに上回る場面も 📊 注目の数値・検証可能な成功率は初心者15%に対し、中級〜専門家は28〜33% ・問題発生時の放棄率は初心者19%、経験者は5〜7% ・2025年10月→2026年4月でデバッグは33%→19%に減り、デプロイ・データ分析・ドキュメントへシフト。タスクの価値は約25〜43%上昇しました 🎯 意義エージェント型ツールはドメイン専門性を置き換えるのではなく、問題をよく理解している人を報いる、というのが核心です。技術作業が職種を超えて広がる一方、ドメイン知識へのリターンは依然として強く残ります。 #AIエージェント# #ClaudeCode#

0

コミュニティへ転送

日本IBM@IBM_JAPAN

2026.05.18 02:52

🔍仕様書がなく、「なぜこの処理があるのか」を説明できないまま判断を求められることはありませんか？COBOLやRPGなどのレガシー・コードを説明できる状態にすることが、安全な変更判断の第一歩です。IBMのAIコーディング・エージェントはその一歩を支援します。

0

146

5

コミュニティへ転送