エージェントAI を X で検索

1hours ago

AIがロボット犬を人間の助けなしに操り、最速の人間チームより約20倍速くタスクを完遂——物理世界に出てきたエージェントAIの実験です🐕 タイトル: Project Fetch: Phase Two URL: 🐕 概要 Anthropic の Frontier Red Team による研究で、先進的な言語モデルが四足歩行ロボット（ロボット犬）を自律制御し、高度なタスクを完遂できるかを検証した追跡実験（Phase Two）です。 ❓ 解決する課題 2025年8月の初回に続き、次の問いに答えます。・新しいClaudeモデルは、前世代（Opus 4.1）よりロボティクスのタスクで優れているか・人間の助けなしに、自律的に動作できるか 💡 方法論と実験設定・Claude Opus 4.7を、Claude Code上で最大の適応的思考の努力レベルに設定し3回試行・Phase Oneで人間チームが行ったのと同じタスクに挑戦：映像・LiDARセンサー接続、制御プログラムの記述、経路監視、ビーチボール検出、自律回収・人間の関与は最小限（ノートPC接続、最初のプロンプト、コマンド/タスク承認のみ） 📊 実験結果・人間の助けなしのClaude Opus 4.7が、最速の人間チームより約20倍速い・全グループ完了の4タスクで、非Claudeチームより平均37.7倍、Claude支援ありチームより18.9倍速い・生成コードは1,045行で人間Claudeチーム（10,309行）の約1/10、それで同等以上の結果・一方、閉ループのフィードバックを要する精密なボール操作には苦戦 #エージェントAI# #ロボティクス#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 09:33

📚 ReActもRAGもTree of Thoughtsも、論文ごとにバラバラだったエージェント設計を、同じAPIで動かして比較できたら最高だと思いませんか？それを実現した「35パターン全部入り」のリポジトリです。タイトル: FareedKhan-dev/all-agentic-architectures URL: 📦 概要本リポジトリは、プロダクション品質のエージェントAIパターンを35種類実装したPythonライブラリ兼「生きた教科書」です。すべてのアーキテクチャが同じ.run(task)メソッドを持ち、同一形式の結果を返すため、下流のコードを変えずにパターンを差し替えられます。 ❓ 解決する課題エージェントの設計パターンは論文ごとに散らばっていて、実装も様式もバラバラでした。これを統一インターフェースの下に集約し、横並びで試せるようにしたのが最大の価値です。 💡 中核の工夫と提案手法中心にあるのが「決定論的ピッカーの規律」です。・LLMのスコアリングに丸投げせず、まずLLMに真偽値や列挙型などカテゴリ的な特徴をコミットさせる・最終判断はPythonのロジックで合成するこれにより、スコアが平坦に潰れる「LLM-as-Scorer」の病理を緩和します。35アーキテクチャ中13で採用されています。 🎯 カバー範囲とユースケース推論・内省（Reflection、Self-Discover）、探索（Tree of Thoughts、LATS）、RAG（Corrective/Self/Adaptive/GraphRAG）、メモリ（MemGPT、Voyager）、ツール・行動（ReAct、SWE-Agent）、マルチエージェント（Debate、STORM）など8系統を網羅。各パターンに実行済みのJupyterノートブックが付き、本物のLLM出力に基づく再現可能なリファレンスになっています。 📊 注目ポイント・コアはLangGraph。NebiusやOpenAI、Anthropic、Ollamaなど主要プロバイダーに対応し、切り替えは環境変数1つ・pytestで283件のテストがパス・17タスクのベンチマークで直近42問中33問正解（成功率78%）。ReflectionやSelf-Consistencyが好成績でした #AIエージェント# #LangGraph#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.18 02:56

🔬 「50人のチームが手元にいて、1日で全部やってくれる感覚」。Geminiベースのマルチエージェントが科学仮説を生成・討論・進化させ、肝線維症の瘢痕応答を91%ブロックする薬剤候補まで導きました。タイトル: Co-Scientist: A multi-agent AI partner to accelerate research URL: 📝 概要 Co-Scientistは、Geminiを基盤とする協調型のマルチエージェントAIで、新規の科学仮説を生成・批評・洗練します。仮説の生成と評価のサイクルを自動化することで、ブレイクスルーの発見を加速する「AI研究パートナー」として機能します。 ❓ 解決する課題研究者は、情報過多とますます複雑化する課題の中で、ブレイクスルーとなる仮説を立てるのに苦労します。膨大な文献にまたがる断片的な事実を結びつけ、有望な研究方向を特定するのが難しいのです。 💡 方法論と提案手法 3つのフェーズに専門エージェントを配置します。・生成フェーズ：Generationエージェントが文献とデータに基づき新規仮説を提案し、Proximityエージェントが仮説をクラスタ化して多様な探索を確保します・討論フェーズ：Reflectionエージェントが「仮想ピアレビュア」として批判的に評価し、Rankingエージェントがペアワイズ比較とEloベースのトーナメントで優先順位付けします・進化フェーズ：Evolutionエージェントが上位仮説を継続的に洗練・結合し、Meta-reviewエージェントが最終的な研究提案を統合します・計算資源の大半を「検証」に充て、主張をChEMBLやUniProt、Web検索、AlphaFoldなどの専門ツールと突き合わせます 🎯 ユースケース抗菌薬耐性、植物免疫、肝線維症の治療発見、ALSの機序探索、細胞老化の逆転、感染症タンパク質の特定、代謝疾患、老化生物学など、幅広い生命科学領域に応用されています。 📊 実験結果・肝線維症で、瘢痕に関連する応答の91%をブロックする薬剤候補を特定しました・細胞老化では、実験室で細胞を若返らせる遺伝的リードを生成し、スクリーニング解析を数ヶ月から数日に短縮しました・100以上の研究機関がテストし、Stanford、MIT、Cambridge、Calicoなどが協力しています・第一三共やBayer Crop Science、米国の国立研究所にエンタープライズ版が展開されています #AIforScience# #AIエージェント#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.18 02:55

# AIエージェントをソフトウェアに組み込むプラクティス # コンテキスト予算配分 🎯 「全部入れれば精度が上がる」は幻想です。コンテキストウィンドウは有限の予算として管理しましょう。スロットごとに配分比率を決め、信号密度を最大化するパターンです。 🔥 解決する課題 RAGやメモリを使うエージェントでは、検索結果・会話履歴・システム指示・長期メモリが同じコンテキストウィンドウを奪い合います。情報を詰め込むほどコストは増え、会話が長くなるとシステム指示の割合が縮んで振る舞いが劣化します。さらに"Lost in the Middle"問題により、窓の中盤に置かれた重要な情報が実質的に無視されてしまいます。 💡 提案パターンコンテキストウィンドウをシステム指示・検索結果・会話履歴・メモリなどのスロットに分け、各スロットに最大占有率と優先度を設定します。システム指示は圧縮対象外の固定枠（10〜20%）として先に確保し、検索結果はリランク後にtop-k件に絞り、履歴は窓使用率が閾値を超えたら要約圧縮します。配置順序はLost in the Middle対策として、最重要情報を先頭に、直近入力を末尾に置きます。cost_sensitivityが高い環境ほどtop-kを絞り、圧縮閾値を下げ、履歴を短く保ちます。 ✅ 選定条件使うとき： - RAGやメモリを使い、投入候補がモデル窓サイズの50%を超えうる - コスト感度が中以上で、投入トークンの増加がコストや推論時間に影響する - 複数ターンの会話で履歴が蓄積し、他の情報のスペースを圧迫する使わないとき： - 投入情報がシステム指示＋単発入力のみで窓の30%未満に収まる場合 - ロングコンテキストモデルを使い投入量が窓の20%未満、かつコスト感度が低い場合 ⚠️ 落とし穴 - システム指示を圧縮対象にしてはいけません。ツール定義や安全指示が削られると振る舞いが壊れます - リランクなしのtop-kは信号密度が低いです。ベクトル検索上位20件からクロスエンコーダで3〜8件に絞りましょう - 要約圧縮は非可逆です。重要な決定事項や固有名詞が落ちるリスクがあるため、キーワード抽出を併用してください 🔧 実装方針 - コンテキストウィンドウをスロット（system/user/retrieval/history/memory）に分割し、各スロットに最大占有率・優先度・圧縮可否を定義した構造体で管理します - システム指示は圧縮対象外の最高優先度として先に確保し、残りの予算を他スロットに優先度降順で配分します - 検索結果はベクトル検索の上位候補をクロスエンコーダでリランクしてから予算内に収め、信号密度を最大化します - 履歴スロットが予算を超過した場合は要約圧縮を適用し、圧縮前にキーワード抽出して重要情報の欠落を防ぎます #AIエージェント# #ソフトウェアアーキテクチャ#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 22:26

🎮 「AIエージェントは、実際のゲームエンジンで“遊べるゲーム”を最後まで作れるのか？」——この問いに正面から答えるベンチマークが登場しました。結果は、最強でも成功率41%という厳しいものでした。タイトル: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? URL: 🎮 概要 GameCraft-Benchは、自然言語の仕様から実エンジン（Godot 4）上で完成・起動・プレイ可能なゲームをエンドツーエンドで作れるかを評価するベンチマークです。15ジャンル・計140タスクで構成されています。 ❓ 解決する課題これまでのコーディング評価は「コードが正しいか」が中心でした。・ゲームの良し悪しは、実際に動かしたときの挙動で決まる・既存ベンチマークは実エンジン上の「遊べる成果物」を評価できていなかった 💡 方法論と提案手法 3つの評価原則を立てています。・Engine Grounding：実エンジンGodot 4上で開発（ヘッドレス実行で再現可能な自動テスト）・Artifact Completeness：起動可能で自己完結したプロジェクトを提出。起動できなければ0点（Build Gate）・Interactive Verification：エージェントが入力トレース（マウス/キー操作列）を提出し、検証器がGodotで再生して動画化、GPT-5.5がルーブリックで採点採点はCore Mechanics・Content Depth・Functional Visuals・Art & Presentationの4観点で重み付けします。 🎯 ユースケースコーディングエージェントを「コードの正しさ」ではなく「遊べる成果物を作り切れるか」で測れます。自動でプレイ検証まで回るため、ゲーム生成やUI生成エージェントの実力評価に使えます。 📊 実験結果・最高はClaude Opus-4.7で41.46%、GPT-5.5が39.49%、多くは40%未満・Core Mechanicsは比較的強い（上位で約55%）が、Art & Presentationが最も弱い（約36%）・スクリーンショットで確認を重ねるエージェントほど好成績。一方でツール使用量と最終スコアの相関はほぼゼロ（r=+0.016）で、build→replay→evaluateのループを閉じることが鍵でした #AIエージェント# #ゲーム生成#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 02:49

# AIエージェントをソフトウェアに組み込むプラクティス # 階層化メモリ 🎯 「全部コンテキストに詰め込む」設計は、ウィンドウ溢れとハルシネーションの永続化を同時に引き起こします。メモリを3層に分けるだけで、コンテキスト効率と記憶の信頼性を両立できます。 🔥 解決する課題エージェントが複数ターンに跨がるタスクを扱うとき、すべての情報をコンテキストウィンドウに詰め込む「フラット記憶」では2つの問題が同時に起きます。会話履歴・ユーザ属性・中間結果・外部知識が混在するとウィンドウが溢れ、古い情報から押し出されて文脈が断絶します。さらにLLMが生成した推測をそのまま永続化すると、ハルシネーションが長期記憶に定着し、以降のセッションを汚染し続けます。 💡 提案パターンメモリを作業記憶（ターン内の中間状態）・短期記憶（セッションストア、TTL付き）・長期記憶（ベクトルDB/KVS）の3層に分離します。作業記憶は自由に読み書きし、コンテキストリセットで消えます。短期記憶には信頼度タグを付与し、ユーザ発話由来は高信頼、LLM推測由来は低信頼とマークします。長期記憶への昇格には反復確認やユーザ承認を要求し、ハルシネーションの永続化を防ぎます。failure_costが高い領域ほど昇格閾値を厳しくし、TTLを長めにとって安全側に寄せます。 ✅ 選定条件使うとき： - 複数セッションにわたって情報を引き継ぐ必要がある - 中間結果の量がコンテキストウィンドウの30%を超える見込みがある - 確定事実と推測の区別が必要で、誤った記憶の波及影響が大きい使わないとき： - 1ショットで完結しセッション間の引継ぎが不要な場合 - コンテキストウィンドウに全情報が収まる場合 - メモリの書込制御だけが課題で、階層分離自体は不要な場合 ⚠️ 落とし穴 - 作業記憶と短期記憶の境界が曖昧になりがちです。外部ストアへの書込を境界線にし、LLMの内部状態に頼らないでください - 長期記憶のエントリ数が増えると無関係な記憶がコンテキストに混入し、ハルシネーションの原因になります - マルチエージェント構成で各Workerが直接長期記憶に書き込むと整合性が崩れます。長期記憶はSupervisorが一元管理しましょう 🔧 実装方針 - 作業記憶（dict/インメモリ）・短期記憶（Redis等TTL付きセッションストア）・長期記憶（ベクトルDB）の3層を明確に分離し、外部ストアへの書込を境界線とします - recall時はコンテキスト予算内で3層から関連情報を想起し、関連度と信頼度でランク付けして注入量を制御します - 短期→長期への昇格には信頼度スコアの閾値チェックと承認状態の検査を設け、未検証情報の永続化を防ぎます - 記憶種別ごとにTTLを設計し（リアルタイムデータは分単位、ユーザ嗜好は週単位、不変属性は無期限）、failure_costが高いほど短めに設定します #AIエージェント# #ソフトウェアアーキテクチャ#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 01:35

# AIエージェントをソフトウェアに組み込むプラクティス # Streaming with Progressive Commit｜進捗ストリーミング＋遅延コミット 🎯 トークンは即座に見せたい、でも副作用は検証してからコミットしたい。「見せる」と「実行する」を分離すれば、体感レイテンシの短縮と副作用の安全性を両立できます。 🔥 解決する課題エージェントの応答はレイテンシのばらつきが大きく、全トークン生成まで待たせると体感が悪化します。一方でツール呼び出しの副作用を生成途中で確定すると、ガードレール検証で棄却された際にロールバックが必要になります。「全部待ってから返す」か「生成と同時に確定する」かの二択では、体感か安全性のどちらかを犠牲にしてしまいます。 💡 提案パターン Streaming with Progressive Commit（進捗ストリーミング＋遅延コミット）は、生成中のトークンやツール実行結果をSSE/WebSocketでクライアントへストリーミングしつつ、副作用（外部API書き込み・DB更新など）は検証完了までコミットバッファに留めます。ストリーム上ではpreview（未確定）→ committed/rejected（確定/棄却）とイベントが遷移し、クライアントUIは中間状態を明示的に表示します。failure_costが高いほどバッファを深く取り、全ステップ完了後にまとめて確定します。 ✅ 選定条件使うとき： - ユーザー向けUIがあり、first-token-timeの短縮が体験に直結する - エージェントがツール呼び出しで書き込み副作用を持ち、誤った副作用の取消しが困難 - 生成結果にガードレール検証やドライランを挟みたい使わないとき： - 処理が常に数秒以内で、ストリーミングの恩恵がほぼ無い場合 - クライアントがSSE/WebSocketに対応できない場合 - 副作用が無い読取専用の質問応答（遅延コミットが不要） ⚠️ 落とし穴 - previewとcommitted/rejectedをクライアント側で区別しないと、未確定の結果を確定済みとして表示してしまいます。UIに「確認中」の中間状態を必ず設けてください - 長時間のマルチステップ実行ではコミットバッファが肥大化します。ステップ単位でチェックポイントを切り、確定済みバッファを解放しましょう - SSE接続が切れてもコミットバッファは残ります。再接続時の復元かタイムアウト破棄かのポリシーを事前に決めておく必要があります 🔧 実装方針 - LLMからのトークンはStream Buffer経由でSSE/WebSocketチャネルへ即座にプッシュし、ツール呼び出し結果はCommit Bufferに蓄積してpreviewイベントとしてクライアントに通知します - 全生成完了後にCommit Buffer内の各ツール呼び出しをガードレール検証し、パスすればcommittedイベント、棄却すればrejectedイベントをクライアントに送ります - ツール実行はまずドライランで結果をプレビューし、検証通過後に本コミットする二相構成を採ります - SSEイベント設計ではtoken・preview・committed・rejectedの各イベントタイプを明確に分離し、クライアントUIが中間状態（確認中）を適切に表示できるようにします - failure_costが高いワークフローではコミットバッファを深く取り、全ステップ完了後にまとめて確定します。低リスクの場合は単一ツール呼び出し単位で確定します #AIエージェント# #ソフトウェアアーキテクチャ#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 01:34

AIエージェントをエンタープライズシステムに組み込むプラクティス【MCPゲートウェイ / ツール・フェデレーション（MCP Gateway）】 💡 ポイント「エージェント5つ × SaaS 10種 = 50本の個別統合。この掛け算地獄を解消するのがMCPゲートウェイです。」エージェントが増え、接続先SaaSが増えるたびに統合コストが爆発します。ツール定義の乱立、スキーマの不整合、そしてSaaSのサイレント仕様変更による暗黙の破綻。これらをアーキテクチャレベルで解決します。 🔥 解決する課題 - N（エージェント）×M（SaaS）の統合コスト爆発 - 各エージェントが独自にツール定義を持つことによる重複・不整合 - ツール経由の間接プロンプトインジェクション - エージェントに見えるツールが多すぎることによる選択精度の劣化 - SaaSのサイレント仕様変更（APIレスポンス形式変更等）による暗黙の破綻 🏗️ 提案パターン各SaaSコネクタをMCP（Model Context Protocol）サーバとして束ね、ゲートウェイがツールの発見・認可・呼び出し監査・スコープ制御を一元管理します。ツール許可リストを主体（部署×エージェント種別）で動的に絞り、エージェントに見えるツールを必要最小限にします。危険ツール（削除・送金・外部送信など不可逆操作）には承認フックを設置します。さらに、ツール定義/APIスキーマを「契約」としてバージョン管理し、定期的に実APIと突合してドリフト（乖離）を検知します。後方互換のないドリフトを検出した場合は、アラート＋該当ツールの一時無効化で安全側に倒します。 ✅ 選定条件 - 採用する場合：連携SaaSが10種以上。複数エージェントが共通ツールを使う。N×M統合の複雑さに困っている。 - 採用しない場合：ツールが2〜3個固定の単機能エージェント（直結のほうが堅牢でシンプル）。依存APIが安定していて変更頻度が極めて低い環境。 ⚠️ 落とし穴 - エージェントに露出するツールが20〜30を超えると選択精度が低下します。tool RAGで意図に応じて動的に絞るか、役割別サブエージェントに分割してください。 - 契約テスト（ドリフト検知）を導入しないと、SaaS側の仕様変更に気づかず、エージェントが誤ったデータを処理し続けます。Salesforce APIのフィールド変更などは実際に起きる頻度が高いです。 - MCPサーバの認可設計を後回しにすると、全エージェントが全ツールにアクセスできる状態が放置されます。 🛠️ 実装方針 - 各SaaS（Salesforce / ServiceNow / Jira / Slack / Box 等）のMCPサーバを構築します。公式MCPサーバがあればそれを採用し、なければOpenAPI定義からツールを自動生成して自作MCPサーバとして用意します。 - MCPゲートウェイを配置し、ツールレジストリ（カタログ）を構築します。各MCPサーバが提供するツールを一覧化し、部署×エージェント種別でアクセス可能なツールを動的にフィルタリングする許可リストを設定します。 - OAuth 2.1 ベースの認可と承認フックを設定します。不可逆操作（削除・送金・外部送信）を行うツールにはP09（動的認可PDP）と連携した承認ゲートを設置し、人間の承認なしに実行されない構成にします。 - 契約テスト（Pact等）とスキーマレジストリでドリフト検知パイプラインを構築します。週次でツール定義と実APIスキーマを突合し、後方互換のない変更を検出した場合はアラート＋該当ツールの自動無効化を行います。 - tool RAG または役割別サブエージェント分割で、各エージェントに露出するツール数を20以下に制御します。意図に応じて動的にツールを絞り込み、選択精度を維持します。 #AIエージェント# #エンタープライズアーキテクチャ#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.16 21:38

AIエージェントの回答を「検証可能で説明できる事実」に根拠づける——ナレッジグラフ＋GraphRAG＋エージェントのフルスタックをまるごとオープンソースで提供する基盤です🕸️ タイトル: trustgraph-ai/trustgraph URL: 🕸️ 概要 AIエージェントのためのオープンソースのセマンティック・デプロイメント基盤です。コアは「コンテキストグラフ」（ドメイン知識を構造化しクエリ可能にした表現）。コンテキストグラフ・メモリ・検索・オーケストレーション・推論を、決定論的なエージェント向けにフルスタックで提供します。 ❓ 解決する課題 LLM単体では、なぜその答えになったのかを辿りにくく、ハルシネーションのリスクもあります。・エージェントの回答を、検証可能で説明可能な事実に根拠づけるのが難しい・TrustGraphはナレッジグラフ構築とGraphRAGを組み合わせ、意味的に豊かで検証可能なコンテキストにアクセスできるようにします・しかも主権的に管理できるプライベート環境で実現します 💡 主な特徴・マルチモデルDB（表・KV・ドキュメント・グラフ・ベクトル）とマルチモーダル対応、エンティティ/関係の自動抽出・DocumentRAG・GraphRAG・OntologyRAGのパイプラインと、3D GraphVizによる可視化・単一/マルチエージェント、ReAct・Plan-then-Execute・Supervisorパターン、MCP統合・Context Cores：スキーマ・グラフ・埋め込み・エビデンス・検索ポリシーを束ね、コンテキストをコードのようにバージョン管理 🌍 技術スタック / 使い方ストレージはCassandra・Qdrant・Garage、メッセージングはPulsar等、LLMはAnthropic/OpenAI/Google等＋ローカル推論（vLLM/Ollama等）に対応。npx @trustgraph/configで構成し、ポート8888のUIから利用できます。Apache 2.0ライセンスです。 #GraphRAG# #ナレッジグラフ#

0

コミュニティへ転送