エージェントハーネスを X で検索

2026.06.17 22:26

エージェントの本番運用で開発者を消耗させるのは、サンドボックスやセッション永続化といった「差別化にならない土台」でした🏗️ それをまるごと肩代わりするプラットフォームの登場です。タイトル: The evolution of agentic surfaces: building with Claude Managed Agents URL: 🏗️ 概要 Claude Managed Agentsは、本番品質のAIエージェントを大規模にデプロイするためのAnthropicのプラットフォームです。最適化されたエージェントハーネスとホスト型インフラを組み合わせたコンポーザブルなAPIで、プロトタイプから本番への移行を素早く行えます。 ❓ 解決する課題エージェントを本番運用するチームは、多くのインフラ課題に直面してきました。・サンドボックスのホスティングとスケーリング、中断をまたぐセッション永続化・認証情報の安全な管理、実行の隔離、包括的な可観測性これらは製品の差別化に直結しないのに開発リソースを消費します。 💡 方法論とアーキテクチャ・核心は、エージェントの推論エンジンとコード実行環境を分離すること・セッションは追記専用のイベントログとして、コンテナとは独立にサーバー側で永続化されます・この分離で、サンドボックス初期化と並行してClaudeがすぐ推論を開始でき、レイテンシを削減します・3つのコアリソース：Agents（設定）、Environments（隔離実行コンテキスト）、Sessions（個々の実行） 🌍 主な機能・クレデンシャルボールト：トークンをサンドボックスと別にエンベロープ暗号化で保管・永続的なセッション：完全なイベント履歴の再構成で再開可能・柔軟なホスティング：Anthropic管理または自社VPC内のセルフホスト・Memory & Dreaming：セッションログからパターンを抽出・タイムライン可視化とステップ単位のデバッグ #AIエージェント# #Claude#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.18 00:58

🧩 「外側は裁量、内側は決定論」。プロンプトだけで手順を守らせると脆い——という課題を、Skillsと埋め込み型インタプリタを統合し、実行可能なコードで解くアプローチです。タイトル: Building workflows for agents with Skills and Interpreter URL: 📝 概要本記事は、再利用可能な振る舞いパッケージ「Skills」と、エージェントのハーネスと並んで動く埋め込み型TypeScriptランタイム「Interpreter」を統合したInterpreter Skillsを解説します。SKILL.mdが「いつ使うか」を、index.tsが「どう実行するか」を担い、エージェントは適用判断と入力だけを決め、モジュールが決定論的な実行を担います。 ❓ 解決する課題エージェントは裁量的な判断は得意でも、決定論的な手順の遂行は苦手です。プロンプトだけの手順遵守は脆く、ステップを飛ばしたり順序を入れ替えたりします。300以上の項目を処理するような複雑な多段ルーチンでは、コンテキストをまたいで一貫性を保たせると「コンテキスト不安」が生じていました。 💡 方法論と提案手法・Skillsは段階的開示を用い、コンパクトなスキル一覧を見て関連するものだけ詳細を読み、プロンプトから分離してバージョン管理・共有可能な単位にします・Interpreterはデフォルトでアクセスが制限され、ファイルシステム・ネットワーク・ツール・サブエージェントは明示的に公開した分だけ使えます・スキルモジュールはサブエージェントをコードからプログラム的に生成・管理し、モデル介在のステップでなくコードから複雑なタスクグラフを編成します・パースやフィルタ、グルーピングといったローカル操作はTypeScriptコードで表し、ツール面を絞ってモデルが扱いやすくします 🎯 ユースケース GitHubのIssue・PR・ディスカッションを取得し、項目ごとにサブエージェントで要約を作り、別のサブエージェントで分類・クラスタリングするトリアージなど、状態の多い多段ワークフローに向きます。 📊 評価と意義・「概ね指示に従ったか」ではなく「期待した関数を呼んだか」という具体的な問いを立てられ、必要な手順が正しい入力で実行されたかを測定できます・モデルは一度呼び出すだけで、モジュールがワークフロー全体を決定論的に編成し、コンパクトな構造化オブジェクトを返します・モデルは戦略的制御を保ちつつ、重要な手順はレビュー可能・テスト可能なコードで実行され、エージェントの作業をバージョン管理・テスト・コードレビューといったソフトウェア工学の実践へ移行させます #AIエージェント# #DevTools#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.17 01:04

ハーネスエンジニアリングのアンチパターン AP1. コンテキストの溜め込み（The Context Hoarder） 🎯 ポイント「念のため全部入れておこう」——その安心感が、エージェントの性能を静かに殺しています。情報は多いほど安全ではなく、しばしば害です。 ❗ 発生する課題コンテキストウィンドウに無関連な情報が溢れ、エージェントの注意が希釈されます。重要な情報が中盤に埋もれ、本来必要なコードや仕様を載せるスペースが不足します。結果として、エージェントの判断精度が低下し、コストとレイテンシが線形以上に悪化します。 🔍 メカニズムと症状このアンチパターンが魅力的に見えるのは、「情報は多いほど安全」という直感が強いからです。取得設計（何をいつ取りに行かせるか）は手間がかかるため、全部入れる方が楽に感じます。しかし、コンテキストウィンドウはCPUのL1キャッシュに相当する希少資源です。効用は単調増加しません。一定量を超えると無関連トークンが注意メカニズムを希釈し、重要情報の中盤埋没（lost in the middle）が発生します。症状としては、リポジトリ全体や長い会話履歴の丸ごと注入、全ツール定義の毎回ロード、「なぜか前に読んだはずの情報を無視する」といった現象が現れます。 📋 シナリオ・issue-to-PRエージェントに、issueの内容だけでなくリポジトリ全体のREADME・設定ファイル・過去のPR履歴をすべて注入している。エージェントは肝心のissueの要点を見落とし、無関係なファイルを編集し始める。・マイグレーションエージェントに数千ファイルの情報を一度に渡し、コンテキストが溢れてエージェントが途中で一貫性を失う。・ペアプログラミングで、開いていないファイルや過去の長い会話履歴がコンテキストを圧迫し、レスポンスが遅くなる。 🛡 回避方法・コンテキストの使用量をカテゴリ別に計測し、メモリプロファイラのように配分を可視化します・取得はpull既定（エージェント自身に必要な情報を取りに行かせる）とし、push（強制注入）は破ると致命的な不変条件だけに絞ります・会話履歴は古いターンから要約・圧縮し、ツール定義は現在のタスクに必要なものだけを動的にロードします・「全部入れれば安心」という思考に気づいたら、それがこのアンチパターンのサインだと認識してください #HarnessEngineering# #AIAgent#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.13 01:03

ハーネスエンジニアリングのプラクティス P6. 多層検証ピラミッド（ループ位置に検証頻度を合わせる） 🎯 ポイント全ステップで10分のE2Eテストを回したら、エージェントの思考は10分ごとに止まります。検証にも「軽重」の設計が必要です。 📝 概要速く安い検証（型チェック・lint）は毎ステップ、中程度の検証（単体テスト）はマイルストーンごと、遅く高い検証（結合・E2Eテスト）は完了ゲートで実行します。検証のケイデンスをループ位置に合わせることで、レイテンシ税を最小化します。 🔍 解説すべての検証を毎ステップで実行するのは非効率であり、逆にすべてを完了時にまとめて実行するのはリスクが高すぎます。テストピラミッドの考え方を検証タイミングにも適用するのがこのプラクティスです。型チェックやlintは数秒で終わるため毎ステップで実行してもレイテンシへの影響は軽微です。一方、E2Eテストは数分かかるため、頻繁に実行するとエージェントの作業効率を大きく損ないます。ループの内側に速い検証を、ループの外側に遅い検証を配置することで、フィードバックの速度と網羅性を両立させます。 🛠 実践方法・検証を3層に分類します：毎ステップ（型チェック・lint、数秒）、マイルストーン（単体テスト、数十秒）、完了ゲート（結合・E2E、数分）・ハーネスのループ構造に検証タイミングを組み込み、各層が自動的に適切なタイミングで実行されるようにします・各層のレイテンシを計測し、ループ内検証が遅すぎる場合はテストの範囲を絞るか並列化で対応します・層の間に検証の死角がないか定期的に確認し、カバレッジのギャップを埋めます 💼 ユースケース・ペアプログラミングで、編集のたびに型チェックだけ即座に実行し、影響範囲のテストだけを走らせる場面・issue-to-PRエージェントで、実装中は単体テストで検証し、完了宣言前にCI全体を実行する場面・CI自動メンテナンスで、トリアージは安いチェックで行い、修正の検証だけフルテストを回す場面 ⚠ 落とし穴ピラミッドの層を間違えると、速度と品質の両方を失います。重い検証を頻繁に回せばレイテンシで死に、軽い検証しか回さなければリグレッションが流出します。また、「型チェックが通ったから大丈夫」という過信も危険です。各層の検証がカバーする範囲を正確に理解し、層の間に死角がないか確認することが重要です。 #HarnessEngineering# #TestingStrategy#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 05:19

ハーネスエンジニアリングのアンチパターン AP3. 足場のラチェット（The Scaffolding Ratchet） 🎯 ポイント失敗するたびにルールが足され、何ひとつ外されない。気づけばRube Goldberg装置のようなハーネスが、モデルと戦い始めています。「一度効いた」は「今も要る」を意味しません。 ❗ 発生する課題ルール・ステップ・ガードレールが際限なく蓄積し、ハーネスが複雑な迷宮になります。モデルの能力が向上しても過去の足場が性能の天井を作り、誰も全体を把握できないため改善も困難になります。 🔍 メカニズムと症状このアンチパターンが蔓延するのは、各ルール追加が局所的には正当（「あの事故を一度は防いだ」）であり、削除はリスクに見えるからです。しかし、足場は一方向にしか回らないラチェットになり、Rube Goldberg装置に堕します。モデルが賢くなると、過去の足場はモデルの推論を不必要に制約する性能の天井になります。症状としては、誰も全ルールを把握していない、新しいルールが古いルールと矛盾する、モデルを更新しても性能が上がらない（足場が制約しているため）、ハーネスの修正が怖くて誰も触れない、といった現象が見られます。 📋 シナリオ・あるバグで「必ずファイルAを先に読め」というルールを追加。別のバグで「ファイルBを先に読め」を追加。さらに別のバグで「計画を必ず3段階に分けろ」を追加。結果、エージェントは毎回不必要な手順を踏み、簡単なタスクでも遅くなる。・モデルをGPT-4からClaude Opusに更新したが、GPT-4の弱点を補うために追加した足場がClaude Opusの強みを殺し、性能が変わらない。・ハーネスのルールファイルが500行に膨れ上がり、新しいチームメンバーが理解不能。改善提案をしても「前に事故があったから」と却下される。 🛡 回避方法・足場にもガベージコレクションを導入し、モデル更新ごとに全ルールを棚卸しして不要なものを削除します・各ルールに「なぜ追加されたか」「いつ追加されたか」「どのモデルバージョンで追加されたか」を記録します・定期的に足場を外した状態でベンチマークを実行し、本当に必要な足場だけを残します・「ルール追加」だけでなく「ルール削除」も改善アクションとして意識的に実施してください #HarnessEngineering# #AIAgent#

0

1

0

コミュニティへ転送