登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
236 フォロー中    211 ファン
製造業のAI活用、つまずきの本当の原因は「目(視覚)」ではなく「知識」でした🏭 18種類の最先端モデルを徹底検証して、その事実を突き止めた研究です。 タイトル: FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios URL: 🏭 概要 本研究は、製造現場でマルチモーダルLLM(MLLM)がどこまで実用に耐えるかを、厳密に測るための評価フレームワーク「FORGE」を提案しています。2D画像と3D点群(point cloud)を組み合わせ、型番などの細かいドメイン情報を付与した高品質なデータセットを構築し、18種類の最先端MLLMを横断的に評価しました。 ❓ 解決する課題 製造業はAI活用を急速に進めていますが、その性能を正しく測る基盤が追いついていませんでした。 ・製造現場の高品質なマルチモーダルデータ(実機画像や3D形状)は希少で、評価用データが不足しています ・既存データセットは、型番・構造的な欠陥・組立の正誤といった製造特有の細粒度な意味情報を欠いています そのため、現行のMLLM評価は実際の製造業の要求を反映できていませんでした。 💡 方法論と提案手法 FORGEは、現実的な条件で能力を測るために設計されています。 ・実世界の2D画像と3D点群を含む高品質なマルチモーダルデータで構成します ・正確な型番を含む、製造特有の細粒度ドメイン意味アノテーションを付与します ・評価する中核タスクは3つです ・ワークピース検証(対象部品が正しいものか) ・構造表面検査(表面の欠陥や状態の確認) ・組立検証(組み付けが正しく行われているか) 🌍 ユースケース / 実験結果 検証から、実務に直結する重要な知見が得られました。 ・評価したMLLM群の間で、性能に大きなギャップが存在することが判明しました ・従来の想定に反し、視覚的グラウンディング(画像中の対象を特定する力)はボトルネックの本質ではありませんでした ・真のボトルネックは「ドメイン固有知識の不足」であると結論づけられました ・この知見を裏付けるように、コンパクトな3Bパラメータのモデルを教師ありファインチューニングしたところ、未知の製造シナリオで最大90.8%の相対精度改善を達成しました 巨大な汎用モデルに頼るより、小型モデルを自社の現場データで鍛える方が、検査や品質管理で現実的な解になり得ます。 #製造業AI# #MLLM#
もっと見る
🧮 MoEのルーター、なんとなく学習させていませんか?「ルーター行を専門家行列の主特異方向に揃えるべき」という、数学的に裏づけられた設計原理が提案されました。 タイトル: Redesign Mixture-of-Experts Routers with Manifold Power Iteration URL: 📝 概要 MoEは入力ごとに一部の専門家だけを使う効率的な仕組みで、どの専門家を使うかを決めるのがルーターです。本論文は、ルーターの各行を対応する専門家行列の主特異方向に揃えることで、トークンと専門家の親和性をより良く表現できると主張します。 ❓ 解決する課題 ルーターの各行は「専門家の代理ベクトル」として類似度を計算しますが、その代理ベクトルをどう設計すべきかという原理的な指針がこれまでありませんでした。専門家の情報を代表ベクトルへ凝縮する明確な原則が欠けていたのです。 💡 方法論と提案手法 ・提案手法Manifold Power Iteration(MPI)は「Power-then-Retract(べき乗してから引き戻す)」というパラダイムを採用します ・ルーター重みにべき乗反復を行い、主特異方向へ収束させます ・ノルム制約を課すリトラクション操作で、計算効率と学習の安定性を両立します ・ルーター行が主特異方向へ収束することの理論的な証明も与えています 🎯 ユースケース 大規模MoE-LLMのルーティング設計に、経験則ではなく原理に基づく指針を提供します。専門家の利用効率(特定専門家への偏りなど)を改善したい場面に効きそうです。 📊 実験結果 ・1B〜11BパラメータのスケールにわたってMoEモデルを事前学習し、整合が有効性を高めることを検証しました ・主特異方向への整合により、専門家の活性化判断がより効果的になることを示しています MoEが大規模LLMの標準になりつつある中で、ルーティングの「なぜそう設計するか」に答える基礎的な貢献です。 #MoE# #LLM#
もっと見る
# Palantir Foundryを学ぶ 🚀 データセットを「業務オブジェクト」に変える最初の一手。オブジェクトタイプの設計が、後段アプリの性能とUXをほぼ決めます。 📌 タイトルと機能のURL タイトル: オブジェクトタイプ URL: 📝 概要 オブジェクトタイプは、現実世界のエンティティやイベントのスキーマを定義するものです。1件の実体は「オブジェクトインスタンス」(例: 従業員「Melissa Chang」)、複数のまとまりは「オブジェクトセット」(例: すべての在籍従業員)として扱います。これはデータセットが行と絞り込み行集合を扱う構造に対応します。 🔧 機能の説明 ・主キーと同一性: オブジェクトはインスタンスを一意に識別する主キーを必要とします。データソースをオブジェクトタイプにマッピングすることで、アプリ上でオブジェクトを生成・表示できます。 ・プロパティ: オブジェクトの特性を定義します。編集専用プロパティ、必須プロパティ、複数タイプで再利用する共有プロパティなどの構成が可能です。 ・プロパティ型: 時系列データ、地理空間情報、構造体(struct、入れ子の複合プロパティ)など多様な型をサポートします。 ・表示と検索: タイトル/表示の設定や検索インデックスにより、アプリ内での発見性を高めます。 ・値型(Value Types): バージョン・権限・制約を備えたカスタム値型で、オントロジー全体に標準化された表現を与えられます。 🛠 実践的な使い方 ・従業員ディレクトリや基幹データを「従業員」オブジェクトタイプに接続し、生のデータセットを操作可能なオントロジーのインスタンスへ変換します。 ・主キー設計を最初に固め、検索インデックスを適切に張ることで、後段アプリの検索性能とUXを担保します。 ・構造体プロパティで階層データを自動マッピングし、共有プロパティと組み合わせて再利用性を高めます。 🎯 ユースケース ・顧客マスタを「顧客」オブジェクト化し、全社で一意の顧客像を扱う。 ・センサーを持つ設備を時系列プロパティ付きでモデリングし、稼働履歴を保持する。 ・拠点・店舗を地理空間プロパティでモデリングし、地図上での集計・検索を可能にする。 ⚠️ 注意点 ・主キー設計・プロパティ型・検索インデックスの選択が、後段のアプリ性能とUXをほぼ決定します。最重要のモデリング判断として慎重に設計してください。 ・オブジェクトを生成・表示するには、データソースをオブジェクトタイプへ正しくマッピングすることが前提になります。 #PalantirFoundry# #Ontology#
もっと見る
# Learning Palantir Foundry 🚀 The first move that turns a dataset into a business object. How you design Object Types largely decides downstream app performance and UX. 📌 Title and Feature URL Title: オブジェクトタイプ URL: 📝 Overview An Object Type defines the schema for a real-world entity or event. A single occurrence is an object instance (e.g., employee "Melissa Chang"), while a group is an object set (e.g., all tenured employees). This mirrors how datasets handle rows and filtered row collections. 🔧 How It Works - Primary keys and identity: objects need a primary key to uniquely identify instances. Mapping a data source to the object type lets you create and display objects in applications. - Properties: define an object's characteristics, with options such as edit-only properties, required properties, and shared properties reused across multiple object types. - Property types: support time series data, geospatial information, and struct types (nested, complex properties). - Display and search: title/display settings and search indexing improve discoverability inside apps. - Value Types: custom value types with versions, permissions, and constraints standardize representation across the ontology. 🛠 Practical Usage - Connect an employee directory or enterprise data to an Employee object type, converting raw datasets into actionable ontology instances. - Nail down primary key design first and index for search to secure downstream app performance and UX. - Use struct properties to auto-map hierarchical data, combined with shared properties for reuse. 🎯 Use Cases - Turn a customer master into a Customer object so the whole company shares one identity. - Model sensor-equipped assets with time series properties to retain operating history. - Model sites and stores with geospatial properties for map-based search and aggregation. ⚠️ Caveats - Primary key design, property types, and search indexing largely determine later app performance and UX, so treat them as your most important modeling decisions. - You must correctly map a data source to the object type before objects can be created or displayed. #PalantirFoundry# #Ontology#
もっと見る
AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。 タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要 視覚言語モデル(VLM)の空間推論を強化する「Imaginative Perception Tokens(IPT、想像的知覚トークン)」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法 ・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します ・3つのタスクを定式化:視点取得(PET)、経路追跡(PT)、多視点カウント(MVC) ・約20,000例のデータセットを構築(正解・回答・評価指標つき) 「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果 ・多視点カウント(MVC)でIPT利用により精度が3.4%向上 ・経路追跡(PT)でクローズドソースモデルと競争力ある性能 ・IPT教師あり学習はテキスト思考連鎖(CoT)を上回る ・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#
もっと見る
# AIエージェント開発の意思決定ポイント ## チェックポイント頻度 — エージェントの状態をどのくらいの間隔で永続化するか 🎯 ポイント LLMエージェントの処理が99%完了した時点でクラッシュ。チェックポイントがなければ、全部やり直しです。 でも毎ステップ保存すると、本来の処理よりI/Oの方が遅い。このバランス、どう取りますか? 📋 概要 チェックポイント頻度は、エージェントの実行状態を外部ストアに永続化する間隔を制御するパラメータです。チェックポイントを取ることで、プロセスのクラッシュやプロバイダの障害が発生しても、最後に保存した地点から処理を再開できます。AIエージェントは1リクエストが数分〜数十分に及ぶことが珍しくなく、その間にLLMやAPIを何度も呼び出します。チェックポイントがなければ、クラッシュ時にトークン再消費とユーザーの待ち時間という二重の損失が発生します。一方で、チェックポイント取得にはI/Oコストが伴い、頻度が高すぎると本末転倒になります。 🔍 意思決定のポイント このダイヤルは主に **可逆性(reversibility)** で決めます。操作のやり直しが高コストなほど、チェックポイント頻度を上げます。 🔒 **必須のチェックポイント地点(可逆性にかかわらず常に取る):** 1. 副作用を伴うツール実行の直前と直後 — 「この操作をやるべきか」の判断と「完了した」事実の両方を記録 2. 人間の承認ノードの前後 — 承認応答を失うのは致命的 3. コストの高いLLM呼び出しの後 — 大量トークンを消費した推論結果を保全 📐 **追加のチェックポイント地点(可逆性に応じて判断):** - 各ツール実行の後 — 可逆性が低ければ全ツール後に、高ければ3回ごとなどに間引き - 各LLM応答の後 — 再生成コストが低ければ省略可能 - 計画の更新時 — エージェントが計画を修正した場合 💡 要点と詳細 📊 チェックポイントのタイミング目安: - ⭐ 副作用ツール実行の直前・直後: **必須** — 省略すると二重実行リスク - ⭐ 人間承認ノードの前後: **必須** — 承認応答を失うのは致命的 - 🔵 各LLM応答の後: 推奨 — 可逆性が低い場合は必須に格上げ - ⚪ 各読取ツール実行の後: 任意 — 再実行が安価なら間引いてよい - 🔵 一定時間経過ごと: 推奨 — 概ね30秒〜1分ごとの定期チェックポイント 状態の保存粒度も重要です。全メッセージ履歴をそのまま保存するのではなく、「再開に必要な最小集合」+「本文はURIで外出し」という構成にすることで、I/Oサイズを抑えつつ再開可能性を確保します。 ⚖️ トレードオフ **頻度が低すぎる場合(作業が大量に失われる):** - 10ステップ中9ステップ目のクラッシュで全やり直し。LLM呼び出し9回分のトークンコストが無駄に - 副作用ツール実行後にチェックポイントがないと、再開時に二重実行のリスク(メール再送など) - 人間の承認応答が失われ、ユーザーに再度承認を求めることになる **頻度が高すぎる場合(処理が遅くなる):** - I/O待ちがボトルネックになり、30秒の処理が1分以上に - 大規模な状態の毎回書き込みでストレージコストとネットワーク帯域が浪費 - DBへの高頻度書き込みが他のクエリのレイテンシに影響 🛠️ ユースケース 🔍 **多段調査エージェント** — 10件のWebページを順次取得・分析してレポートを生成。各LLM分析完了後にチェックポイントを取り、8件目でクラッシュしても9件目から再開可能に。ページ再取得は安価なので間引いてもよいが、LLM分析(数千トークン消費)後は省略しないのが推奨です。 📝 **承認付きワークフロー** — 請求書生成→上長承認→メール送信。承認待ちの間はワーカーを解放し、チェックポイントの状態だけを維持。承認応答が来たら別のワーカーがチェックポイントから再開します。メール送信前には冪等キーも記録し、二重送信を防ぎます。 💬 **軽量チャット補助エージェント** — 可逆性が高くやり直しが容易なケース。チェックポイントは副作用操作(メッセージ投稿)の前後のみに絞り、LLM応答のチェックポイントは省略してレイテンシを優先します。 🔑 鉄則: 「副作用の直前で必ずチェックポイント」これだけ守れば最悪の事態(二重実行による不可逆な損害)を防げます。逆にこれを省略すると、他のチェックポイントをどれだけ取っていても安全性が崩壊します。再開時は冪等キーでツールを保護することもお忘れなく。 #AIエージェント# #ソフトウェアアーキテクチャ#
もっと見る
「CI/CDのYAML、もう手で書きたくない」——その願いを叶えにきた研究です⚙️ 自然言語の説明から、リポジトリに合ったパイプラインを自動生成します。 タイトル: AutoPipelineAI: Context-Aware CI/CD Pipeline Generation from Natural Language URL: ⚙️ 概要 本研究は、自然言語の説明からCI/CDパイプライン構成を自動生成するシステム「AutoPipelineAI」を提案しています。LLMを活用し、リポジトリの構造を解析したうえで、GitHub ActionsやGitLab CI/CD向けのプラットフォーム固有スクリプトを生成し、検証とフィードバックで品質を担保します。 ❓ 解決する課題 現代の開発では、テストやデプロイを自動化するCI/CDパイプラインが欠かせませんが、その設定は難しく時間のかかる作業です。 ・GitHub ActionsやGitLab CI/CDなど、プラットフォームごとに異なる構文を理解する必要があります ・その複雑さが設定ミスや生産性の低下を招きます ・特にDevOps経験の浅い開発者にとっては、大きな参入障壁になっていました 💡 方法論と提案手法 AutoPipelineAIは、3つの主要コンポーネントで構成されます。 ・リポジトリ認識型の解析:プロジェクト構造を分析し、どんな言語・依存・構成かという文脈を理解します ・LLMによる変換:開発者の自然言語による意図を、対象プラットフォーム固有の構成へ翻訳します ・自動検証とフィードバック:生成したパイプラインの正確さと使いやすさを確認し、必要に応じて修正します 単に文章をYAMLに変換するのではなく、リポジトリの文脈を取り込んでターゲット環境に合った構成を作る点が「Context-Aware(文脈認識)」たる所以です。 🌍 ユースケース / 実験結果 評価は、実務に直結する観点で行われました。 ・precision(精度)指標 ・構成の妥当性(configuration validity) ・手作業に対する労力削減(effort reduction) これらを通じて、「リポジトリ認識・自然言語駆動のCI/CD生成が、実用的で有望なパラダイムである」という初期的な証拠が示されました。DevOps専任がいない小規模チームのオンボーディングコストを下げる効果が期待されます。 #CICD# #DevOps#
もっと見る
「1文字ずつ」しか喋れないAIは、もう古いのかもしれません🌀 画像生成で大成功した拡散モデルを、ついに言語生成へ持ち込んだ研究が登場しました。 タイトル: dLLM: Simple Diffusion Language Modeling URL: 🌀 概要 本研究は、画像生成でおなじみの「拡散モデル」の考え方を、言語モデリングに応用したフレームワーク「dLLM」を提案しています。テキストを左から右へ順番に作るのではなく、ノイズ(マスク)まみれの状態から、複数ステップをかけて文章全体を少しずつ整えていく「反復的な精緻化」によって生成します。名前のとおり、複雑な仕掛けを足さずに、できる限りシンプルに実現することを重視しているのが特徴です。 ❓ 解決する課題 現在のLLMの主流は、トークンを1つずつ予測していく「自己回帰(Autoregressive)」方式です。しかしこの方式には弱点があります。 ・逐次生成のため本質的に並列化しにくく、長文ほど生成が遅くなりがちです ・一度書いたトークンを後から推敲・修正する仕組みがなく、全体を見渡して整えるのが苦手です 拡散ベースの生成は、これらの制約を別の角度から解きほぐす可能性を持っています。 💡 方法論と提案手法 dLLMは、言語生成を「離散拡散(Discrete Diffusion)プロセス」として定式化し直します。 ・マスクされた、あるいはノイズの乗ったトークンからスタートします ・複数ステップにわたって段階的にアンマスク(デノイズ)し、クリーンな系列へ復元します ・破損した入力から正しいトークンを予測するよう、ニューラルネットワークを訓練します ・複数トークンを同時に生成できる「並列デコーディング」に対応します 新規の特殊なネットワークを設計するのではなく、既存のTransformerにそのまま載せられる点が実装上の大きな利点です。 🌍 ユースケース / 実験結果 複数のモデル規模・系統で有効性が確認されました。 ・エンコーダ系:ModernBERTを拡散方式で訓練し、分類ベンチマークで競争力ある結果を達成 ・デコーダ系:QwenやLlamaをベースにした拡散モデルでも、言語理解タスクで実用的な性能を確認 ・並列デコーディングにより、標準的な自己回帰方式より高速な推論を実現 ・0.6Bから、より大きなパラメータ領域まで一貫して有効性を確認 高速応答が求められるチャットや、推論コストを抑えたい大規模サービスでの活用が期待されます。 #拡散モデル# #LLM#
もっと見る
🌐 強いAIエージェントを作る鍵は、実は「エージェントが動く環境の設計」かもしれません。環境エンジニアリングという視点を体系化した、全63ページのサーベイです。 タイトル: Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application URL: 📝 概要 LLMエージェントは単独でなく、相互作用する「環境」の中で動きます。本サーベイは、その環境そのものを工学的に設計・構築する「環境エンジニアリング」という観点から、研究の全体像を体系化しています。 ❓ 解決する課題 これまで「環境の作り方」は断片的に語られてきました。エージェント能力の向上が良い環境設計に大きく依存するにもかかわらず、それを統一的に整理する枠組みがなかったのです。 💡 方法論と提案手法 環境を開発ライフサイクルに沿って4つの柱で分類します。 ・環境モデリング:代表的な環境の特徴づけとコア能力の評価 ・環境合成:シンボリック合成とニューラル合成の2パラダイム ・環境評価:合成パラダイムに整合したドメイン固有の評価 ・環境応用:記憶中心・ワークフロー中心・軌跡中心・探索中心という、エージェントと環境の共進化4経路 🎯 ユースケース エージェント研究者が自分の取り組みを地図上に位置づけ、抜けている観点を見つける指針になります。環境合成・評価・自己進化の設計を考える際の出発点としても有用です。 📊 トレンドと展望 ・進化のアプローチを、ニューラル駆動・難易度駆動・スケーリング駆動の3系統で整理しています ・8つの属性と8つの応用ドメインを軸に分析しています ・今後の方向性として、Environment-as-a-Service、マルチエージェント、ニューラル・シンボリック統合を挙げています #AIエージェント# #LLM#
もっと見る
# Codexの機能と実践的な使い方 🚀 「コードを書くすべての場所に、ひとつのエージェントを」。OpenAI Codexは、生成から理解・レビュー・デバッグまでを丸ごと任せられるAIコーディングエージェントです。 🏷️ タイトル: Codex 基礎 🔗 URL: 📘 概要 Codexは、ソフトウェア開発のためにOpenAIが提供するAIコーディングエージェントです。単なるコード補完ではなく、既存のプロジェクト構成や規約を読み取りながら、自律的にタスクを進めてくれます。ChatGPTのPlus/Pro/Business/Edu/Enterpriseプランに組み込まれています。 ⚙️ 機能の説明 Codexの中心となる能力は大きく5つです。 ・コード生成: 「何を作りたいか」を伝えると、既存の構成や命名規約に合わせてコードを書きます。 ・コードベース理解: 複雑なコードやレガシーコードを読み解き、システムの構造を説明します。 ・コードレビュー: バグ・ロジックの誤り・未処理のエッジケースを洗い出します。 ・デバッグ: 失敗を追跡し、根本原因を診断して、的を絞った修正を提案します。 ・反復作業の自動化: リファクタリング・テスト・マイグレーション・セットアップを代行します。 これらを安全に動かすために、サンドボックスによる実行境界と承認ポリシーという仕組みが土台にあります。 🛠️ 実践的な使い方 Codexは「コードを書くあらゆる場所」で動くのが特徴で、複数の入口が用意されています。 ・CLI: ターミナルで `codex` を起動して対話的に作業 ・IDE拡張: エディタ内からそのまま委任 ・Web / クラウド: ローカルに無いリポジトリのタスクを並列実行 ・GitHub連携: PRに `@/codex review` でレビューを依頼 ・Slack連携: スレッドで `@/codex` にメンションしてタスク起動 まずはCLIで `npm i -g @/openai/codex` から始め、慣れてきたらGitHubやSlackに広げるのが王道です。 💡 ユースケース 未知のリポジトリに参加した初日に「このプロジェクトについて教えて」と尋ねて全体像をつかむ、レビュー前にバグを先に潰してもらう、退屈な一括リファクタリングを丸ごと委任する、といった使い方が現実的です。人間は方針決定とレビューに集中できます。 ⚠️ 注意点 Codexはファイルの読み書きやコマンド実行を伴う自律エージェントです。タスクの前後でGitのチェックポイント(コミット)を作っておくと、いつでも安全に巻き戻せます。認証はChatGPTアカウントが推奨で、APIキー認証では一部機能が制限される場合があります。 #OpenAICodex# #AIコーディング#
もっと見る
便利だけど知られていないGemini APIの機能 🖥️ 「この画面を見て、ここをクリックして」ができるAI。ブラウザ操作の自動化が変わります。 Geminiの「コンピュータ使用(Computer Use)」は、画面を見てマウスやキーボードを操作するエージェント機能です。UIテストやWeb操作タスクの自動化に新しい可能性を開きます。 📌 タイトル:コンピュータ使用(Computer Use) 🔗 URL: 🧩 概要 従来のUI自動化はDOM構造やセレクタに依存しており、UIが変わると壊れやすいのが難点でした。Computer Useは画面のスクリーンショットを「見て」理解し、クリックやタイプなどの操作を指示できるエージェント機能です。人間がブラウザを操作するのと同じように、視覚ベースでUIを操作できます。 🛠 使い方 スクリーンショットをGeminiに渡し、実行したいタスクを自然言語で指示します。Geminiが画面上のどこをクリック/入力すべきかを判断し、操作アクションを返します。それをブラウザ自動化ツール(Playwright等)と連携して実行する流れです。 🏗 本番システムへの組み込み方 ・E2Eテスト自動化:「ログインして商品をカートに入れて決済まで進めて」のような複雑なフローを自然言語で記述。UIの変更に強いテストに。 ・RPA的業務自動化:社内システムのフォーム入力やデータ転記を、画面を見ながら自動実行。APIがないレガシーシステムにも対応。 ・Web操作エージェント:「この比較サイトで最安値を調べて」のようなタスクを画面操作で完遂。 ・アクセシビリティ検証:画面を視覚的に解釈して、操作性の問題を検出するテストツールに。 💡 ユースケース 🧪 視覚ベースのE2Eテスト自動化 🤖 APIのないシステムのRPA的自動化 🌐 Webブラウジング・情報収集エージェント ♿ アクセシビリティの自動検証 ⚠️ 注意点 画面の解釈に基づくため、操作の正確性は100%ではありません。重要な操作(決済、削除等)には人間の確認ステップを挟むべきです。また、レイテンシが大きめなので、高速な連続操作には不向き。セキュリティ面でも、操作対象のシステムへのアクセス権限管理に注意が必要です。 ✨ 「APIがないからLLMで自動化できない」は過去の話。画面を見て操作するエージェントの世界を、まずは簡単なタスクから試してみてください。 #Gemini# #LLM#
もっと見る
# Claude Agent SDKの便利で実践的な使い方 💬 エージェントとの会話を継続・再開・分岐させて、複雑なタスクをマルチターンで進められます。 セッション管理は、`continue`・`resume`・`fork` で会話の継続・再開・分岐を実現し、コンテキストを維持したマルチターン対話を可能にする機能です。 📌 タイトル:セッションの操作 🔗 URL: 🧩 概要 セッションにより会話の文脈が保持されます。Python は `ClaudeSDKClient`(セッション ID 自動管理)、TypeScript は `continue: true` でマルチターンを実現します。`resume` で中断したセッションを再開、`fork_session` で履歴を分岐して代替案を探索できます。 🛠 使い方 ```python # 再開 options = ClaudeAgentOptions(resume=session_id) # 分岐 options = ClaudeAgentOptions(fork_session=True) ``` 🏗 実践的な使い方 ・「認証モジュールを分析して」→「JWT 化してリファクタして」と文脈を引き継ぐマルチターン対話を構築します。 ・`error_max_turns` で終了したセッションを `resume` でより高い上限で再開し、続きから実行します。 ・`fork_session=True` で元セッション(JWT 路線)を壊さず OAuth2 路線を別ブランチで探索。2つの独立した履歴を保持します。 ・`list_sessions` / `get_session_messages` / `rename_session` でセッションピッカー UI やクリーンアップ処理を構築します。 💡 ユースケース 🔄 制限到達後のセッション再開による継続実行 🌿 fork による代替アプローチの並行探索 🗂 セッション一覧 UI の構築 ⚠️ 注意点 セッションは `~/.claude/projects//.jsonl` に保存されます。ホスト間での再開には `cwd` の一致が必要です。サブエージェントのトランスクリプトはメイン会話と独立して永続化されます。 #ClaudeAgentSDK# #AI#
もっと見る
🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。 タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題 従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法 ・課題を視覚のみのPOMDP(部分観測マルコフ決定過程)として定式化します ・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません ・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します ・屋内(AI2-THOR、ProcTHOR、VirtualHome)、屋外(CARLA、EmbodiedCity)、デジタルゲーム(Block3D、Snake3D、ルービックキューブ)の8バックエンドを統合します ・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します ・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース 家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果 ・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました ・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました ・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました ・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました ・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#
もっと見る
AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬 タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence URL: 🔬 概要 単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。 ❓ 解決する課題 難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。 💡 方法論と提案手法 ・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動 ・共有レポートプールで並列探索の結果を集約(遅いタスクを待たない) ・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当 ・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます ・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調 📊 実験結果 ・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1 ・FrontierScience-Research 46.7(競合+8)/ SuperChem 74.2(次点+12) ・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ ・オープン版4B-SFTが30B級のOSSモデルを上回る #AIエージェント# #DeepResearch#
もっと見る
🔄Loop Engineeringとはなにか? もう「AIにプロンプトを打つ」作業は終わりにしませんか?これからは、エージェントを自律的に回す仕組みそのものを設計する時代です。AIコーディングのパラダイムシフトの正体に迫ります。 💡 1. プロンプトからシステム設計への転換 従来のAIコーディング(AI-assisted Coding)は、人間がループの「中心」にいました。 👨‍💻 これまでのアプローチ: 人間がコンテキストを考え、プロンプトを打ち、AIの出力を読み、手元でテストを実行し、エラーが出たら再度プロンプトを打つ。AIは「高機能な関数」や「道具」であり、制御の主体は常に人間です。 🔄 ループエンジニアリング: 人間はループの「外側」に出て、システム全体のデザイナー(作者)になります。仕事の検知、AIへのコンテキスト注入、出力の自動テスト、進捗の記録、次のステップの判断という一連のライフサイクルを小さなプログラムに実行させます。 ここで重要なのは、AIモデルがシステムにおける「サブルーチン(部品)」へと降格し、代わりに環境(テストスイートやリポジトリの状態)からのフィードバックをループ処理する構造へ進化したという点です。 ⚙️ 2. ループを駆動する5つのコアコンポーネント+1つの記憶 抽象的な概念を動くシステムに落とし込むため、ループは以下のコンポーネントに分解されて設計されます。 ① ⚡ 自動化(Automations) ループの心臓部であり、発火トリガーと停止条件を定義します。 ツール(Claude CodeやCodexなど)では、単に定期実行する /loop だけでなく、明確な終了条件(例:「すべてのテストがパスするまで」)を満たすまでAIを回し続ける /goal コマンドなどがこれに該当します。条件が達成されるか、ハードストップ(予算や上限回数)に達するまで回り続けます。 ② 🌳 ワークツリー(Worktrees) 複数のAIエージェントが並列で動く場合、同じディレクトリで作業するとファイルの衝突(コンフリクト)が発生します。これを防ぐため、Gitの worktree 機能を使い、エージェントごとに独立した作業ディレクトリとブランチを隔離して自動生成します。機械的な衝突を回避し、並列性を担保する基盤です。 ③ 🧠 スキル(Skills) リポジトリのルールやコンテキストをカプセル化したものです。 通常、AIは実行ごとに前回の文脈を忘れますが、SKILL.md のようなファイルに「このプロジェクトのビルド手順」「命名規則」「過去の障害から得た注意点」を明文化しておくことで、AIは毎実行時にそれを読み込み、プロジェクト固有のシニアエンジニアのような振る舞いを固定化できます。 ④ 🔌 プラグイン/コネクタ(Connectors) filesystem(ローカルファイル)しか見えないAIを、本物の開発環境につなぐ架け橋です。 Model Context Protocol(MCP)などをベースに、GitHub(PR作成やIssue取得)、Linear/Jira(チケット更新)、Slack(人間への通知)、Sentry(エラーログの取得)と接続します。これにより、AIが「修正案を出す」だけでなく「Issueを読んで、コードを直し、PRを送り、Slackに報告する」というエンドツーエンドの行動が可能になります。 ⑤ 🤖 サブエージェント(Sub-agents) 役割を分担された独立したAIインスタンスです。「コードを書く役割(Maker)」と「コードを検証・レビューする役割(Checker)」を完全に分離します。 ➕ 💾 記憶:状態ファイル(State File) 地味ですが、ループの成否を分ける最も重要な要素です。STATE.md やJSONファイル、あるいは外部のチケット管理システムに「現在どのブランチが進行中で、何が完了し、次に何をすべきか」を永続化します。「エージェントは忘れるが、リポジトリは忘れない」という原則に従い、昨日の続きを今日のループが再開できるようにします。 🕰️ 3. なぜ「ただのcron(定期実行)」ではないのか? 懐疑派から「1975年に発明されたcronジョブのリブランド(名前の付け替え)に過ぎないのではないか」という指摘があります。これは半分正解で、半分は間違いです。 スケジュールやトリガーのレイヤーは確かにcronそのものです。しかし、従来のcronは「固定されたスクリプトを機械的に実行するだけ」でした。 ループエンジニアリングが異なるのは、ループの真ん中に「状況を動的に判断する意思決定者(LLM)」がいる点です。 テストが落ちたとき、どのファイルをどう修正すべきか、コンテキストをどう組み立て直すかという分岐は、ハードコードされた if/else ではなく、AIの推論によって動的に決定されます。工学的な面白さは、この「崖から落ちるかもしれない不確実な意思決定者」の周りを、いかに硬牢な自動テストやガードレールで固めるかというシステムデザインにあります。 ⚠️ 4. コストと運用リスクの現実 熱狂的な議論で無視されがちなのが、経済性とセキュリティの現実です。 💸 膨大なトークン消費(コスト) コード生成自体は安価になりましたが、ループを回すと「コンテキストの再読み込み」「リトライの繰り返し」「探索パターンの実行」により、トークン消費量が爆発的に増加します。 実際に、米Uberではエンジニア1人あたり月1,500ドルの上限を設けたにもかかわらず、年間のAI予算をわずか4ヶ月で使い切った事例があります。「最大反復回数」「金額上限」「進捗ゼロ検知による強制終了」の3つのガードレール(ハードストップ)の設計が不可欠です。 🛡️ 攻撃面の拡大(セキュリティ) 無人で動くループは、無人で動く攻撃面(アタックサフェース)になります。AIコーディングツールに起因するCVE(脆弱性)が多数確認されており、コマンドインジェクションやSSRF、XSSのリスクがあります。また、外部から取り込んだ「スキル」の説明文がプロンプトインジェクションの経路になり、デバッグログ経由で認証情報(資格情報)が漏洩するケースも監査で報告されています。 🧩 理解の負債(Comprehension Debt) AIが高速でコードを書き、テストが通ってマージされ続けると、リポジトリ内のコードベースと「人間の理解度」の距離がどんどん離れていきます。これを「理解の負債」と呼びます。最も高くつくのはトークンの請求書ではなく、「チームの誰も読んだことがなく、構造を理解していないシステム」をある日突然人間がデバッグしなければならなくなるコストです。 🛠️ 5. 実践:4条件テストと最小実用ループ(MVL)の構築 ループエンジニアリングを実務に導入する際は、厳格な仕分けとステップが必要です。 📋 導入のための4条件テスト 1. タスクが繰り返されるか?(週1回未満なら、手動プロンプトや使い捨てスクリプトの方が早い) 2. 検証が完全に自動化されているか?(テスト、型チェック、Linter、ビルドが悪い出力を100%機械的に弾けるか。これがないと人間がレビューの椅子に縛り付けられる) 3. トークン予算が無駄を吸収できるか?(従量課金で予算に余裕がない場合は無謀) 4. エージェントが環境を操作する道具を持っているか?(ログ確認や再現環境など) 🚀 最小実用ループ(MVL)から始める手順 最初から複雑なマルチエージェントを組むとシステムは確実に崩壊します。以下の順番でボトムアップに構築します。 1. 手動実行の確実化: 1回の手動プロンプトと環境操作で、タスクが完全に完了することを確認する。 2. スキルの文書化: その際のコンテキストや制約を SKILL.md にまとめる。 3. ループのラップとゲート配置: AIが書いたものを自動テスト(ゲート)にかけ、失敗したらAIに戻すという1サイクルを組む。 4. スケジューリング: 最後にそれをcronやイベントトリガーで自動化する。 🎯 レバレッジの支点は「コードを書くこと」から「コードを書く仕組みを定義し、検証すること」へ移動しました。人間は、AIが自分の宿題を甘く採点しないよう、冷徹な「検証ゲート」を設計するエンジニアであり続ける必要があります。
もっと見る