LLMエージェントの「検索」を「推論」から切り離すと、精度はほぼ維持したまま検索コストを最大98%削減できました🔌
タイトル: Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents
URL:
🔌 概要
検索による根拠づけ(grounding)を、言語モデルの推論から切り離す手法DSGの提案です。Model Context Protocol(MCP)に準拠した独立ゲートウェイとして動作し、ベンダー非依存の中間層として機能します。
❓ 解決する課題
本番のLLMエージェントでは、リアルタイム検索がモデルプロバイダーに密結合しています。
・システムの検査・再構成・転用・移行が難しい
・検索が「Search-Induced Verbosity(検索起因の冗長化)」を招き、厳格な出力要件に違反することがある
検索と推論の一体化が、柔軟性とコストのボトルネックでした。
💡 方法論と提案手法
根拠づけを「モデルの中」ではなく「検索と生成の境界」に置きます。これまでモデルに埋め込まれていた要素を制御可能な第一級機能として公開します。
・プロバイダールーティング(検索先の選択・切り替え)
・ソースを意識したコンテキストレンダリング
・設定可能なフォールバック機構
・検索深度の管理
・厳密キャッシュとセマンティックキャッシュの両方
📊 実験結果
・SimpleQA:精度86.1%(ネイティブ検索87.7%)を保ちつつ検索コストを91%削減
・キャッシュのウォームヒット率99.4%、レイテンシ68%削減
・本番Eコマース:ネイティブ同等の精度で検索コストを98%以上削減
・一方、新しさが重要なFreshQAではネイティブ検索が優位
#
LLMエージェント# #
検索#