Retrieval を X で検索 — Twitter ブラウザ

1hours ago

RAGの「精度を上げると遅くなる」ジレンマに、トピックを“方位磁針”として使う発想で挑む研究です🧭 タイトル: MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval URL: 🧭 概要トピックレベルのシグナルを「意味的なコンパス」として使い、関連する根拠を段落（パラグラフ）レベルで選び出す、メタデータ誘導型の検索フレームワークです。精度と効率を同時に高めることを狙います。 ❓ 解決する課題 RAGには、検索の精度と効率のトレードオフがあります。・細かいチャンクは精度が上がるが、候補が増えてレイテンシとコストが増大します・大きいチャンクは候補が減るが、複数トピックの混在で意味的ノイズが生まれます特に大規模データへの高速・高精度検索が要るディープリサーチで顕著です。 💡 方法論と提案手法・チャンクの表現を、同一の埋め込み空間内でトピックメタデータによって強化します・LLM教師蒸留で、軽量なリトリーバーを訓練します・これにより、推論時に追加のLLM呼び出しなしで「トピックを意識した検索」を実現しますメタデータと密な埋め込みを組み合わせ、軽量リトリーバーに蒸留するのが核心です。 📊 実験結果・情報効率：6つのベンチマークで平均8.24%改善・レイテンシ：最も強力な効率重視RAGベースラインより5倍以上低い・コードは公開リポジトリで提供推論時の追加LLM呼び出しなしで、この精度と速度を両立しています。 #RAG# #検索#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.18 02:55

# AIエージェントをソフトウェアに組み込むプラクティス # コンテキスト予算配分 🎯 「全部入れれば精度が上がる」は幻想です。コンテキストウィンドウは有限の予算として管理しましょう。スロットごとに配分比率を決め、信号密度を最大化するパターンです。 🔥 解決する課題 RAGやメモリを使うエージェントでは、検索結果・会話履歴・システム指示・長期メモリが同じコンテキストウィンドウを奪い合います。情報を詰め込むほどコストは増え、会話が長くなるとシステム指示の割合が縮んで振る舞いが劣化します。さらに"Lost in the Middle"問題により、窓の中盤に置かれた重要な情報が実質的に無視されてしまいます。 💡 提案パターンコンテキストウィンドウをシステム指示・検索結果・会話履歴・メモリなどのスロットに分け、各スロットに最大占有率と優先度を設定します。システム指示は圧縮対象外の固定枠（10〜20%）として先に確保し、検索結果はリランク後にtop-k件に絞り、履歴は窓使用率が閾値を超えたら要約圧縮します。配置順序はLost in the Middle対策として、最重要情報を先頭に、直近入力を末尾に置きます。cost_sensitivityが高い環境ほどtop-kを絞り、圧縮閾値を下げ、履歴を短く保ちます。 ✅ 選定条件使うとき： - RAGやメモリを使い、投入候補がモデル窓サイズの50%を超えうる - コスト感度が中以上で、投入トークンの増加がコストや推論時間に影響する - 複数ターンの会話で履歴が蓄積し、他の情報のスペースを圧迫する使わないとき： - 投入情報がシステム指示＋単発入力のみで窓の30%未満に収まる場合 - ロングコンテキストモデルを使い投入量が窓の20%未満、かつコスト感度が低い場合 ⚠️ 落とし穴 - システム指示を圧縮対象にしてはいけません。ツール定義や安全指示が削られると振る舞いが壊れます - リランクなしのtop-kは信号密度が低いです。ベクトル検索上位20件からクロスエンコーダで3〜8件に絞りましょう - 要約圧縮は非可逆です。重要な決定事項や固有名詞が落ちるリスクがあるため、キーワード抽出を併用してください 🔧 実装方針 - コンテキストウィンドウをスロット（system/user/retrieval/history/memory）に分割し、各スロットに最大占有率・優先度・圧縮可否を定義した構造体で管理します - システム指示は圧縮対象外の最高優先度として先に確保し、残りの予算を他スロットに優先度降順で配分します - 検索結果はベクトル検索の上位候補をクロスエンコーダでリランクしてから予算内に収め、信号密度を最大化します - 履歴スロットが予算を超過した場合は要約圧縮を適用し、圧縮前にキーワード抽出して重要情報の欠落を防ぎます #AIエージェント# #ソフトウェアアーキテクチャ#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.16 21:38

🧠 「記憶は検索されるのではなく、再構成される」——LLMエージェントのメモリを、一度きりの検索から推論しながら掘り進む方式に作り変えた研究がICML 2026に採択されました。タイトル: Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents URL: 🧠 概要提案手法MRAgentは、連想記憶グラフと「能動的再構成メカニズム」を組み合わせたLLMエージェントのメモリ手法です。LLMの推論をメモリアクセスそのものに組み込み、推論中に見えてきた証拠をもとに検索パスを反復的に探索していきます。 ❓ 解決する課題既存のメモリ拡張エージェントの多くは「まず検索→次に推論」という固定パイプラインでした。・最初のクエリだけで一度きりに取り出すため、推論の途中で重要だと分かった手がかりを使い直せない・長い対話履歴から多段で証拠をたどる質問に弱い 💡 方法論と提案手法メモリをCue（手がかり）・Tag（意味的な橋渡し）・Content（内容）の3種ノードを持つグラフで表現します。・まず関連するTagを選び、次にCueとTagの両方を条件にContentを取得する2段階検索・「どの方向に探すか」と「何を取り出すか」を分離し、組合せ爆発を回避・推論中の状態を保持し、新たな手がかり（例:「7月」という時間軸）を発見して未到達の証拠まで辿れる 🎯 ユースケース長期記憶が必要な対話エージェントや、複数セッションをまたいで事実を組み合わせるアシスタントに有効です。十分な証拠が集まったとLLM自身が判断して探索を打ち切るため、無駄な検索も抑えられます。 📊 実験結果・LoCoMoでGeminiのスコアが68.31%→84.21%（相対+23.3%）、Claudeで75.88%→90.19% ・LongMemEvalで53.01%→72.95%（相対+37.6%）。マルチホップや時間推論で特に強い・トークン消費は118kとベースライン（245k〜3,268k）より大幅に少なく、性能と低コストを両立 #LLMエージェント# #メモリ#

0

コミュニティへ転送