注册并分享邀请链接,可获得视频播放与邀请奖励。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
240 正在关注    207 粉丝
毎日数十億トークンのトレースを、フロンティアLLMで評価するのはコスト的に無理がありました💸 小型オープンモデルのファインチューニングで、同等精度を10〜100倍安く実現した事例です。 タイトル: Building a 100x Cheaper Trace Judge with Fireworks URL: 💸 概要 LangChain LabsがFireworksと連携し、エージェントのトレースに対する「Perceived Error(知覚されたエラー)」検出器を構築した事例です。ユーザーが「間違い」や「修正が必要」と感じたケースを、小型のオープンモデルで検出します。 ❓ 解決する課題 LangSmithは本番トレースを通じて日次で数十億トークンを処理しています。 ・これらをフロンティアの大規模LLMで評価すると、規模が大きすぎてコストが非現実的になります ・「フロンティア級の性能を保ちつつ、全トレースから重要なシグナルをコスト効率よく抽出できるか」が問いでした 💡 方法論と提案手法 ・オープンソースのQwen-3.5-35Bを、Fireworks基盤上でLoRAによる教師ありファインチューニング(SFT) ・訓練データは2つの本番データセット:chat-langchain(技術Q&A・707例)とFleet(ノーコードエージェント・727例) ・「Perceived Error」を学習し、巨大なフロンティアモデルに頼らず評価をこなします 📊 実験結果 ・精度:ファインチューニングしたQwenがフロンティアモデルと同等以上(chat-langchainで96.1%、ドメイン横断のFleetで90.8%) ・コスト:トレース量に応じてフロンティアより10〜100倍安い ・転移性:chat-langchainで訓練したモデルが、再訓練なしでFleetでも全フロンティアモデルを上回る #LLM評価# #ファインチューニング#
显示更多