毎日数十億トークンのトレースを、フロンティアLLMで評価するのはコスト的に無理がありました💸 小型オープンモデルのファインチューニングで、同等精度を10〜100倍安く実現した事例です。
タイトル: Building a 100x Cheaper Trace Judge with Fireworks
URL:
💸 概要
LangChain LabsがFireworksと連携し、エージェントのトレースに対する「Perceived Error(知覚されたエラー)」検出器を構築した事例です。ユーザーが「間違い」や「修正が必要」と感じたケースを、小型のオープンモデルで検出します。
❓ 解決する課題
LangSmithは本番トレースを通じて日次で数十億トークンを処理しています。
・これらをフロンティアの大規模LLMで評価すると、規模が大きすぎてコストが非現実的になります
・「フロンティア級の性能を保ちつつ、全トレースから重要なシグナルをコスト効率よく抽出できるか」が問いでした
💡 方法論と提案手法
・オープンソースのQwen-3.5-35Bを、Fireworks基盤上でLoRAによる教師ありファインチューニング(SFT)
・訓練データは2つの本番データセット:chat-langchain(技術Q&A・707例)とFleet(ノーコードエージェント・727例)
・「Perceived Error」を学習し、巨大なフロンティアモデルに頼らず評価をこなします
📊 実験結果
・精度:ファインチューニングしたQwenがフロンティアモデルと同等以上(chat-langchainで96.1%、ドメイン横断のFleetで90.8%)
・コスト:トレース量に応じてフロンティアより10〜100倍安い
・転移性:chat-langchainで訓練したモデルが、再訓練なしでFleetでも全フロンティアモデルを上回る
#
LLM評価# #
ファインチューニング#