cv usk(@cv_usk):毎日数十億トークンのトレースを、フロンティアLLMで評価するのはコスト的に無理がありました💸 小型オープンモデルのファインチューニングで、同等精度を10〜100倍安く実現した事例です。タイトル: Building a 100x Cheaper Trace Judge with Fireworks URL: https://t.co/1TzAgpbJaU 💸 概要 LangChain LabsがFireworksと連携し、エージェントのトレースに対する「Perceived Error（知覚されたエラー）」検出器を構築した事例です。ユーザーが「間違い」や「修正が必要」と感じたケースを、小型のオープンモデルで検出します。 ❓ 解決する課題 LangSmithは本番トレースを通じて日次で数十億トークンを処理しています。・これらをフロンティアの大規模LLMで評価すると、規模が大きすぎてコストが非現実的になります・「フロンティア級の性能を保ちつつ、全トレースから重要なシグナルをコスト効率よく抽出できるか」が問いでした 💡 方法論と提案手法・オープンソースのQwen-3.5-35Bを、Fireworks基盤上でLoRAによる教師ありファインチューニング（SFT）・訓練データは2つの本番データセット：chat-langchain（技術Q&A・707例）とFleet（ノーコードエージェント・727例）・「Perceived Error」を学習し、巨大なフロンティアモデルに頼らず評価をこなします 📊 実験結果・精度：ファインチューニングしたQwenがフロンティアモデルと同等以上（chat-langchainで96.1%、ドメイン横断のFleetで90.8%）・コスト：トレース量に応じてフロンティアより10〜100倍安い・転移性：chat-langchainで訓練したモデルが、再訓練なしでFleetでも全フロンティアモデルを上回る #LLM評価 #ファインチューニング

2026.06.15 21:36

毎日数十億トークンのトレースを、フロンティアLLMで評価するのはコスト的に無理がありました💸 小型オープンモデルのファインチューニングで、同等精度を10〜100倍安く実現した事例です。タイトル: Building a 100x Cheaper Trace Judge with Fireworks URL: 💸 概要 LangChain LabsがFireworksと連携し、エージェントのトレースに対する「Perceived Error（知覚されたエラー）」検出器を構築した事例です。ユーザーが「間違い」や「修正が必要」と感じたケースを、小型のオープンモデルで検出します。 ❓ 解決する課題 LangSmithは本番トレースを通じて日次で数十億トークンを処理しています。・これらをフロンティアの大規模LLMで評価すると、規模が大きすぎてコストが非現実的になります・「フロンティア級の性能を保ちつつ、全トレースから重要なシグナルをコスト効率よく抽出できるか」が問いでした 💡 方法論と提案手法・オープンソースのQwen-3.5-35Bを、Fireworks基盤上でLoRAによる教師ありファインチューニング（SFT）・訓練データは2つの本番データセット：chat-langchain（技術Q&A・707例）とFleet（ノーコードエージェント・727例）・「Perceived Error」を学習し、巨大なフロンティアモデルに頼らず評価をこなします 📊 実験結果・精度：ファインチューニングしたQwenがフロンティアモデルと同等以上（chat-langchainで96.1%、ドメイン横断のFleetで90.8%）・コスト：トレース量に応じてフロンティアより10〜100倍安い・転移性：chat-langchainで訓練したモデルが、再訓練なしでFleetでも全フロンティアモデルを上回る #LLM評価# #ファインチューニング#

显示更多