小型モデルを X で検索 — Twitter ブラウザ

2026.06.15 22:29

「大きいほど良い」はもう常識ではないのかもしれません。小さなモデルを、訓練の自動化だけでフロンティア級に引き上げようという挑戦です🔬 タイトル: Tiny AutoScientist: Supersized Intelligence for Small Models URL: 🔬 概要 Tiny AutoScientistは、0.8B〜8Bといった本番でよく使われる小さなモデルの、訓練とアライメントのプロセス全体を自動化する自動研究システムです。小さなモデルでも、フロンティア級の品質で動くようにすることを目指します。 ❓ 解決する課題実運用では、レイテンシ・コスト・デバイス制約から、小さなモデルを使いたい場面が多くあります。・しかし小さなモデルの訓練は、ハイパーパラメータに敏感で、過学習に陥りやすく、扱いが難しいです・そのため、「制約に収まる小さなモデル」か「十分な能力を持つ大きなモデル」かの、つらい二者択一を迫られがちでした 💡 方法論と仕組み・データと、モデル訓練のレシピを自動で共最適化（co-optimize）します・品質が目標に収束するまで、両者を自己改善し続けます・これまでフロンティアAIラボだけが回せていた研究開発のループ全体を自動化し、小さなモデル訓練につきまとうハイパーパラメータ感度や過学習の課題を引き受けます 📊 実験結果 / 実績・人間が設定した訓練に対し、相対で35%の改善を達成しました・5,000〜100,000サンプルのデータセットサイズにわたって一貫した向上を示しました・複数のモデルアーキテクチャで機能します・フロンティア級の性能を、数ヶ月ではなく数日で提供します 🌍 ユースケースエッジでのデプロイ、オンデバイス推論、レイテンシに厳しいアプリ、データの境界が厳格な規制業界など、これまで現実的でなかった用途を解放します。小型モデルの訓練はハイパラ調整が職人芸になりがちなので、それを自動化して人手設定を上回れるのは、実務的に大きな意味があります。 #小型モデル# #AutoML#

0

1

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 11:35

製造業のAI活用、つまずきの本当の原因は「目（視覚）」ではなく「知識」でした🏭 18種類の最先端モデルを徹底検証して、その事実を突き止めた研究です。タイトル: FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios URL: 🏭 概要本研究は、製造現場でマルチモーダルLLM（MLLM）がどこまで実用に耐えるかを、厳密に測るための評価フレームワーク「FORGE」を提案しています。2D画像と3D点群（point cloud）を組み合わせ、型番などの細かいドメイン情報を付与した高品質なデータセットを構築し、18種類の最先端MLLMを横断的に評価しました。 ❓ 解決する課題製造業はAI活用を急速に進めていますが、その性能を正しく測る基盤が追いついていませんでした。・製造現場の高品質なマルチモーダルデータ（実機画像や3D形状）は希少で、評価用データが不足しています・既存データセットは、型番・構造的な欠陥・組立の正誤といった製造特有の細粒度な意味情報を欠いていますそのため、現行のMLLM評価は実際の製造業の要求を反映できていませんでした。 💡 方法論と提案手法 FORGEは、現実的な条件で能力を測るために設計されています。・実世界の2D画像と3D点群を含む高品質なマルチモーダルデータで構成します・正確な型番を含む、製造特有の細粒度ドメイン意味アノテーションを付与します・評価する中核タスクは3つです・ワークピース検証（対象部品が正しいものか）・構造表面検査（表面の欠陥や状態の確認）・組立検証（組み付けが正しく行われているか） 🌍 ユースケース / 実験結果検証から、実務に直結する重要な知見が得られました。・評価したMLLM群の間で、性能に大きなギャップが存在することが判明しました・従来の想定に反し、視覚的グラウンディング（画像中の対象を特定する力）はボトルネックの本質ではありませんでした・真のボトルネックは「ドメイン固有知識の不足」であると結論づけられました・この知見を裏付けるように、コンパクトな3Bパラメータのモデルを教師ありファインチューニングしたところ、未知の製造シナリオで最大90.8%の相対精度改善を達成しました巨大な汎用モデルに頼るより、小型モデルを自社の現場データで鍛える方が、検査や品質管理で現実的な解になり得ます。 #製造業AI# #MLLM#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 21:36

毎日数十億トークンのトレースを、フロンティアLLMで評価するのはコスト的に無理がありました💸 小型オープンモデルのファインチューニングで、同等精度を10〜100倍安く実現した事例です。タイトル: Building a 100x Cheaper Trace Judge with Fireworks URL: 💸 概要 LangChain LabsがFireworksと連携し、エージェントのトレースに対する「Perceived Error（知覚されたエラー）」検出器を構築した事例です。ユーザーが「間違い」や「修正が必要」と感じたケースを、小型のオープンモデルで検出します。 ❓ 解決する課題 LangSmithは本番トレースを通じて日次で数十億トークンを処理しています。・これらをフロンティアの大規模LLMで評価すると、規模が大きすぎてコストが非現実的になります・「フロンティア級の性能を保ちつつ、全トレースから重要なシグナルをコスト効率よく抽出できるか」が問いでした 💡 方法論と提案手法・オープンソースのQwen-3.5-35Bを、Fireworks基盤上でLoRAによる教師ありファインチューニング（SFT）・訓練データは2つの本番データセット：chat-langchain（技術Q&A・707例）とFleet（ノーコードエージェント・727例）・「Perceived Error」を学習し、巨大なフロンティアモデルに頼らず評価をこなします 📊 実験結果・精度：ファインチューニングしたQwenがフロンティアモデルと同等以上（chat-langchainで96.1%、ドメイン横断のFleetで90.8%）・コスト：トレース量に応じてフロンティアより10〜100倍安い・転移性：chat-langchainで訓練したモデルが、再訓練なしでFleetでも全フロンティアモデルを上回る #LLM評価# #ファインチューニング#

0

コミュニティへ転送

cv usk@cv_usk

10hours ago

# Claude Agent SDKの便利で実践的な使い方 🎛 エージェントの暴走が心配ですか？ターン数・予算・努力レベルで実行を細かく制御できます。ループ実行の制御（ターン・予算・努力レベル）は、`max_turns`・`max_budget_usd`・`effort` でエージェントの実行範囲を制限し、コストとレイテンシを最適化する機能です。 📌 タイトル：ループの実行方法を制御する 🔗 URL： 🧩 概要 `max_turns` でツール呼び出し回数の上限、`max_budget_usd` で実行コストの上限、`effort` でモデルの思考の深さを設定します。オープンエンドな指示でも予算上限で安全に打ち切れます。 🛠 使い方 `query()` のオプションに `max_turns=30`、`max_budget_usd=1.0`、`effort="medium"` を設定します。`model="claude-sonnet-4-6"` でモデルを明示指定できます。 🏗 実践的な使い方・本番エージェントの暴走防止に `max_turns=30` と `max_budget_usd=1.0` を設定します。「このコードベースを改善して」のようなオープンエンドな指示でも安全に打ち切れます。・`effort` を `low`（ファイル検索・一覧）/ `medium`（定型編集）/ `high`（リファクタ・デバッグ）/ `xhigh`（Opus 4.7 推奨のエージェンティックコーディング）/ `max`（多段問題の深い分析）と使い分けます。・小型・高速モデルが必要なサブタスクには `model="claude-sonnet-4-6"` を明示指定し、コスト効率を上げます。 💡 ユースケース 🛡 オープンエンドなタスクの安全な予算制限 ⚡ タスク難度に応じた effort レベルの最適化 💰 サブタスクへの軽量モデル適用によるコスト削減 ⚠️ 注意点 `max_turns` を超過すると `error_max_turns` で終了します。`resume` で上限を上げて再開可能です。`effort` は `xhigh` 以上で Opus 4.7 が推奨されます。 #ClaudeAgentSDK# #AI#

0

コミュニティへ転送

乃木坂46与田祐希3rd写真集『ヨーダ』発売中【公式】@yodayuuki_3rd

2020.01.26 11:53

小型ボートでファビニャーナ島のカーラ・ロッサへ移動しています🚤風が気持ち良さそう❤︎ #与田祐希2nd写真集# 3月10日発売

0

29

6.2K

1K

コミュニティへ転送

福禄寿 UV DAO@FLS_OTC

2026.01.03 04:58

OTHERS/BTC用于量小型山寨币（指排除市值前 10 名）相对于比特币的走势表现。目前该比率达到了历史上最低的动能区域，多数分析师认为这可能是小市值山寨币的底部。而且比率历来对全球流动性和美联储政策较为敏感。历史上山寨币兑比特币的大幅上涨通常需要积极的量化宽松政策（QE）或“风险偏好”环境，恰好2026年可能会迎来这些。美联储已于2025年12月1日正式结束了量化紧缩（QT）。为了维持银行体系的充足储备，美联储目前通过公开市场操作持续买入债券，12月最后几周资产激增约455亿美元，预计2026年美联储每月将购买价值约 350亿至550亿美元的短期国债，全年累计注入流动性可能达到5500亿美元。2026年的美联储已进入资产负债表扩张与降息并行的全面宽松阶段。虽然严格意义上的量化宽松（QE）指资产负债表扩张，但美联储目前的降息举措与之形成了“组合拳”，而且5月15日鲍威尔任期结束，特朗普总统预计本月正式公布美联储主席的继任人选，无论是凯文·沃什、凯文·哈西特、克里斯托弗·沃勒，特朗普只选听自己话的，降息，除了降息还是踏马的降息。所以看到这里，接下来该怎么做？心中是否有答案？不过不是所有山寨都会价值回归，只有有价值的优质山寨才会价值回归，而且控制好自己的仓位，进可攻退可守，我们是投资，不是赌博。

0

15

21

3

コミュニティへ転送