搜索 LLM解釈可能性相关的推文

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 03:27

半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（ a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。

显示更多

0

20

287

62

转发到社区

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 06:22

聚焦在现有工作上用coding Agent去解决，是一条错误道路，人类已经把能吃的红利吃差不多了，接下来就是无尽的人指令-agent执行-人指令-agent执行的iteration中逐渐迭代工作，很难把人从这种小幅度高强度反复的iteration中解放出来。因为现有codebase不仅高度复杂，而且人的大部分命令都是高度模糊、高度开放、高度自由、无法验证的命令，场景也是高度开放、高度自由、无法在containers中直接测试跑一跑，必须在真实世界中获得反馈才能继续修改工作。所以我最近半年一直坚持反复告诉大家： 1. 在现有所有大型科技互联网软硬件移动外包平台coding agent的红利很快就吃完，现有人类像唱山歌一样和claude code高强度一问一答的模式，就是短期内的最优解——像full self coding一样大量agent并行完成coding工作，不会带来更多的收益； 2. 在coding agent很快增长和红利消失的大前提下，人类如果想继续把AI Agent和multi agent的红利吃干抹净，必须持续找到有价值的新领域、新方向、新问题： A. 同时满足问题定义简单干净、环境封闭、非常非常易于verify、问题解决方案搜索空间巨大的复杂问题，让goal-driven( 前提是易于verify，必须用很低的成本去verify最终输出是否正确，保持持续验证这个criteria，给予正确的反馈和无限工作循环的核心条件，直到完整完成工作； B. 能够把multi agent的并行度吃干抹净，一次性1000个agent大批量初始化和启动，在一些setup中持续活跃，保持multi agent的可观测性，除了openclaw时代就臭大街的各种爬虫以外，还有行为经济学、社会学、心理学、教育学、法学等等大规模试验，不由分说充足token，先初始化1000个agent模拟跑几天，观察一些初步结论； C. 就像我半年前说的价值10万刀的策略：把一切人类社会中遇到的所有问题，整理成文档、表格、图片、文字、structured data，让一些富有经验、富有memory的coding agent（就是claude code和codex本人）进行一步步解决，你始终要明白，现阶段的头部coding agent已经足够复杂、足够高级、机制足够完善，AI Agent已经经历了4~5轮工业革命，完善到整个industry其他任何生态和框架继续手搓的任何agent都像一个玩具，只要一个claude code/codex一个文件夹+一个docker/kubernete，就是未来一切企业和流程中的general agent； 3. 有一点几乎被所有人忽略，也是我近几个月意识到的问题。在经典deep learning时代，一些产业对于经典neural network和baysian model有天然的不信任感和敌意，他们会非常激进、偏执地要求一切machine learning的模型尽可能地跟随可解释性、AI伦理、因果推断等等方向。在AI Agent时代，越是激进使用的人，越是对AI Agent产出的代码、报告、分析、数据、结论产生严重的怀疑，因此不只是GPT model需要superalignment，LLM Agent本身更需要superalignment，在Agent时代，superalignment的重要性会越来越高，而且AI Agent产出和workflow的可解释性需求也会越来越高，最最基础浅表的就是各种问答chatbot的来源引用，今后其他越来越复杂的工作，包括coding本身，都会有可解释性的大量问题涌现，一种方式是尽可能用formal verification或者prover的形式来自动化验证，一种是用agentical的验证方式，就像人一样去用一个或者多个agent来反复review和challenge一项工作； 4. 还有一点很多人没想到，就是AI Agent会对人施加反过来的影响。比如office出现后，普通人要求用office三件套来完成工作，office重塑了人类办公的基本流程和规范，比如出现了google之后的早期，普通人要学会正确输入搜索关键词，把想问的问题拆分成正确的关键词，以获得正确query的结果（后来google反复做了优化，这个技能也逐渐不重要），比如social network出现之后，人们学会了全新的交友方式、social network的交友礼仪、聊天方式，所以在AI Agent时代，人最重要的技能，没有之一，就是如何正确使用AI Agent、挑选正确的模型、使用正确的工具、组建正确的prompt、描述正确的问题、输入充足完备的信息、如何用goal-driven去构建一套dual-agent的简单无休止infinite-loop workflow，一个不会正确定义问题、不会正确输入足够多的信息、不能让AI Agent在一个边界清晰的闭包问题中正确工作、持续工作的人，天天拿AI Agent当成无所不知的万能神、百宝箱、随机神、超人，除了问弱智问题，就是玩猜猜看、问宏大开放的无异议问题，这种人大概率会被这个时代逐渐淘汰掉。

显示更多

0

12

128

21

转发到社区

alvin617.eth 🦇🔊@Alvin0617

2026.05.12 14:09

前幾天剛好跟朋友在討論預測市場當前到底需要的是什麼，看似繁榮其實並沒有很好的讓大家都上手多數交易量肯定都是來自 bot ，而且多數人參與其實滿容易虧錢的最大的問題就是不同市場的流動性碎片化再加上介面不好用、不直覺以台灣來說甚至登入個 polymarket 都有問題，仍是最大痛點，我最常用的還是 polymarket 的 CLI 當前有兩個痛點需要被解決：更好懂的介面以及更絲滑的入金方式市面上的方案都沒有真正解決這個問題，更不要說單純的 AI 工具不管是否幣圈，AI agent 使用率都是不高的，一個重要原因是最一開始的啟動流程仍然有些複雜，只有真的動力強的少數族群才會每天用另一個更根本的原因是，主流模型從來沒有被真正為「在市場裡賺錢」而設計過，它們能提供分析結果但分析≠ 不代表真的能夠賺錢用戶本身具有交易賺錢的能力， ai agent 才能發揮得好，否則很容易只是幫我們花式虧錢 Sui 上面的 @0xbeepit 還挺有趣，這個協議是一個讓交易型 AI agent 在真實市場中競爭、篩選、進化的系統，只保留真實市場裡活下來的策略而且除了 agent trading 還有發展其他的產品線這是當前預測市場賽道所欠缺的「有更多讓用戶資金留存的誘因」創始團隊在 PayPal 和 Walmart 等企業建構過 TradFi 系統，平均 12 年以上的開發經驗，橫跨支付、交易、區塊鏈基礎設施等 Beep 主要運作的方式有五個階段 1️⃣ 用對的工具開發策略 LLM 負責理解語言、分析情緒、提取資訊；另一種 AI 專為數字時間序列設計的模型，負責數值計算、風險判斷和交易執行 2️⃣獨家訊號 Beep 的 agent 接入獨有的數據流，包含鏈上交易元數據、預測市場訊號、訂單流微觀結構 3️⃣ 開放接入任何 agent 都可以接入、提交策略。越多參與者，接觸到的市場資訊廣度也更大，利好所有玩家 4️⃣ 嚴格篩選每個策略先用模擬資金跑，通過了才能用真實資本能穩定賺錢的策略獲得更多資金信任，跑輸的淘汰 5️⃣ 結果反哺每一筆交易的結果，都會成為模型訓練的一部分，讓系統變得更準理論上隨著時間的推進，系統會越來越強大接著是其他產品線，Beep 最新上線的 R3，是基於 Polymarket 的預測市場產品，提供兩種玩法 💡手動預測，適合想自己下單的用戶，Beep 為用戶提供 AI 洞察輔助用戶做判斷 💡全託管預測 Agent ，適合想讓 AI 全權負責的用戶，AI 全權接管，掃描市場、選題、交易、結算，全程無需人類介入我這次先丟了 1000u 來測試一下他們家的 trading agent 1️⃣ 選擇自己要用的模型（GPT5.4 , Claude Sonnet , Kimi , Groq 等） 2️⃣ 選擇要交易的市場：美股竟然也可以 , 不單純只是加密市場可以選擇 3️⃣ 除了 eth sui 之外我添加了近期火熱的 $SNDK $INTC $MU 三支股票在這些交互的過程中都是可以嚕分數的，包含創建 agent、交易量、錢包餘額等（treasury），創建 agent 的花費跟交易頻率有關，越高當然花費越多，還可以設定單次交易最高金額，使用的槓桿大小等 agent 開跑之後, 可以動態看到 agent 當時的想法下週來跟大家分享一下結果，有興趣的可以一起來玩玩：這邊記得，受邀人記得至少要充值 10 usdc 以上才可以激活 ⚠️ 地區限制，台灣的朋友們記得一樣要切換 VPN 才能使用去年年底 Sui 宣布了 The Agentic Economy is coming to Sui ，很明顯這是當前每條鏈都在積極發展的方向，Beep 是我認為值得一試的 Sui 鏈 agentic finance 項目 Beep 還支持基於 Hyperliquid 的全託管交易 agent 的創建，支持 Hyperliquid 上 Crypto + TradFi 全部 USDC 交易對對於心癢癢想追高美股的用戶來說，如果想追高又不知道怎麼設止損，讓 ai agent 根據設置的策略來參與市場也不失為是一種方式

显示更多

0

3

21

1

转发到社区

AI Dance@AI_Whisper_X

2026.05.09 04:16

翁家翌新 blog：超越梯度的学习昨天看到翁家翌（前 OpenAI 研究员）新写了一篇 blog《Learning Beyond Gradients》，挺有意思的，分享一些我读下来的感受。原文较长且偏技术，下面这版做了不少删减和重组，建议感兴趣的同学直接读原文 · · · 翁家翌：超越梯度的学习持续学习（Continual Learning）之所以一直很难，很大程度上是因为神经网络的顽疾：灾难性遗忘。那如果我们不只盯着权重更新这一条路呢？随着 LLM agent 越来越强，写代码这件事变得又快又好。但翁家翌注意到一个更有趣的现象：agent 可以反复读取失败信息、修改策略代码、添加测试、回放录像，让整套程序在不动任何网络权重的情况下持续变强。 · · · 这个视角让他重新审视了一个老朋友：heuristic，也就是手写规则和程序化策略。之前很多 heuristic 不是没用，而是维护太贵了，而coding agent 改变的正是这条维护曲线。那些曾经用完就扔的一次性补丁，开始变得值得长期拥有。凡是能被持续迭代的东西，都开始变得更可解，这也恰恰是持续学习一直追求的目标。它有没有可能成为继 pretraining → RLHF → 大规模 RL/RLVR 之后的下一个范式？ · · · 翁家翌用 Codex（gpt-5.4）做了实验，纯写规则版本，完全不碰神经网络。结果超出预期： — Atari Breakout 的打砖块分数从 387 一路升到 864，达到理论最高分； — MuJoCo 四足和跑步机器人任务中，纯 Python 策略也跑进了常见 Deep RL 结果的量级，HalfCheetah 五轮均值 11836.7； — 跑完 Atari 全部 57 个游戏后，在相同的环境交互步数下，中位数得分已经远高于 PPO 这类标准算法。这里被更新的对象早就不是单纯的策略函数了，而是一整套带着记忆、反馈入口和回归机制的软件系统。翁家翌把它叫作 Heuristic Learning（HL，启发式学习）。（我自己也做过 evolve，但不训练神经网络，纯靠规则约束，感觉系统怎么都智能不起来。其实不管 RL 还是 HL，能不能跑起来都是看一件事，优化结果的评分能不能清晰定义。） · · · Heuristic Learning（HL）是什么？HL 怎么持续学习？ HL 的核心是用 coding agent 维护一个 Heuristic System（HS）。和 Deep RL 的差异： — 反馈来源：不是 loss 函数，而是测试结果、环境奖励、日志、视频、失败模式分析； — 更新方式：不走反向传播，agent 直接改 policy、状态检测器、测试、配置或记忆结构； — 维护对象：不止一个 trace（黄金轨迹）、环境 wrapper 等。以前怎么没人搞？专家系统 70 年代就有，但人维护起来是噩梦：加一条规则修好 case A，case B 崩了；规则堆到几百条后，除了原作者没人看得懂。而 coding agent 不怕堆规则。它能同时读所有代码、跑全量测试、对比日志，把维护成本打下来。用翁的比喻说，就像纺纱机改变纺线成本曲线一样：手工纺贵得要死，机器一上来就塌掉了。 · · · Heuristic Learning 怎么做 Continual Learning 神经网络把经验压进权重，忘没忘、怎么忘的都是黑箱。HL 的历史则是显式的：版本 diff、回归测试、replay、视频、golden trace 全透明。新增能力前先固化旧能力：跑回归测试、跑固定种子回放。如果新规则破坏旧 case，agent 能直接定位到哪行代码引入的 regression。但规则叠太多、agent 自己都维护不动的时候，就需要"历史压缩"，把一堆 case-specific 的补丁合并成更通用的逻辑，否则系统迟早变成没人敢碰的代码泥球。 · · · 当然，HL 不是万能药。因为 Heuristic Learning 并不能做所有神经网络能做的事情。它的上限卡在代码的表达能力：比如复杂感知和长程泛化。翁家翌也坦率地说，他想不出有哪个 agent 能纯靠 Python、不用网络去搞定 ImageNet。所以真正的问题变成了：怎么把神经网络和 HL 结合起来，同时搞定在线学习和持续学习？最有希望的方向是：用 HL 快速处理在线数据，把在线经验变成可训练、可回归、可筛选的数据，再周期性地更新神经网络。以机器人为例，借用 System 1 / System 2 的说法，一种可能的分工是： — 专用浅层 NN 作为 System 1 的一部分：快、便宜，负责感知、分类、物体状态估计； — HL 也可以当做 System 1 的一部分：负责最新数据处理、规则、测试、回放、memory、安全边界、局部恢复； — LLM agent 作为 System 2：负责给 HL 提供反馈、改进数据，并周期性把 HL 生成的数据拿过来更新自己。 · · · Agentic coding 改变的不仅是写代码的速度，更改变了"哪些代码值得被长期拥有"。过去很多 heuristic 看上去没前途，不是它们太弱，而是维护不起。 coding agent 改变的就是这条维护成本曲线。规则、测试、日志、记忆和补丁，原来只是散落的工程材料，现在开始能组成一个持续进化的 Heuristic System，去解决在线学习和持续学习一直没搞定的事。欢迎来到下一个范式。 · so，skills + instruction following = AGI？

显示更多

0

1

171

41

转发到社区

Mercy@Mercy_okx

2026.04.30 02:29

Agent 自己报价、自己收费、自己结算的世界马上要来了？几个月前采访 Michael Wu 的时候，他提到过一个场景很打动我—— 当大量自动驾驶的车都是 Agent 驱动的资产，你拥有的不是一辆出行工具，而是一个 7×24 创造经济效应的资产。它要自主运转、按效用最大化计费、跟其他 Agent 实时结算。他说，"传统支付网络无法满足这样的各种散点支付，那个时候肯定是通过 Crypto。" OKX APP (Agent Payments Protocol) 就是在协议层让这件事成为可能。 1/ APP 最核心的洞察：Agent 做生意 ≠ Agent 转账。之前的 Agent 支付方案解决的是"怎么完成一笔付款"，但真实的商业远不止一次 transfer——报价、谈判、资金锁定、自动结算、交付验收、出了问题怎么办。 2/ 协议设计了四种方式，覆盖不同的商业形态：charge（一口价直接付）、escrow（资金托管，验收后才释放）、session（流支付通道，按用量实时扣）、upto（预授权上限，"最多花这么多"）。一个 Agent 要帮忙订酒店、雇翻译、调 LLM、找人做行程规划——四种付款方式，现在可以通过一个协议全覆盖 3/ 同时，APP 把支付载荷和传输层解耦了，即同一套签名流程可以跑在 Telegram、Discord、Slack、XMTP、甚至二维码上。Agent 在哪"社交"，就在哪完成交易 4/ "今天的打车软件和推荐算法本质已经是 Agent，只是没有自己的钱包、没有独立商业决策权，还是被公司设定好的执行层。当你给每个 Agent 一个 Wallet，让它自己计价、自己收费、自己跟别的 Agent 结算——决策主体就变了" APP 真正要解决的场景是：一个 Agent 在 TG 群里雇另一个 Agent 做翻译、按 token 流式付费、交付不满意还能走争议仲裁——全程没有人类介入。真正从零定义新经济体的商业规则 5/ 首批加入的生态伙伴包括：AWS @awscloud、Alibaba Cloud @alibaba_cloud 、Ethereum Foundation @ethereumfndn、Solana @solana 、Base @base、Sui @SuiNetwork 、Optimism @Optimism、Aptos @Aptos 、Uniswap @Uniswap 、Paxos @Paxos 、MoonPay .etc 白皮书里写道——任何团队都可以实现自己的 Broker，不依赖任何单一运营者。一个跨云、跨链、跨生态的开放标准提案😎

显示更多

0

36

62

3

转发到社区

meng shao@shao__meng

2025.11.12 12:45

新浪微博最新开源了 1.5B 参数“小模型”「VibeThinker-1.5B」，训练成本仅 7800 美元，在数学和编码等复杂推理任务上达到甚至超越大型模型的水平！背景与动机：为什么小模型能“逆袭”？ OpenAI o1 模型开启了“大型推理模型”（LRM）时代，通过强化学习和长链式思考（Long CoT），在数学定理证明、临床诊断和编程竞赛等领域接近人类专家水平。随后开源项目如 DeepSeek R1（671B）和 Kimi K2（>1T）进一步强化了“规模定律”：参数越多，推理越强。小模型被视为先天不足，无法处理高难度问题。论文作者质疑这一观点：如果从小模型入手，通过巧妙的训练策略，能否挖掘出隐藏的推理潜力？答案是肯定的。VibeThinker-1.5B 基于 Qwen2.5-Math-1.5B 基础模型，经过后训练优化，在基准测试中大幅提升——从 AIME24 数学测试的 6.7 分跃升至 80.3 分，编码基准LiveCodeBench V6 从 0 分升至 51.1 分。更惊人的是，它在多个数学挑战上小胜 DeepSeek R1，后者参数规模是它的 400 多倍。这表明，推理能力的瓶颈不在于“体型”，而在于训练范式的创新。核心创新：Spectrum-to-Signal Principle（谱-信号原理）论文提出“谱-信号原理”（SSP），这是一个重新定义监督微调（SFT）和强化学习（RL）协同的框架。传统方法视 SFT 为“准确定位最佳答案”的阶段，RL 则进一步精炼。但作者认为，这会让模型陷入单一路径的“局部最优”，限制后续探索空间。SSP 将两阶段解耦为互补角色： · 谱阶段（SFT）：探索多样性 SFT 不再追求单次生成（Pass@1）的准确率，而是优化多采样成功率（Pass@K），生成一个“丰富的光谱”——即多种潜在正确解法。这能避免模型固守狭隘模式，提升问题解决的鲁棒性和创造性。实现上采用“两阶段多样性探索蒸馏”： 1. 领域感知多样性探测：将数学领域拆分为子域（如代数、几何），为每个子域用强大 LLM 生成探测集，选出在 Pass@K 上最佳的“专家模型”。 2. 专家模型融合：通过加权平均（均匀权重）合并专家模型，形成统一 SFT 模型。这平衡了准确性和多样性，为 RL 铺平道路。 · 信号阶段（RL）：放大正确路径 RL 从 SFT 的“光谱”中挑选并强化最佳推理轨迹。作者引入“最大熵指导政策优化”（MGPO），基于群相对政策优化（GRPO）扩展。GRPO通过采样多组响应计算相对优势，避免外部价值函数的复杂性。MGPO 进一步融入最大熵原理：优先训练不确定性高的样本（准确率接近 50%，即二元分布的最大熵点），用熵偏差正则化加权优势函数。这让模型高效聚焦“高价值”问题，避免浪费计算在已掌握的简单任务上。 RL 分两子阶段：先数学推理（上下文从 16K 扩展到 32K），后编码生成，奖励函数为二元正确性。此外，论文强调数据净化：使用 10-gram 语义匹配去除训练与测试集重叠，确保成绩真实。训练数据结合开源数据集和合成数据，覆盖数学和编码领域。实验与结果：小模型的“大逻辑” 在多个基准上评估 VibeThinker-1.5B，包括数学（MATH-500、AIME24/25、HMMT25）、编码（LiveCodeBench V5/V6）和知识（GPQA-Diamond）。评估采用 vLLM 后端，多采样 Pass@1，温度 0.6（数学用 1.0）。 · 与小模型比较：VibeThinker 在子 3B 类别中拔尖，AIME25 达 74.4（Qwen3-1.7B 仅 36.8），HMMT25 达 50.4（SmolLM-3B 仅 26.0），编码 V6 达 51.1（基础模型 0.0）。 · 与大型推理模型比较：数学上小胜 DeepSeek R1（AIME24：80.3 vs. 79.8；AIME25：74.4 vs. 70.0；HMMT25：50.4 vs. 41.7），与 MiniMax-M1-456B 持平。编码稍逊 Magistral Medium（55.9 vs. 59.4）。 · 与顶级非推理模型比较：数学碾压 GPT-4.1（AIME24：80.3 vs. 46.5）和 Kimi K2（49.5），编码胜 Claude Opus 4（51.1 vs. 47.4）。但在 GPQA 知识测试上仍有差距（46.7 vs. 70-82），提示小模型在广域知识上需进一步优化。这些结果证实 SSP 的有效性：多样性驱动让小模型在推理密集任务中“以小博大”。讨论与影响：重塑 AI 格局 VibeThinker 的成功源于算法设计而非参数堆积，推理成本降至大型模型的 1/30-1/60，便于边缘部署（推理成本低 20-70 倍）。它暴露了规模定律的局限：小模型潜力被低估，尤其在数学/编码领域。但知识基准的差距表明，未来需加强广义知识注入。开源模型和技术报告：

显示更多

0

2

32

12

转发到社区

Haotian | CryptoInsight@tmel0211

2024.11.30 03:50

为什么一定不要错过此次AI Agent叙事热潮？很多人还觉得AI Agent和“AI +DePIN、AI 算力/推理聚合平台、AI MEME”一样只是短暂的一波热点。但其实我想说，它们都只是AI +Crypto融合不同阶段的显现，最终会合力驱动牛市主升浪的到来。接下来，逐点谈谈我的看法： 1）总的来说，AI+Crypto成为这轮牛市主升浪的叙事逻辑不会变，因为AGI 大模型训练和未来多模态AI行业纵深发展，对传统算力、存储、数据等“资源”需求会越来越大，这意味着AI行业会非常内卷和残酷，且垄断会不可避免，这势必会造成一部分中小企业创新需求的“外溢”。 AI会给Crypto领域带来“增量”的基本面，Crypto世界也恰恰能承接这一波溢出的资源需求。比如，LLM训练需要便宜的算力可以把闲置的资源整合到一起使用；又比如，一些医疗、供应链金融相关领域垂直化落地需要隐私，Crypto的ZK+分布式治理框架就会成为关键底层；再如，分布式推理需要很多场景化优化的算法匹配和一个能记录推理过程的激励框架，这不正是Crypto Tokenomics擅长的？所以大趋势上看，AI +Crypto一定是不可逆的必然。 2）但，AI+DePIN火了一波貌似熄火了，后来出现了很多VC下重注投资的分布式聚合算力、算法、推理等AI大项目也没能掀起多大风浪，再到前阵子GOAT等为代表的AI +MEME让大家看到了社区文化驱动下的市场新活力，紧接着自然衔接的AI Agent发币热潮又让市场看到了AI借助Crypto实现大规模应用落地的新希望。乍一看，AI叙事从DePIN到聚合算力推理服务平台再到MEME最后落地到AI Agent，似乎毫无逻辑，步步在证伪AI +Crypto的可行性？但我认为，AI+DePIN是在铺设基础infra；分布式计算/推理平台是在构建算力和算法激励网络；AI +MEME则是用二级财富效应加速AI应用的市场教育和传播；AI Agent则代表最终的应用落地和用户触达。基于此逻辑看不难发现，AI +DePIN和算力推理聚合网络要构建的AI+Crypto场景太大太重了，它们试图承接的外溢需求本身在互联网领域都未竞争充分和成熟，到了Crypto领域短期看自然会显得鸡肋和无意义。但如果把infra构建和应用发币+MEME传播倒置顺序发展呢？先让有落地场景有需求又很轻量化的AI Agent在Crypto领域发展，过程中优质Agent 又能接轨MEME社区力量进行助力，当这一切AI资产发行和AI MEME原语的势能足够强大后，再去啃AI+Crypto大基建是不是就靠谱很多了呢？换句话说，从发展“胖协议”转化成“瘦应用”，用轻量化且可快速迭代的瘦应用来吹冲锋号，再用基于垂直场景造的MEME梗带动二级市场用户Fomo，最后再去发展技术愿景很宏大，时间线很长又很难落地的胖协议，这样的逻辑Make Sense吧？ 3）So，我们聚焦到AI Agent叙事上。AI Agent是指能自主决策并自动化执行任务的AI智能服务，其主要目标是通过个性化场景定制和自动化流程提高人机协作效率。常见的AI Agent已广泛应用于代码开发、创意内容生成、研究辅助、个人财务规划、专业领域咨询（如法律、医疗）等多个场景。话到此，有人一定会想，这些AI Agent不是在web2领域已经规模化发展了好长时间了，其SaaS订阅、API调用计费和增值服务等商业模式也都运转正常，为何非要到web3圈子发币制造泡沫？说好的价值应用落地呢？在我看来，其实并不冲突。AI Agent在纯web2环境下发展并不理想，这是很多Agent跑来web3发币的前提。而且Crypto的价值沉淀都要经历一次吹泡沫的过程，DeFi、NFT、铭文、GameFi、MEME等无一例外，它们都经历过“资产发行故事”的Fomo期。这段看似金融虚无主义的泡沫期，虽然会让整个行业短期显得“一地鸡毛”，但其吸引的资金、用户却会会沉淀下来，为行业后续的发展注入动能。 NFT的数字艺术虚无吧，但实打实造成了ETH的通缩，铭文的雕花艺术虚无吧，但却让矿工熬过了减半前的关机坎，同样的，AI Agent发币潮短期看也充满投机炒作，但却会把更广的增量用户和资金代入Crypto圈子。拉长视角看，这些短期虚无主义的Fomo叙事，一定会沉淀出相应的价值，千万不能因偏见而错失了机会。 4）最后，我想说，AI Agent对于普通散户很重要，对于一些身陷VC币重压之下的各垂直领域的项目方而言同样重要。从现在开始应思考，如何用AI+叙事给自己的链赋能：嵌入模块化的AI预处理组件？构建适合社区参与的AI Agent工具？传播有AI 个性的MEME文化梗？这些AI元素的加入会让你们的沉重且难落地的Roadmap变得更加“年轻化”，让原本需要长时间的技术落地故事，用AI Agent这种轻量化的方式逐步应用开，同时用AI MEME这种更加娱乐易于传播的方式逐步放大影响力。与其做无意义的对抗，拥抱一下何乐而不为？拥抱轻量化的AI Agent和AI MEME社区文化，将成为一种重塑过去项目“技术、运营、社区、市场、品牌”等重资产发展路径的最优解。有很多人不喜欢把一切价值MEME化，守着应用落地的信仰在孤独地耕耘着，对那些炒作Fomo的事情嗤之以鼻，因此总会错过机遇，但也总有人喜欢把一切MEME价值化，活跃在金融虚无主义的PVP游戏中，却对支撑这游戏的技术和价值基本面冷眼旁观，最终落得空欢喜出局的下场。来，我们把AI Agent+AI MEME+AI Platform +AI DePIN都串成一条主线，没有对立的技术VC币和MEME之别，一起把AI + Crypto的宏大叙事推动起来，合力成就这一轮久违的牛市主升浪。 Note：大家觉得文章有用烦请“一键三连”支持为谢，认可我持续干货内容输的朋友，可以访问我推特首页点击Substack专栏订阅一下（目前还免费），更多深度专业的投研和分析内容，尤其是不适宜在推特公开分享的内容，会在那里看到。

显示更多

0

47

442

167

转发到社区

Zizon@zizon

2026.06.11 07:14

LLM时代苏联冷笑话...

0

5

1

转发到社区