注册并分享邀请链接,可获得视频播放与邀请奖励。

小盖
@xiaogaifun
做有意思的事情。
73 正在关注    873 粉丝
艾伦研究所的知名研究员Nathan Lambert,前两天来北京和我们熟知的国内 AI 公司聊了一圈,包括月之暗面、智谱、字节、阿里、美团、小米等等。 聊完之后,他写了一篇文章做总结。我觉得这篇挺有意思的,因为 Nathan 本身对硅谷非常熟,这次相当于带着硅谷的视角来看我们中国的 AI 实验室是怎么运作的,以及他看到了哪些不一样的地方。 文章我看完了,写一些自己的笔记。 1、DeepSeek 被所有人公认为技术品味和执行力最好,是技术方向上的引领者,但在商业上并不是引领者。 反过来,像字节、阿里这种巨头,被视为真正能够把大模型吃进整个业务体系、最终兑现成大规模市场份额的那批公司。 2、字节是各大中国 AI 实验室最重视的竞争对手,因为他们思路清晰,而且战斗力极强。 一个可以印证侧面是,在开放权重已经成主流气质的中国 AI 圈子里,字节是少数坚持走 OpenAI 这条闭源路线的公司,同时,目前他们的豆包应用地位相当于中国的ChatGPT。 3、美团、蚂蚁、小米这些公司为什么自己做大模型?国外Uber、Airbnb 这批公司也没做自己的模型,用的时候买别人的就行了。 但在这些中国公司眼里,LLM 是未来产品的核心底座,如果完全依赖外部模型,等于把自己最关键的那一层放在别人手里,被掣肘只是时间问题。所以宁可自己花大力气训一个通用模型,把这块底座攥在自己手里。 4、中国开发者几乎都被 Claude 圈粉了。Nathan 说,很多一线开发者描述日常写代码时,都主动提到 Claude,承认它改变了自己的开发方式,哪怕它在中国并不能正式落地。 少数人会提到自己在用 Kimi 或者智谱的命令行工具,但被问到真正高频依赖的助手时,几乎都会说回 Claude。在湾区很火的 Codex,在中国被提到的频率反而没有那么高。 5、中国的 LLM 社区更像一个生态,而不是彼此敌对。Nathan 和多家实验室私下交流后,发现他们谈到同行时,几乎都是尊重和欣赏,很少有火药味。而在硅谷,私下聊起其他实验室,话锋会很快变得尖锐。 6、中国大模型团队的整体气质和美国不一样。表面上看,大家都是搞大模型、RL、Agent,用的技术栈差不多,但在组织方式和人本身的气质上,中国这边更像一支全栈工程队。 研究员普遍愿意做琐碎、不出彩的脏活累活,愿意为了整体模型效果搁置自己的方案,不太追求个人署名和明星科学家身份。 这种弱 ego 的文化,在那种需要各个模块严丝合缝配合的大工程里,反而更适配。Llama 团队据说就是被相反的那种文化拖垮的,一群顶尖研究员都想让自己的方案进最终模型,互相博弈。 7、中国顶级实验室里,学生的比例非常高,而且是直接参与主战场的大模型研发,不是被边缘化的实习。和美国的 OpenAI、Anthropic、Cursor 这些几乎不开放相关实习形成鲜明对比。 Google 名义上有 Gemini 实习,但大家普遍担心实习内容被隔离在核心工作之外。 学生的优势是对旧时代 AI 范式没有太多包袱,能很快把上一套观念清空,重新学习。同时他们极度习惯在巨量论文和内部技术细节中速成,把复杂栈啃下来,进组之后就愿意把人生阶段压在这件事上。 8、中国研究员对宏大的 AI 叙事兴趣不高。Nathan 在和不少一线研究员聊天时,发现他们一提到经济结构变化、社会风险、AI 道德这些问题,往往会有明显的停顿和困惑,像是被问了一个和日常工作无关的问题。 很多人会直接表达,自己的角色就是把模型做好,而不是对社会怎么变发表观点。有位研究员还引用了 Dan Wang 的说法,中国是工程师在掌舵,美国是律师在掌舵。 Nathan 也观察到,中国并没有 Dwarkesh、Lex Fridman 这种能系统性把科学家捧成明星的播客生态。这种习惯既和个人性格有关,也深受教育和制度环境的塑造,他们在一个不鼓励公开争论社会议题的系统里长大,并且在里面取得了成功。 9、北京的 AI 圈子整体很像湾区版的紧凑硅谷。从机场下飞机,可以顺路去阿里北京园区,坐几趟滴滴,在三十六小时之内走完智谱、月之暗面、清华、美团、小米、零一万物等一长串机构。 整座城市里,打车过去就是一个新的实验室。选大一点的车型,常见是带按摩椅的电动小面包。这种空间上的密集分布,让不同实验室之间的交流成本被压得很低,研究员之间的流动也变得非常频繁。 10、中国研究员普遍更偏工程视角,对融资、产业格局、资本叙事这些话题兴趣没那么高。Nathan 在硅谷习惯了另一种氛围,研究员对外部环境的敏感度非常高,融资、算力、数据生态、行业风向,几乎每个人都在认真琢磨自己所在公司的位置和外部环境的关系。 因为今天做 AI 已经不是关起门来搞工程奇迹那种事了,模型公司同时是一个综合体,要建模、要部署、要融资、要拉生态,外面的每一根线都会反过来影响里面的研究节奏。 但中国研究员明显不在这个频道上。Nathan 问到行业生态、融资、算力供应、数据产业这些话题,得到的反应常常是耸耸肩,说那不是我的问题,我的事就是把模型做好。 11、中国企业对 AI 的花钱习惯,更接近云,而不是 SaaS。外界常说中国企业不愿意为软件买单,所以本土 AI 市场会偏小。但 Nathan 和多位从业者聊完后,感受到的现实是,虽然传统 SaaS 市场确实不大,但云服务在中国是个大生意。 关键问题变成,企业为 AI 付费,最终会更像买 SaaS,还是更像买云基础设施。从目前各家公司的实际讨论和规划来看,大家普遍不太担心企业侧的 AI 支出,倾向认为它会挂在更刚性的基础设施那一侧。 12、中国的数据产业在 RL 和高质量任务环境上明显不如美国成熟。和 OpenAI、Anthropic 那种可以为单个 RL 环境花上千万美元、一年累计几亿美金的玩法相比,中国团队的普遍反馈是,本土数据服务供应商不是没有,但质量参差不齐,很难直接买到能用的内容。 于是就形成了一种很中国式的解决办法,很多 RL 场景、评测环境干脆自己搭,研究员本人要花大量时间设计任务、构建环境。字节、阿里这种大公司,也会养起自己庞大的标注团队,在公司内部自给自足。 13、算力是所有中国实验室的共同痛点。无论走到哪家,大家对高质量英伟达 GPU 的需求都是一个词,不够用。如果供应允许,他们会毫不犹豫地继续加仓。 国产加速卡在推理侧评价还可以,已经被不少公司部署到在线服务里,华为芯片在很多实验室都有落地。但在大规模训练上,英伟达依然是黄金标准,国产方案更多是辅助补位。 14、在开放程度和生态态度上,中国实验室显得既务实又有整体视角。Nathan 几乎问遍了所有头部团队,为什么会在这样的环境下持续开放自家最强模型。他自己坦言,把所有权心态和真实的生态支持这两件事联系起来,他还没完全想明白。 但从对话里,他归纳出几个共同的现实诉求,通过开放权重,快速让更多开发者参与打磨,发现缺陷;通过回馈开源社区,获得技术和口碑上的正循环;同时在内部保留更定制、更私密的模型版本服务自家业务。整体表现出来的,是一种既不绝对开源、也不一味封闭的中间态。 15、中国实验室对英伟达芯片的渴求是压倒性的。Nathan 走访下来,所有人现在的进展都卡在同一件事上,就是英伟达的卡不够用。 如果能买到,毫无疑问会继续加仓。 这里他特意点出来一个区分,英伟达是训练这一侧的黄金标准,没有替代品。但在推理这一侧,画风就完全不一样了。包括华为在内的国产加速卡,评价都是正面的,不是凑合用,是真的能打。 Nathan 说他遇到的实验室里,无数家都已经能拿到华为芯片,供给这边不是问题。所以中国实验室现在的真实状态是一个两层结构,训练咬牙抢英伟达,推理大方用国产卡,分得很清楚。
显示更多
0
13
155
32
转发到社区
强烈推荐大家看看DeepMind CEO Demis的最新判断。 真的,Google DeepMind 的 CEO Demis Hassabis 每一期访谈我觉得值得都花时间看看。这哥们讲东西很实在,而且通俗易懂。 早上边跑步边听完了他和 YC CEO Garry Tan 的最新一期播客。 刚刚把笔记写完,也给大家分享下。 多说一句,好多人问我这种笔记是不是 AI 写的。我说下自己的流程。 我会先完整听完播客,然后用语音输入法把感触尽量充分地讲出来,再让 AI 帮着整理初稿,最后自己逐字修改优化。 如果全部交给 AI 做总结,那等于把思考和理解的能力让渡给了 AI,对自己理解这件事其实没有任何价值。 OK,咱们进正题。 1 Demis 的态度非常明确,现在的大模型范式(大规模预训练 + RLHF + CoT)一定会是 AGI 最终架构的一部分,他不认为这会是条死路。 但要实现 AGI,还有几个关键问题要解决。这几个问题包括:持续学习、长程推理和记忆系统。 先从最容易看到的现象讲起,Context Window。 现在大模型处理长信息,最常用的招就是把 Context Window 一直撑大。一开始 8k,后来 32k,再后来 100 万 Token。听起来很厉害,但本质上是暴力堆砌。 Context Window 其实就相当于人脑里的 Working Memory,工作记忆。人的工作记忆能同时装多少东西?心理学里有个经典数字,7 个左右。背电话号码能记住 7 位上下,再多就溢出了。 大模型呢?已经做到 100 万 Token。 按理说,模型的工作记忆比人大几十万倍,应该比人聪明几十万倍才对。但显然不是。 问题也恰恰就出现在这。把所有东西都塞进 Context Window 里,里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多,其实是一团乱麻。 那人为什么 7 个数字的工作记忆就够用? 因为人脑背后还有另一套机制在工作。我们记得几年前的事,记得童年的事,记得几小时前发生的事。这些都不塞在工作记忆里,而是另一套系统。 具体来说这套系统是海马体,大脑里负责把新知识整合进已有知识库的那个部分。 研究发现,人睡觉的时候,特别是 REM 睡眠阶段,大脑会重放白天重要的片段,让大脑从中学习。新东西在睡觉的过程里,温柔地融进了旧的知识体系。 这个把新东西融进旧知识库的过程,就是持续学习。 模型现在没有这套机制。每一次对话结束,刚学到的东西就会忘记。下次重新打开,还是上次那个模型,没长进。 2 再聊聊长程推理的问题。英文表达是 Long-term Reasoning。我翻译为了长程。 长程推理这个词太抽象了。Demis 讲了一个特别具体的故事,听完会立刻明白他说的是什么。 他说自己喜欢跟 Gemini 下国际象棋。下棋的过程里能看到模型的 thinking trace,也就是它在那里到底想了什么。 然后他发现一件怪事。 模型考虑一步棋的时候,思考链里清清楚楚写着,这步是个昏招。但接下来,它没找到更好的走法,于是又走回这步昏招。 明明知道是错的,还是把错的那一步走出去了。 这个细节比任何 benchmark 数据都说明问题。因为它暴露的是模型缺少对自己思考过程的某种内省能力。 正常人下棋,意识到一步是昏招之后,脑子里会有一个反应,停一下,再想想。停一下、再想想这个能力,模型现在没有。它能在每一步局部判断对错,但没法基于整盘棋的局势去调整整体策略。 这就是长程推理还没搞定的样子。模型可以一步一步往前走,每一步看起来都合理,但走到后面整盘棋的方向其实是错的。它没有那种退回到当前思考的上一层、重新审视一下的能力。 说到底,模型缺的是一种内省。 3 学习、长程推理、记忆,这是 Demis 在播客里点出来的三个 AGI 鸿沟。 除此之外,他还反复提到了创造力。 2016 年 AlphaGo 跟李世石下棋,第二局走出了著名的 Move 37。那一步棋走出来的瞬间,全世界的围棋高手都看呆了。 所有人类几千年下围棋积累的经验都告诉它不该下那里,但 AlphaGo 下了。下完之后大家发现,是一步神来之笔。 很多人觉得,这就是 AI 的创造力来了。 但 Demis 说,对他自己来说,Move 37 只是起点。他真正想看到的是另一件事。AI 能不能发明围棋这件事本身。 这两件事的区别非常关键。 Move 37 是在围棋这个现成的规则里,找到了一步人类没想到的招。但围棋的规则、棋盘的形状、黑白子的对弈方式,是人类发明出来的。AI 在已有的框架里非常厉害,但能不能自己造一个框架,是另外一回事。 Demis 给了一个具体的设想。 如果给 AI 一个高层次的描述。造一个游戏,五分钟能学会规则,要好几辈子才能精通,棋局有审美,一下午能下完一局。AI 能不能根据这个描述,自己倒推出围棋? 目前做不到。 为了把这件事讲得更清楚,Demis 还提了一个测试,他自己叫爱因斯坦测试。 用 1901 年人类已有的全部知识训练一个模型,看它能不能在 1905 年那个时间点,自己推出狭义相对论。 爱因斯坦在 1905 年那一年里,连写了几篇改变物理学的论文,后来叫爱因斯坦奇迹年。那些工作不是从已有的物理学论文里通过拼接得到的,是基于已有材料做了一次全新的概念跳跃。 爱因斯坦测试想问的就是这件事。AI 能不能做这种跳跃。 目前的大模型主要在做两件事,pattern matching 和 extrapolation。一个是从大量数据里找规律,一个是把规律往外延伸一点。但发现新东西需要的是类比推理的能力。从一个领域里抽出深层结构,搬到另一个全新的领域去用。 这个能力,模型现在还没有。也可能是有,但用法不对所以激发不出来。 4 除此之外,Demis 还分享了一个让我特别出乎意料的判断,他说未来 6 到 12 个月,真正的价值不在更大的模型,在更小的模型。 这一部分内容我反复听了好几次,确实突破我的已有认知。 不知道大家的想法,反正我自己,这一年来并没有怎么关注小模型的进展。毕竟行业的焦点就是把模型做大嘛。 那小模型的价值到底在哪? 最直接的是成本。同样一个任务,小模型的推理价格可能只是前沿模型的十分之一甚至更少。 但 Demis 说,比成本更重要的其实是速度。 这里有一个前提得先说清楚。Demis 不是在说速度可以替代智能。 他的原话是,当小模型的能力已经达到前沿模型的 90% 到 95%,也就是已经相当不错的时候,剩下那 5% 到 10% 的能力差距,比不上速度带来的好处。 比如现在工程师用 AI 写代码,已经形成了一种新的工作节奏。一个想法冒出来,几秒之内就能看到结果,不行就改,再不行再改。 这个一改再改的循环跑得越快,做出来的东西就越好。如果每次调用都要等十秒,整个工作流就被打断了。 更关键的是,快到一定程度,工程师在这种节奏里能进入心流。一个想法、一次尝试、一个反馈、再来一个想法,思维不被打断。 这件事写过代码的人都懂,进入心流和频繁掉出心流,产出的差距是数量级的。 Agent 也是同样的逻辑。一个 Agent 跑完一个任务可能要调几十次模型,每次慢一秒,整个任务就慢一分钟。慢到一定程度,Agent 就从一个能用的东西变成鸡肋。 小模型不是大模型的廉价替代品。有些事只有小模型能做。 比如手机、眼镜、家用机器人,需要的就是一个能在本地跑起来的模型。本地跑除了反应快,还有一个特别重要的好处,隐私。 家里机器人看到的视频、听到的对话,全部在设备本地处理,根本不上云。这件事对很多用户来说不是加分项,是底线。 成本、速度、边缘部署,这是小模型的价值。 5 讲完小模型的价值,接下来一个更关键的问题是,能力被压到这么小的参数里,会不会有上限? Demis 的判断是,目前没看到信息密度有任何理论上限。小模型的智能天花板还远没看到。 支撑这个判断的,是 DeepMind 在蒸馏这件事上的积累。蒸馏简单说就是先训练一个超大的模型,然后用这个超大模型去教一个小模型。教完之后,小模型用极少的参数,能复现原来 95% 以上的能力。 为什么 DeepMind 这么重视蒸馏?因为要把 AI 能力放进谷歌的头部产品中,前提是低延迟、低成本。前沿模型再强,每次推理花几秒钟、花几毛钱...这条路,恐怕很难走得通。 一个前沿模型发布之后,6 到 12 个月内,他们就能把这个模型的能力蒸馏到边缘设备能跑的小模型上去。这个时间表比很多人想的要快。 在很多场景中,小模型和大模型会相互配合。 举个例子,一个端到端的智能助手,绝大部分日常任务在本地的小模型上跑。智能眼镜看到的画面、家里机器人听到的对话、手机里的私人助理,模型直接在设备里读懂,不需要往云端传一遍。 只有遇到特别复杂、本地搞不定的问题,才向云端的前沿模型发起请求。 也就是说小模型在边缘做主力,前沿模型在云端做后援。 不过,这个构想对小模型的要求也比较高,它不能只会处理文字,还得能理解物理世界。 这就是为什么 Gemini 从一开始就坚持多模态,不光处理文字,也处理图像、视频、声音。 一开始这么做比只做文本要难得多,但眼镜也好,机器人也好,需要的是一个能看懂周围世界的模型,不是一个只会聊天的模型。 讲到这里,小模型这条路的轮廓就完全清楚了。它独立成立,不是前沿模型的廉价替代品,而是另一条同样重要的路。 嗯,很有启发。
显示更多
0
48
1.2K
239
转发到社区