註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 NATO
NATO 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 NATO 的搜尋結果
AI研究员 @natolambert ,AI 时事通讯 Moonshot, Zhipu, Meituan, Xiaomi, Qwen, Ant Ling, and 等AI Lab 写了个笔记 从研究心态对比中美差异: -在中国一些杰出个人的工作成果需要被搁置,以保证整体模型能够最大化多目标优化(个体服从整体), -而美国研究者更注重个人表达和自我利益,他举了个meta的例子(传言),Llama组织正是由于这些利益集团将自身利益嵌入到层级分明的组织结构中而最终崩溃。听说其他实验室也表示,有时需要向顶尖研究人员支付报酬,才能让他们停止抱怨自己的想法最终没有被纳入模型 -中国模型的构建者是谁,中国很大一部分核心贡献者都是在校学生。这些实验室都比较年轻,这让我想起了我们在Ai2的模式,在那里学生被视为同龄人,并直接融入LLM团队。这与美国顶尖实验室截然不同,像OpenAI、Anthropic、Cursor等公司根本不提供实习机会。 -关于教育和产业人才,中国也面临着与美国类似的“人才流失”问题,许多原本考虑走学术道路的人现在都打算留在工业界。最搞笑的是一位研究人员的发言,他原本想当教授,以便更贴近教育体系,但他却说教育问题可以通过法学硕士(LLM)来解决——“学生为什么要跟我说话!” AI影响上的思维方式差异: -AI影响上的思维方式差异,这些学生的思维方式也异常直接,不受一些可能分散科学家注意力的哲学思辨所干扰。当被问及他们对模型的经济性或长期社会风险的看法时,很少有中国研究人员拥有成熟的见解,也没有动力去影响这些见解。他们的职责是构建最佳模型,一位学者甚至引用了王丹的著名论断——中国是由工程师主导,而美国则是由律师主导。 -试图让中国科学家就人工智能引发的经济不确定性、超出通用人工智能(AGI)能力范围的问题,以及关于模型行为方式的道德辩论发表评论,都展现了这些科学家极其谦逊的态度。他们不仅敬业,而且不愿就自己不了解的问题发表评论。 中国人工智能产业与西方实验室的异同之处: -国内人工智能需求初现端倪,中国SaaS生态不发达,付费意愿差,市场规模小,而云计算则发展的很好。而目前来看中国的AI市场更像云计算市场,而不是saas生态。 -大多数开发者都对 Claude 趋之若鹜 -中国企业拥有技术所有权意识,一些头部科技企业都在自己做模型,如美团,小米等。而美国则头部企业会使用第三方服务。 -数据产业的发展远不及美国,数据标注类公司,和RL模拟环境类公司相对较少,模型公司大部分是自己做数据和做RL模拟环境来训练。美国则大部分都是采用第三方服务。 (备注:昨天研究了下RL模拟环境的美国市场地图,可以看到确实非常庞大,并且有实际采用,可以看看 也) -对英伟达芯片的迫切需求
顯示更多
Visiting most of the leading Chinese AI labs, I'm struck by a culture that's extremely well suited to building LLMs with fewer resources, but one happening in a very different ecosystem, more companies at play, almost no data industry, etc. Full report:
顯示更多
3. 美团、小米这些公司为什么自己做大模型,国外Uber、Airbnb则没有:国外巨头的行事规则和历史记录更可靠,所以Netflix可以把后端全建在Amazon上,而中国百亿市值的公司都是自建的。 14. 为什么中国模型都开源:其实最重要的原因是,彼此模型效果很难拉开差距,不开源根本就没影响力,招人、商业、融资等等都会落后手。 @natolambert
顯示更多
艾伦研究所的知名研究员Nathan Lambert,前两天来北京和我们熟知的国内 AI 公司聊了一圈,包括月之暗面、智谱、字节、阿里、美团、小米等等。 聊完之后,他写了一篇文章做总结。我觉得这篇挺有意思的,因为 Nathan 本身对硅谷非常熟,这次相当于带着硅谷的视角来看我们中国的 AI 实验室是怎么运作的,以及他看到了哪些不一样的地方。 文章我看完了,写一些自己的笔记。 1、DeepSeek 被所有人公认为技术品味和执行力最好,是技术方向上的引领者,但在商业上并不是引领者。 反过来,像字节、阿里这种巨头,被视为真正能够把大模型吃进整个业务体系、最终兑现成大规模市场份额的那批公司。 2、字节是各大中国 AI 实验室最重视的竞争对手,因为他们思路清晰,而且战斗力极强。 一个可以印证侧面是,在开放权重已经成主流气质的中国 AI 圈子里,字节是少数坚持走 OpenAI 这条闭源路线的公司,同时,目前他们的豆包应用地位相当于中国的ChatGPT。 3、美团、蚂蚁、小米这些公司为什么自己做大模型?国外Uber、Airbnb 这批公司也没做自己的模型,用的时候买别人的就行了。 但在这些中国公司眼里,LLM 是未来产品的核心底座,如果完全依赖外部模型,等于把自己最关键的那一层放在别人手里,被掣肘只是时间问题。所以宁可自己花大力气训一个通用模型,把这块底座攥在自己手里。 4、中国开发者几乎都被 Claude 圈粉了。Nathan 说,很多一线开发者描述日常写代码时,都主动提到 Claude,承认它改变了自己的开发方式,哪怕它在中国并不能正式落地。 少数人会提到自己在用 Kimi 或者智谱的命令行工具,但被问到真正高频依赖的助手时,几乎都会说回 Claude。在湾区很火的 Codex,在中国被提到的频率反而没有那么高。 5、中国的 LLM 社区更像一个生态,而不是彼此敌对。Nathan 和多家实验室私下交流后,发现他们谈到同行时,几乎都是尊重和欣赏,很少有火药味。而在硅谷,私下聊起其他实验室,话锋会很快变得尖锐。 6、中国大模型团队的整体气质和美国不一样。表面上看,大家都是搞大模型、RL、Agent,用的技术栈差不多,但在组织方式和人本身的气质上,中国这边更像一支全栈工程队。 研究员普遍愿意做琐碎、不出彩的脏活累活,愿意为了整体模型效果搁置自己的方案,不太追求个人署名和明星科学家身份。 这种弱 ego 的文化,在那种需要各个模块严丝合缝配合的大工程里,反而更适配。Llama 团队据说就是被相反的那种文化拖垮的,一群顶尖研究员都想让自己的方案进最终模型,互相博弈。 7、中国顶级实验室里,学生的比例非常高,而且是直接参与主战场的大模型研发,不是被边缘化的实习。和美国的 OpenAI、Anthropic、Cursor 这些几乎不开放相关实习形成鲜明对比。 Google 名义上有 Gemini 实习,但大家普遍担心实习内容被隔离在核心工作之外。 学生的优势是对旧时代 AI 范式没有太多包袱,能很快把上一套观念清空,重新学习。同时他们极度习惯在巨量论文和内部技术细节中速成,把复杂栈啃下来,进组之后就愿意把人生阶段压在这件事上。 8、中国研究员对宏大的 AI 叙事兴趣不高。Nathan 在和不少一线研究员聊天时,发现他们一提到经济结构变化、社会风险、AI 道德这些问题,往往会有明显的停顿和困惑,像是被问了一个和日常工作无关的问题。 很多人会直接表达,自己的角色就是把模型做好,而不是对社会怎么变发表观点。有位研究员还引用了 Dan Wang 的说法,中国是工程师在掌舵,美国是律师在掌舵。 Nathan 也观察到,中国并没有 Dwarkesh、Lex Fridman 这种能系统性把科学家捧成明星的播客生态。这种习惯既和个人性格有关,也深受教育和制度环境的塑造,他们在一个不鼓励公开争论社会议题的系统里长大,并且在里面取得了成功。 9、北京的 AI 圈子整体很像湾区版的紧凑硅谷。从机场下飞机,可以顺路去阿里北京园区,坐几趟滴滴,在三十六小时之内走完智谱、月之暗面、清华、美团、小米、零一万物等一长串机构。 整座城市里,打车过去就是一个新的实验室。选大一点的车型,常见是带按摩椅的电动小面包。这种空间上的密集分布,让不同实验室之间的交流成本被压得很低,研究员之间的流动也变得非常频繁。 10、中国研究员普遍更偏工程视角,对融资、产业格局、资本叙事这些话题兴趣没那么高。Nathan 在硅谷习惯了另一种氛围,研究员对外部环境的敏感度非常高,融资、算力、数据生态、行业风向,几乎每个人都在认真琢磨自己所在公司的位置和外部环境的关系。 因为今天做 AI 已经不是关起门来搞工程奇迹那种事了,模型公司同时是一个综合体,要建模、要部署、要融资、要拉生态,外面的每一根线都会反过来影响里面的研究节奏。 但中国研究员明显不在这个频道上。Nathan 问到行业生态、融资、算力供应、数据产业这些话题,得到的反应常常是耸耸肩,说那不是我的问题,我的事就是把模型做好。 11、中国企业对 AI 的花钱习惯,更接近云,而不是 SaaS。外界常说中国企业不愿意为软件买单,所以本土 AI 市场会偏小。但 Nathan 和多位从业者聊完后,感受到的现实是,虽然传统 SaaS 市场确实不大,但云服务在中国是个大生意。 关键问题变成,企业为 AI 付费,最终会更像买 SaaS,还是更像买云基础设施。从目前各家公司的实际讨论和规划来看,大家普遍不太担心企业侧的 AI 支出,倾向认为它会挂在更刚性的基础设施那一侧。 12、中国的数据产业在 RL 和高质量任务环境上明显不如美国成熟。和 OpenAI、Anthropic 那种可以为单个 RL 环境花上千万美元、一年累计几亿美金的玩法相比,中国团队的普遍反馈是,本土数据服务供应商不是没有,但质量参差不齐,很难直接买到能用的内容。 于是就形成了一种很中国式的解决办法,很多 RL 场景、评测环境干脆自己搭,研究员本人要花大量时间设计任务、构建环境。字节、阿里这种大公司,也会养起自己庞大的标注团队,在公司内部自给自足。 13、算力是所有中国实验室的共同痛点。无论走到哪家,大家对高质量英伟达 GPU 的需求都是一个词,不够用。如果供应允许,他们会毫不犹豫地继续加仓。 国产加速卡在推理侧评价还可以,已经被不少公司部署到在线服务里,华为芯片在很多实验室都有落地。但在大规模训练上,英伟达依然是黄金标准,国产方案更多是辅助补位。 14、在开放程度和生态态度上,中国实验室显得既务实又有整体视角。Nathan 几乎问遍了所有头部团队,为什么会在这样的环境下持续开放自家最强模型。他自己坦言,把所有权心态和真实的生态支持这两件事联系起来,他还没完全想明白。 但从对话里,他归纳出几个共同的现实诉求,通过开放权重,快速让更多开发者参与打磨,发现缺陷;通过回馈开源社区,获得技术和口碑上的正循环;同时在内部保留更定制、更私密的模型版本服务自家业务。整体表现出来的,是一种既不绝对开源、也不一味封闭的中间态。 15、中国实验室对英伟达芯片的渴求是压倒性的。Nathan 走访下来,所有人现在的进展都卡在同一件事上,就是英伟达的卡不够用。 如果能买到,毫无疑问会继续加仓。 这里他特意点出来一个区分,英伟达是训练这一侧的黄金标准,没有替代品。但在推理这一侧,画风就完全不一样了。包括华为在内的国产加速卡,评价都是正面的,不是凑合用,是真的能打。 Nathan 说他遇到的实验室里,无数家都已经能拿到华为芯片,供给这边不是问题。所以中国实验室现在的真实状态是一个两层结构,训练咬牙抢英伟达,推理大方用国产卡,分得很清楚。
顯示更多
0
33
67
5
轉發到社區