注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 Orchestra
Orchestra 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 Orchestra 的推特
GitHub 正式上线 GH-600 认证:Agentic AI 开发者认证! 这套认证专门针对负责设计和管理 AI 智能体系统的开发者。 考核内容涵盖多智能体编排(multi-agent orchestration)、安全防护(guardrails)以及生产环境下的 AI 工作流。 GitHub 明确了新的岗位要求,开发者不仅要会使用 AI,更要具备监督和控制 AI 系统运行的能力。 在 Web3 与 AI 结合的自动化趋势下,这套技术栈将成为核心竞争力。
显示更多
卧槽,Grok终于走出了X的舒服区开始卷Build了💪👍 马斯克向所有SuperGrok以及X Premium+高级订阅用户正式开放了Grok Build的Beta测试版本。 该工具包集成了Plan Mode(规划模式)、基于Imagine模型的图像与视频多模态生成能力,以及一套允许开发者和高级用户直接在终端进行调用的命令行界面(CLI)。 目前,用户可通过指定官方链接( 此次发布的核心技术突破在于其对自动化与智能体调度(Automations or Orchestrators)的系统级支持。 不同于传统的对话式聊天机器人界面,Grok Build通过CLI工具直接切入开发与生产力流水线。 用户能够利用Plan Mode进行多步骤任务的拆解与架构设计,并由底层大模型自动调度执行复杂的系统级自动化任务。 这意味着Grok在分发策略上正在从小众的娱乐、资讯检索工具,向具备底层编排能力的AI开发平台转型,直接对现有的本地AI Agent框架和自动化中间件生态形成挤压。
显示更多
跟着黄仁勋的时间线走,每一阶段的钱都在提前切换 过去一年,如果你认真拆老黄每次GTC、财报会、闭门峰会说了什么,会发现AI基建的主线其实一直在切换。真正厉害的资金从来不是等新闻出来再追,而是提前拆下一阶段CapEx会流向哪里。 整个时间线其实非常清晰。 第一阶段:GPU → HBM → CoWoS → Memory 最早被老黄反复强调的方向。 Blackwell开始,HBM已经从外围配件升级成AI架构核心。老黄在财报会上明确说了:Blackwell和Vera Rubin的性能瓶颈,越来越取决于HBM带宽与供应。 很多人还把 $MU当周期股。但老钱已经开始把存储当AI structural asset来定价。 第二阶段:Ethernet → 光通信 → Silicon Photonics 2026上半年真正爆发的第二条主线。 AI集群进入十万卡级别后,真正限制效率的已经不是单卡性能,而是GPU之间的数据流动效率。老黄开始疯狂强调Spectrum-X、Ethernet、Scale-Out、Silicon Photonics。 NVLink解决的是Scale-Up,柜内互联。真正的大规模AI集群最终拼的是Scale-Out,柜外组网。AI越大,Ethernet的地位反而越强。 $ANET $MRVL $CRDO $ALAB $LITE ——这些AI数据流动收费站开始进入估值扩张阶段。 第三阶段:Inference CPU / Agentic AI 2026 Q1财报会后华尔街开始重新定价的方向。 很多人之前觉得AI时代CPU会边缘化。但老黄在5月财报会明确:Inference爆发后,CPU反而重新成为瓶颈。Agentic AI、Inference、Orchestration都需要大量CPU调度。 $ARM $QCOM $ADI $TXN $MCHP开始明显走强。 很多人还在盯GPU,但老钱已经开始提前布局Inference infrastructure。 第四阶段:AI-RAN + Edge AI + Physical AI 我认为这是2026下半年到2027真正可能成为主场的方向。 AI第一阶段是Training,第二阶段是Scale-Out。接下来AI必须真正离开hyperscaler数据中心,进入现实世界。 老黄已经把话说得很清楚:未来AI会进入运营商网络、边缘节点、基站、机器人、工厂、汽车。AI不会永远只待在云里。 这一阶段分三类受益方向。 AI-RAN和边缘网络:未来全球几百万个基站可能都会变成边缘AI节点。真正值钱的是射频、DAC/ADC、FPGA、边缘推理网络。 $NOK是AI−RAN联盟的核心发起人,英伟达直接投资背书。 Edge AI和On-Device AI:Agentic AI开始长进PC、手机、汽车、边缘网关。设备端AI最大的问题是低功耗推理加本地memory加实时连接。 $QCOM $SIMO这些传统边缘芯片公司的估值可能会被重新定价。 Physical AI和Robotics:散户喜欢炒机器人概念,但真正决定机器人能不能大规模落地的是工业控制、PLC、伺服系统、自动化基础设施。未来真正持续扩估值的,可能不是最性感的人形机器人概念,而是卡住物理世界执行层的工业收费站。 $TSLA $ABB $SYM $ROK。 总结 AI的下一阶段已经不只是训练模型。而是让AI真正进入现实世界。每一次老黄开口,都是在提前告诉市场下一阶段的钱会流向哪里。 #PhysicalAI# #EdgeAI# #AIRAN# #光通信# #机器人# #数据中心# #半导体# #AI算力#
显示更多
0
38
518
160
转发到社区
Scaling Law正在被重新Scaling ---openai核心研究员最新论文《Learning Beyond Gradients》解读 过去几年,AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU,就是更强的模型,就是scaling law。 过去几个月,行业开始认为,更多的推理,更多的agent,就能完成更长时、更高价值的任务,就是更强的智能。 这构成了行业对scaling law的理解,而只要Scaling Law继续成立,模型就会不断逼近AGI。 最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》,提出了一个全新的scaling维度:AI不一定只能通过梯度下降学习,也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。 这是继agentic和harness之后,AI行业可能正在从“Scaling Model”,进入“Scaling System”的阶段一个最新的重要进展。 过去AI的能力飞轮,本质上是:更多数据→更大模型→更强能力→更多用户→更多数据。 但现在,论文要告诉我们的是,新的能力飞轮:更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。 行业正在加速的从:智能 = weights。过度到:智能 = weights + runtime system。 LLM本质上是输入→Transformer→输出。 模型训练结束之后,能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说,learning = 修改参数。 LLM就像人类的大脑,参数就像脑细胞。但现实世界的大量复杂能力,其实并不完全来自参数。 就像人类文明真正强大的地方,也不仅仅是大脑本身。真正让文明爆炸的,是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。 《Learning Beyond Gradients》,的创新,在于它开始尝试把“学习”从参数空间里解放出来。过去是:reward → gradient → weights。现在开始变成:feedback → heuristic modification → runtime evolution。学习开始发生在program space,而不是parameter space。 heuristic,还有点像专家系统,但极大的增强了其能力:过去的专家系统,规则由人类写;现在,规则开始由LLM自动生成。这是在效率上的从量变到质化。 传统专家系统失败,并不完全因为“规则”方向错了,而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控,所以专家系统最终被深度学习取代。 但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则,还开始能自动生成workflow、tool graph、planner、memory strategy,甚至修复agent行为。 这意味着,AI开始能够修改自己的运行时系统。于是,越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。 更大的模型 = 更强的AI,变成:更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。 过去AI只有“模型scaling”。未来AI会开始出现:Model Scaling × System Scaling × Runtime Self-Improvement。 我们很可能正在从去年底的scaling law,迈入到现在的heuristic驱动的,结合agent和harness的scaling law的平方。 更重要的是,runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱,本质上还处于“DOS时代”。 但接下来,同一个基础模型,在不同Harness之下,实际能力可能相差几十倍。因为很多复杂任务的瓶颈,已经不是“模型会不会”,而是“系统能不能持续组织行为”。 这也是为什么,未来最重要的竞争,可能不再只是“谁的参数最多”,而是“谁最先形成:模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。 某种意义上,Transformer越来越像“认知内核”。真正的AGI,可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。 《Learning Beyond Gradients》最让我兴奋的地方,其实并不是“超越梯度”。而是它开始尝试:把Scaling Law本身,也变成一个可以被继续Scaling的系统。
显示更多
0
12
83
15
转发到社区
记得Defi Summer 20年到22年这三年时间,大家经常感慨的一句话就是“币圈一天,人间一年” 因为技术迭代太快了,每天都有数不行的新东西出来,几天不看就跟不上节奏 现在这个感觉在币圈彻底消失,在AI那边出现了,每天的新东西就看不完,真的看不完 正好这几天看到圈里讨论Cerebras的帖子多了起来,昨天还看到不少路演信息,毕竟14号要挂牌交易。之前在Amber做分享的时候也单独讲过这个公司(当时用的那页PPT放在文末),所以简单说下我对Cerebras的判断 先说结论:这家公司很有意思,但核心变量不一定是他们造的芯片本身,而是未来AI的workload形态会是成什么样。 先简单说下它是干嘛的,防止有老铁还没看Cerebras 它最核心的技术,就是wafer-scale chip(晶圆级芯片),简单理解就是别人还在用“邮票大小”的芯片,它直接把整片晶圆做成一颗超大处理器,再配上超大 SRAM,把大量数据尽量留在本地高速处理,减少传统GPU最头疼的memory bottleneck。现在海力士美光涨上天就是因为HBM这东西太抢手,Cerebras是直接绕开了对HBM的依赖 很多人看到 Cerebras最牛逼的benchmark:推理速度比GPU快10-15倍,第一反应就是下一个英伟达?! 先别急。 这个benchmark最大的问题,是默认AI的核心需求永远是“更快吐token”。 如果只是人类盯着ChatGPT聊天,这故事其实没那么性感。你每秒吐 30 个 token,我已经快读不过来了。再翻10倍,边际体验提升几乎为零。 真正有意思的是 Agent。 Agent不读字,Agent消费Token。速度直接等于生产力。 一个OpenClaw/Hermes agent,如果要读网页、写计划、调 API、跑代码、报错重试、继续执行,一个任务可能要几十次 inference call。 每次 2 秒,任务就是分钟级体验。 每次 200ms,就是另一个世界。 所以 Cerebras更值得关注的地方,是 AI worker 这条线,而不是单纯的chatbot加速。 但问题来了 - 它的magic来自 wafer-scale + 超大SRAM,本地访问极快。但SRAM这东西有天然 tradeoff,速度快,容量贵,大模型塞不下就必须拆分。 而一旦拆分,chip-to-chip communication 就上来了。 LLM inference里最怕通信的恰恰是 decode 阶段。token 是一个一个往外吐的,每多一次 hop,延迟就是硬加上去,没法隐藏。 所以 Cerebras能不能成,关键根本不在“比 GPU 快几倍”,而是未来 AI 的主流计算形态到底是什么。 1. 时间线一 - 未来几年还是 前沿超大模型一统天下,动不动几千亿甚至万亿参数,所有请求都让超大模型自己处理,那 Nvidia的distributed infra 依然最舒服,Cerebras的速度优势会被通信损耗吃掉很多。 2. 时间线二 - MoE、蒸馏、量化这些技术如果继续快速进步,未来两年70B左右的模型做到今天700B模型 80%-90% 的效果,我一点都不意外。(这里要强烈感谢Deepseek一大波!) 如果世界往这个方向走,故事就变了。 大模型负责 planning / judgement / orchestration。 真正执行任务的大量 worker model 落在 30B-70B 这个区间。 这些模型足够聪明,又刚好能吃到高速本地推理带来的红利。 Agent 世界里,大部分token根本不需要最聪明的大脑。很多工作本质就是执行层体力活:浏览网页、改代码、调工具、retry、继续跑流程。 这个 topology一旦成立,Cerebras就直接进入自己的甜区 3. 时间线三 - 未来推理是端侧为主,用的都是8B,14B的这些小模型,那GPU也能跑的很好,甚至专用的ASIC芯片效率更高,这个场景下Cerebras的优势和护城河也就不高了 换句话说,超大模型云端推理或者超小模型的端侧推理这两个平行宇宙,Cerebras的优势都不够明显,只有主流推理落在32B-70B中等模型这个Size,正好“Big enough to stress GPU memory, Small enough to fit locally” 才是Cerebras最能大展身手的世界 所以我对Cerebras的判断是,300多亿的市值,短期看订单,财务报表这些数据,长期赌的则是未来Agent时代的计算范式到底落在哪个平行宇宙的时间线上
显示更多
0
11
71
10
转发到社区
今天芯片圈最大的新闻,莫过于Gerard在创立Nuvia CPU被高通收购五年之后,重新出发,新创立了ARM CPU公司,名字也跟之前非常像,叫Nuvacore 现在这个时间点做数据中心CPU,确实是赶上了CPU十年来最好的时代: AI agent带来CPU短缺潮已经经隐隐浮现,AWS多个客户都提出要包揽所有Graviton ARM CPU产能 ------------ 这个消息对硅谷的芯片打工人吸引力是巨大的,Nuvacore这次的阵容都是功成名就的明星阵容,以前Nuvia创始团队重新集合,拿了红衫的投资,做面向 AI 基础设施/agentic computing 的通用ARM CPU。当年还是一个尚未完全被验证的大方向都能大获成功,而现在ARM CPU服务器正在风口浪尖上,前景和想象力和2019年Nuvia比起来大了太多了 上一次Gerard把Google,苹果platform architecture组的架构大佬挖了好多过去,这次的号召力只会强得多,240m的融资,已经验证过的路径和创始团队,肉眼可见的下一个增长风口,一定会让Nuvacore成为湾区最热门最受追捧的芯片startup,没有之一。毕竟这是一个肉眼可见能财富自由而且风险收益比极好的机会 ---------- 遥想当年Nuvia第一代CPU的发布赶上苹果M2时代,还是挺震撼的,Nuvia让高通在一年的时间CPU跑分进步了整整三代,单核跑分从2300变成3200,竟然超过了苹果M2 max一大截 可惜Nuvia Phoenix core从发布到最后上市拖了太久太久,中间苹果把牙膏挤爆了连着上市了M3/M4,于是Nuvia CPU上市之后从跟M2比较变成了跟M4比较,从期待中的C位变成背景板了 当年Nuvia的眼光非常超前,在2019年ARM CPU服务器市场占有率几乎为零的情况下,就是想从零开始打通这个市场,2021年被高通14亿美元收购之后,高通也给了无限的资源支持,扩招力度很大,给的薪水都是市面上最高一档的。 可惜大环境在2022年恶化的很快,加上高通的管理层战略眼光实在太差太短视,在业界ARM服务器生态都开始有起色的时候,为了股价节约开支,竟然再一次把自家的Nuvia CPU 服务器团队解散了(算上2015年已经解散过一次ARM服务器团队) 直到2025年,Nvidia的Grace ARM CPU都已经发布四年了,Vera ARM CPU都已经自研好久了,Amazon的ARM CPU Graviton都快占据CPU服务器新出货的50%了,高通才后知后觉谨慎的重启ARM服务器项目 所以这次Gerard从高通的高管位置把之前的创始团队拉出来自己干,可能是因为高通高层战略眼光实在太差屡屡错过机会,上次Nuvia想做ARM服务器,高通的承诺也因为大环境恶化没做数,结果被收购之后被高通取消了项目直接改做了laptop芯片和手机芯片 加上高通今年在手机销量上因为内存和存储历史级的巨额涨价,可以预见要受到重创(市场萎缩30%),能拿出的扩张预算有限,在高通能拿到的资源是受到掣肘的 而在创业公司里比在 Qualcomm 这种大平台里更容易拿到足够快的决策速度、团队纯度、产品定义权和资本叙事,于是选择在窗口已经被验证时重新集结老班底 但更可能因为,AI时代的CPU前景想象力真的太广阔了,完全值得重新投入一次,不是Gerard变了,而是外部市场变了 ------------------------ 进入2025年之后,AI agent的出现,隐隐让CPU重新变成了瓶颈 CPU服务器重新步入增长轨道,而且潜力巨大,有好几个因素: 1. 随着推理时代的到来,GPU演化到针对推理的系统级新架构,CPU 是永远在忙的总指挥orchestrator, 因为要追求token throughput,所以异构计算阶段变多 + 批处理数量batch越来越大,scheduling/routing/data flow复杂度变高,对orchestration要求也变高 所以在系统级异构推理架构里,AI加速器和GPU在CPU:GPU的配比上,也变得更为激进,从以前的1:4到Grace Blackwell的1:2,以后是很有希望达到1:1的比例的。Google TPU配Axion,Amazon Tranium配Graviton,Nvidia Rubin配自家Vera CPU 这条在我的去年11月半导体年终回顾写过,基本上在2026年成为了共识,虽然这部分主要是各家AI 芯片自研,并不是纯粹的CPU服务器,其实不算是外部CPU服务器的机会 2. 也是同一篇年终回顾里写到的: 从CPU视角去看agentic workload,routing和工具处理都在CPU上,如果把常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU,CPU甚至能耗也超过了总能耗的40% Agentic AI目前是一个CPU瓶颈更多的事情,Agent管理很多个CPU,再加上agent经常要开sandbox,很可能会成就CPU需求的新一波回暖 现在回看去年写的这个逻辑,潜力是非常大的。但其实年初可能并没有很大规模发生,年初的CPU增长和各家渲染的CPU短缺潮和这个逻辑暂时关系不大,更多可能是前几年的capex投入GPU的比例太大,造成传统CPU服务器投入不够,所以需求上升是一个回补之前传统服务器投入不够的部分。 但到了下半年甚至2027,agent会开始更广泛的铺开,比如智能导购和客服,已经占到了Amazon去年年底100万CPU采购的相当部分比例,这部分的增长是很快的 前两个逻辑,基本上是今年主流叙事在讲CPU潜力的共识,但是我的感悟是,还有另外两个逻辑被低估了: 3. 造成CPU服务器潜力更大,更长线的主逻辑,可能和agent本身没有直接关系,而是code agent带来的副产物: coding门槛和速度的大幅优化,让“构建软件 + 连接软件 + 调用软件 + 自动化软件”这整件事便宜了一个数量级,Jevons 悖论在software供给端的展开,最终把世界推向更高的软件密度和 API 密度,这直接带来了CPU传统workload的线性上升 从2025年年底开始,coding agent迎来了质变,Claude code迎来了爆发式增长,三个月的token营收增长了三倍,那么导致的下一步必然是Code量的十倍增长,以及App数量的巨量增长 即便是在大厂,每天1m token消耗只能算是个平均水平,人均coding量必然是翻倍的(小厂就是翻十倍了),code供给量暴增,不会只停留在 repo 里,而会逐步变成更多长期运行的软件资产,长期存活的feature变多,product变多,microservice变多,API变多 长线来看,App/API所有的生产成本和生产周期会变成原来的10%,API实现极大富足。那么API的Usage就会大量的上升,这就会造成传统CPU Workload或者说CPU Seconds大量的上升,这甚至和agentic没有直接关系 时间维度上,这个逻辑并不是短期性质,Claude code的爆炸是这几个月刚发生的事情,那么产品上线,microservice,api上线,可能都要向后延迟。当软件变便宜,社会不会少用软件,只会把更多事情软件化 所以也许到下半年甚至更久才会看到,传统cpu云的需求又莫名其妙增加了,表面上看,甚至和AI agent没有直接关系 4. CPU是一个技术上很难通缩的东西,不像内存/存储有很多压缩算法会降低单任务对存储的用量,CPU workload增长转化成硬件需求增长是实打实的 比如说kvcache其实每年都有各种压缩技术出现,老的压缩技术比如kvcache的multi-head它会share一个head(GQV),这个大概会相当于4倍的压缩,再比如说去年turboquant这个技术也会新带来几倍的压缩。然后加上数据精度从FP16到现在的下一步要到FP4,精度的下降都会带来kvcache的压缩,从而带来存储方面的技术通缩。 但CPU是一个技术层面上通缩量很小的事情,目前任何的agentic的cpu workload(CPU seconds)增长都是硬件需求增长,它通缩的方面只有每年每一代跑分提高的10%到15%。如果说另外通缩因素,比如云的五倍六倍的超卖会不会影响?不会,因为它一直是超卖的,所以说超卖/利用率低这个CPU技术通缩的因素不会继续扩大了,每个增长的CPU seconds都是不怎么带打折的硬件线性增长 ARM的指引是CPU的供需缺口可能会到30%以上,这几个原因的叠加,加上AI服务器对CPU服务器产能和订单的挤压,可能会让缺口更大,各个hyperscaler的反应可能是会滞后的 ------------------ CPU整体需求潜力增长的同时,ARM服务器CPU也赶上了历史上最好的时代: Hyperscaler为了节省成本,接近50%的新增传统server CPU都是ARM,Google的Axion,Amazon的Graviton,Microsoft的Cobolt,Graviton甚至2026年的产能已经全部卖完,瓶颈成了产能 Google TPU配Axion,Amazon Tranium配Graviton,Nvidia Rubin配自家Vera CPU,这部分CPU为什么会集体转向ARM,除了成本因素之外,也因为推理系统为了追求token throughput,batch越来越高越做越复杂,自研ARM CPU以及系统性软件硬件的co-design会更方便,比如Nvidia是Dynamo去控制Vera和Rubin之间的协同 Nuvacore的规划上来看,不仅仅满足于做IP,也要做成品,因为在招聘网站上出现了validation engineer的职位 但是这次Nuvacore面临的挑战也不小:起步太晚了,无论是市场上,还是技术上,竞争都激烈了很多。CPU服务器和七年前比,已经复杂了很多,已经不再是单片CPU的竞争,而是rack系统级别的复杂度 现在开始做2028~2029年上市的CPU,要做到rack级别有竞争力,规模要大很多,基本上要几十个chiplet,500+个core拼起来,还要考虑如何适配AI agentic workload,工作量比以前明显要大的多,对一个startup的挑战比七年前也大得多 ---------------- 上次Nuvia在成立两年之后成功的以14亿美元出售,这次市场热度比五年前高了一个数量级,Nuvacore之后的路会怎么走呢? 如果是被收购路线,其实买家可能比五年前比并没有更多,这五年里,Google有了Axion,微软有了Cobalt,Amazon有了Graviton,Nvidia自研的Vera CPU已经成型,连ARM也打破了35年来只做IP的常规,开始做自己的AGI CPU芯片 最有可能的是Softbank系,softbank已经在ARM CPU服务器生态上布局深耕了多年,65亿美元收购了Ampere,再收购Nuvacore是很正常的事情,这个市场想象力足够大 其他的选择也可能是Meta,因为几家互联网公司里,只有Meta的silicon house没有稳定可靠的CPU服务器,有限的资源在MTIA都做AI加速器去了 但是Meta的问题在于稳定性极低,决策每个月都在变化,注意力非常短期化,项目随时取消,对Nuvacore来说完全无法兑现潜力,是一个非常糟糕的买家 但总体来说,Nuvacore的选择肯定比五年前宽了太多了,对ARM CPU服务器的潜力大家的共识都很明确,融资的难度要小很多,自己运营扩张起来,阻力比以前小很多,合作伙伴的配合程度上也因为未来预期,会容易很多 完全可以自己做大到比Nuvia当年更大的规模再考虑出路,根本不着急卖
显示更多
0
27
484
96
转发到社区