注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 Mesh
Mesh 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 Mesh 的推特
Cloudflare Mesh 发布:私有组网工具,与 Tailscale、Zerotier 功能类似
Cloudflare 推出加密私有组网服务 #Mesh,利用# Cloudflare 强大的基础设施实现跨网跨设备加密组网并全球访问。该服务目前已经上线,每账号支持 50 台设备 + 50 个用户,让团队可以将所有资源放在同一个私有网络上,任意节点也都可以访问 Mesh 中的全部资源。查看详情:
显示更多
0
11
121
19
转发到社区
《STARS-570》催眠直播 初体验脑袋空白不省人事的高潮!人间控制性爱 本庄铃 年度番号排名
0
0
97
16
转发到社区
Amazon 员工正在刷 Token Amazon 内部出现了一个新词:tokenmaxxing,意思是刷 AI 用量数据。 起因是 Amazon 今年给开发者定了硬指标:每周超过 80% 的开发者必须使用 AI 工具,并且在内部排行榜上追踪每个人的 Token(AI 模型处理的数据单位)消耗量。公司说这些数据不会用于绩效考核,但员工不信。“经理们确实在看,”一位员工说,“追踪用量会制造扭曲的激励,有些人把它当竞赛。” 于是一些员工开始用公司最近大规模部署的内部工具 MeshClaw 来刷分。MeshClaw 可以创建 AI Agent 代替用户操作办公软件,比如发起代码部署、处理邮件、操作 Slack。员工让它跑一些本来不需要 AI 做的事,纯粹为了把 Token 消耗数字刷上去。 MeshClaw 的灵感来自今年 2 月走红的开源项目 OpenClaw,后者允许用户在自己电脑上本地运行 AI Agent。Amazon 内部有三十多人参与开发了这个工具,内部文档的描述颇为科幻:“它会在夜间做梦来整合白天学到的东西,开会时帮你盯着部署,你醒来之前就把邮件分好了优先级。” 不只 Amazon,Meta 员工也在干一样的事,在内部排行榜上刷 Token 用量。 这背后是整个硅谷大厂的共同焦虑:巨额 AI 投入需要看到回报。Amazon 今年资本开支预计 2000 亿美元,绝大部分砸向 AI 和数据中心。公司需要证明这些钱花得值,最直观的方式就是让员工用起来,于是就有了指标、排行榜、和随之而来的数据注水。 也有员工对 MeshClaw 本身的安全性表示担忧。一个能代替你操作各种办公系统的 AI Agent,一旦出错或执行了非预期操作,后果可能不小。“默认的安全设置让我害怕,”一位员工说,“我不会放任它自己去干活。” 【注:tokenmaxxing 这个词模仿了网络俚语 -maxxing(把某件事做到极致)的构词法,在这里特指刷 AI Token 用量。】 来源:
显示更多
0
34
71
7
转发到社区
为 OKX 团队发布 Agent Payments Protocol(APP)感到自豪。 基于多年在链上基础设施和 AI 方面的积累,并与一批来自云计算、L1、公链生态、DeFi 和 AI 领域的优秀合作伙伴共同打造。 这正是让 Agent 经济走向真实落地的关键一步。 感谢所有合作伙伴的支持! AWS (@awscloud) Alibaba Cloud (@alibaba_cloud) Ethereum Foundation (@ethereumfndn) Solana (@solana) Base (@base) Sui (@SuiNetwork) Optimism (@Optimism) Aptos (@Aptos) Pharos (@pharos_network) Paxos (@Paxos) Uniswap (@Uniswap) MoonPay (@moonpay) Nansen (@nansen_ai) Kite AI (@GoKiteAI) Sahara AI (@SaharaAI) Zerion (@zerion) AltLayer (@alt_layer) Meshpay (@meshpay) Surf (@SurfAI) Teneo Protocol (@teneo_protocol) QuickNode (@Quicknode) 0G Labs @0G_labs Pieverse (@pieverse_io) RootData (@RootDataCrypto)
显示更多
0
105
419
79
转发到社区
之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataflow架构 + 确定性调度,核心差异在NoC拓扑、内存层级、编译器抽象这些维度上展开。 Cerebras是里面让我真正被震惊到的一家,而它却这四家里马上第一个拿到IPO结果的。 这家公司的选择比其他三家都激进一个量级:不做芯片,直接做整片wafer。 单颗WSE-3,21.5cm × 21.5cm的整片晶圆,90万个PE通过scribe-line stitching在物理上连成一片连续的silicon。这个工艺是Cerebras和TSMC联合定制的,把原本用于晶圆切割的窄条改造成跨reticle的金属导线,让所有reticle在物理上拼接成一整块芯片。(配图二展示了单颗WSE-3内部结构:左半边是整片晶圆的reticle网格和scribe-line拼接,右半边放大了单个PE的微架构。) 单个PE的结构极简:8-wide FP16 SIMD计算核,48KB本地SRAM直连,没有cache层级,所有数据访问都是确定性的单周期。加上一个5端口路由器(N/S/E/W + loopback),相邻PE之间的通信延迟也是单周期。关键在于,跨reticle边界的mesh在物理参数上和reticle内部完全一致,编译器和runtime完全不需要感知reticle边界的存在。 从LLM推理的视角看,这个均匀性的价值非常大。 LLM推理的瓶颈在decode阶段。每生成一个token,模型权重要被完整读取一次,计算量却很小,典型的memory-bound场景。GPU集群在这个环节的核心问题是数据搬运:HBM带宽有限,多卡之间还要经过NVLink → NVSwitch → InfiniBand → Ethernet四层互联,每一层带宽和延迟都差几个量级,编程模型必须显式处理每一层的拓扑边界。 Cerebras的做法完全绕开了这个问题。单片wafer内部fabric带宽27 PB/s,权重从外部的MemoryX存储集群通过SwarmX流入wafer后,在PE之间按数据流模式传播执行,同一套placement和routing算法跑遍整片wafer。(配图一展示了这个系统级架构:MemoryX参数存储集群到SwarmX互联fabric,再到底层最多2048台CS-3节点,权重广播和梯度规约的数据流方向一目了然。) 90万个PE各自带48KB SRAM,合计约42GB片上存储,每个PE对自己本地SRAM的访问是单周期确定性的,PE间通信每跳single-cycle,延迟和曼哈顿距离成正比。对于推理场景,前提是weight streaming的编译器能把权重有效地分配到对应的PE上,这42GB分布式片上SRAM的聚合带宽远超GPU的HBM方案,没有cache层级带来的访问不确定性,没有跨芯片搬运的开销。 回到我自己的体感。做推理芯片架构的时候,NoC拓扑和内存层级的权衡花了大量精力,因为芯片边界是硬约束,跨芯片通信的成本和片内通信之间永远存在断层。Cerebras的做法等于从片内通信的角度消除了这个断层,代价是整条制造和封装链都要重新定义。 这也解释了Cerebras的工程取舍。所有架构创新集中在wafer内部,scale-out方向直接复用100GbE + RoCE的以太网生态。wafer内27 PB/s对比跨CS-3的SwarmX在Tbps量级,几个数量级的差距全部交给商品化网络承担。推理场景下单wafer内部的带宽和延迟优势可以直接转化成token生成速度。 OpenAI选择和Cerebras合作做推理,从架构层面看逻辑是通的。大规模在线推理需要低延迟、高吞吐、确定性时延,这三点恰好是wafer-scale架构在片上通信均匀性方面的结构性优势。 但这套架构也有几个结构性的问题值得正视。 良率和成本是绕不开的。整片wafer做单颗芯片,任何一个reticle的缺陷都影响整体。Cerebras靠冗余PE和路由绕行来应对,但冗余比例和良率数据从未公开过。一片wafer的制造成本本身就远高于切割后卖单颗die的模式,叠加23kW、15U的单系统功耗和体积,部署密度和TCO在大规模推理集群的经济性上面临考验。 最关键的是KV cache的容量瓶颈。42GB片上SRAM看起来很大,但长上下文推理场景下KV cache随序列长度线性增长。以Llama 70B为参考,FP16下128K上下文的KV cache就要吃掉约40GB,即使做KV cache量化,长序列场景下的容量压力仍然显著。片上放不下的部分必须依赖MemoryX做外部存储,数据要经过SwarmX回传,这条路径的带宽在Tbps量级,和wafer内部27 PB/s的差距意味着长序列场景下decode速度会被外部带宽卡住。这可能是Cerebras在推理场景面临的最核心的架构约束。
显示更多
0
45
270
47
转发到社区