GPT Image2 生图
Stitch 转原型
Figma 精修
我感觉我设计能力强的可怕🫡
掀翻设计行业,谷歌最新发布的 Stitch 真tm好用!
如果你平时对配图审美较高,我建议你用这个生成,随手画的草图 AI 就能get到你想要的
最恐怖的地方是这玩意免费的!生成速度还非常快!
放在几年前不花个几万做不出这效果,从前端到设计,这下彻底革新了
链接:
显示更多
不会设计 App 的人,真的有福了。
Google Labs 的 Stitch 最近又被推上热榜,我看了一下,这东西对独立开发者、小团队、产品经理都很香。
你不用会 Figma,也不用一上来就找设计师。
把你想做的页面说清楚,它就能帮你生成一套像样的界面草图,而且不是那种随便拼几个按钮的玩具感。
比如你想做一个记账 App、健身打卡页、课程购买页、SaaS 后台,它可以直接给你跑出可看的 UI 方向。
这对普通人最大的价值不是“替代设计师”。
而是让你在花钱之前,先把想法变成一个能看的东西。
很多项目死在第一步:脑子里有想法,但说不清、画不出、没人懂。
Stitch 这种工具出来后,验证想法的成本又低了一截。
创业也好,做副业也好,先把页面跑出来再说。
🔗
显示更多
anthropic 说的 html vs markdown,
能吵起来的都是产品和 AI 民科,
如果你真的自己在做产品的话,
自然而然就会用 html 或者类似工具给你展现出直观的产品效果,
对应就落地成了自己的 skill 和爱马仕,
比如我们场景里面就有个类 stitch 的设计流程,
自动开 subagent 生成一堆设计图然后对比效果挑一张,
你告诉我 markdown 怎么实现?
当然 anthropic 也是天天放狗屁,拿着一些垃圾当宝贝发,然后一群民科吵来吵去。
显示更多
感觉 AI 时代最惨的工作就是设计师。
几年前的 Midjourney,到 nano banana,再到 Stitch,再到昨天的 GPT-image-2。
虽然有一种声音是“设计师重要的是审美”,Taste 很难被替代。
但这并不妨碍每次 AI 设计工具迭代时,你的老板都想裁掉几个设计师。
显示更多
之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataflow架构 + 确定性调度,核心差异在NoC拓扑、内存层级、编译器抽象这些维度上展开。
Cerebras是里面让我真正被震惊到的一家,而它却这四家里马上第一个拿到IPO结果的。
这家公司的选择比其他三家都激进一个量级:不做芯片,直接做整片wafer。
单颗WSE-3,21.5cm × 21.5cm的整片晶圆,90万个PE通过scribe-line stitching在物理上连成一片连续的silicon。这个工艺是Cerebras和TSMC联合定制的,把原本用于晶圆切割的窄条改造成跨reticle的金属导线,让所有reticle在物理上拼接成一整块芯片。(配图二展示了单颗WSE-3内部结构:左半边是整片晶圆的reticle网格和scribe-line拼接,右半边放大了单个PE的微架构。)
单个PE的结构极简:8-wide FP16 SIMD计算核,48KB本地SRAM直连,没有cache层级,所有数据访问都是确定性的单周期。加上一个5端口路由器(N/S/E/W + loopback),相邻PE之间的通信延迟也是单周期。关键在于,跨reticle边界的mesh在物理参数上和reticle内部完全一致,编译器和runtime完全不需要感知reticle边界的存在。
从LLM推理的视角看,这个均匀性的价值非常大。
LLM推理的瓶颈在decode阶段。每生成一个token,模型权重要被完整读取一次,计算量却很小,典型的memory-bound场景。GPU集群在这个环节的核心问题是数据搬运:HBM带宽有限,多卡之间还要经过NVLink → NVSwitch → InfiniBand → Ethernet四层互联,每一层带宽和延迟都差几个量级,编程模型必须显式处理每一层的拓扑边界。
Cerebras的做法完全绕开了这个问题。单片wafer内部fabric带宽27 PB/s,权重从外部的MemoryX存储集群通过SwarmX流入wafer后,在PE之间按数据流模式传播执行,同一套placement和routing算法跑遍整片wafer。(配图一展示了这个系统级架构:MemoryX参数存储集群到SwarmX互联fabric,再到底层最多2048台CS-3节点,权重广播和梯度规约的数据流方向一目了然。)
90万个PE各自带48KB SRAM,合计约42GB片上存储,每个PE对自己本地SRAM的访问是单周期确定性的,PE间通信每跳single-cycle,延迟和曼哈顿距离成正比。对于推理场景,前提是weight streaming的编译器能把权重有效地分配到对应的PE上,这42GB分布式片上SRAM的聚合带宽远超GPU的HBM方案,没有cache层级带来的访问不确定性,没有跨芯片搬运的开销。
回到我自己的体感。做推理芯片架构的时候,NoC拓扑和内存层级的权衡花了大量精力,因为芯片边界是硬约束,跨芯片通信的成本和片内通信之间永远存在断层。Cerebras的做法等于从片内通信的角度消除了这个断层,代价是整条制造和封装链都要重新定义。
这也解释了Cerebras的工程取舍。所有架构创新集中在wafer内部,scale-out方向直接复用100GbE + RoCE的以太网生态。wafer内27 PB/s对比跨CS-3的SwarmX在Tbps量级,几个数量级的差距全部交给商品化网络承担。推理场景下单wafer内部的带宽和延迟优势可以直接转化成token生成速度。
OpenAI选择和Cerebras合作做推理,从架构层面看逻辑是通的。大规模在线推理需要低延迟、高吞吐、确定性时延,这三点恰好是wafer-scale架构在片上通信均匀性方面的结构性优势。
但这套架构也有几个结构性的问题值得正视。
良率和成本是绕不开的。整片wafer做单颗芯片,任何一个reticle的缺陷都影响整体。Cerebras靠冗余PE和路由绕行来应对,但冗余比例和良率数据从未公开过。一片wafer的制造成本本身就远高于切割后卖单颗die的模式,叠加23kW、15U的单系统功耗和体积,部署密度和TCO在大规模推理集群的经济性上面临考验。
最关键的是KV cache的容量瓶颈。42GB片上SRAM看起来很大,但长上下文推理场景下KV cache随序列长度线性增长。以Llama 70B为参考,FP16下128K上下文的KV cache就要吃掉约40GB,即使做KV cache量化,长序列场景下的容量压力仍然显著。片上放不下的部分必须依赖MemoryX做外部存储,数据要经过SwarmX回传,这条路径的带宽在Tbps量级,和wafer内部27 PB/s的差距意味着长序列场景下decode速度会被外部带宽卡住。这可能是Cerebras在推理场景面临的最核心的架构约束。
显示更多
AI又再次发力了,以后不管看到哪个网页的风格,都能靠AI直接模仿!
这回前端设计师真惨了,离彻底失业不远了!
给大家分享一个免费工具,不用注册,打开就能用,只要输入任意网站的链接,就能自动生成符合Google Stitch规范的DESIGN.md文件。
它有两种用法特别实用:
一是输入网站链接,工具会自动抓取网站的配色、字体、组件样式,直接生成完整的DESIGN.md文档。
二是直接描述你的项目需求,它能从零帮你生成一套专属的设计系统文档。
而且自动提取的内容特别全,色板、字体层级、组件样式、布局规则全都有,输出的还是标准Markdown格式,特别省心。
用法也很简单,适用场景一眼就能懂,看到哪个网站的设计戳中你,把它的链接粘贴进去,拿到生成的DESIGN.md,再丢给Cursor、Claude这类AI编程工具,就能直接复刻出同款UI。
整个流程特别丝滑:刷到好设计→粘贴URL→生成DESIGN.md→交给AI编程工具→快速出活。
链接:
显示更多
AI芯片的scale up,底层=物理的限制是reticle:
光刻机一次只能曝光一个固定大小的区域,上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。
行业突破这个限制的难度非常大,接近物理极限,因为光刻的面积和精度往往不能两全(镜头等设备限制),所以只能绕开它。
早期是大GPU,但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径:一种是把系统做大,用一块更大的“硅底板”interposer把多个芯片拼在一起;另一种是把芯片拆小,再通过高速连接重新组合。
interposer本质上不做计算,只负责连接。GPU、HBM这些芯片放在上面,通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶,很大程度上不是因为算得更快,而是数据在不同芯片之间移动得更快。
但interposer本身也会超过reticle的尺寸,这时候就需要用到stitching。做法就像拼瓷砖:一块一块曝光,然后精确对齐,拼成一个整体。难点在于精度控制,边界一旦对不齐,连线就会出问题。
这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片,对时序的要求极高,任何纳米级误差都可能影响性能,所以不能用stitching。interposer因为只是布线层,没有复杂逻辑,可以容忍这种拼接带来的误差。
围绕连接这件事,行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台,把所有芯片放在同一块interposer上,连接集中在这层完成,带宽能力很强,但成本也高。另一种是不做大底板,只在需要高速连接的地方嵌入一小块桥接结构,按需提供带宽,结构更灵活,制造压力也更小。
在AI训练场景下,模型规模大,HBM带宽成为关键,整个平台需要维持极高的数据吞吐,这类设计更依赖大面积interposer。
但推理场景的约束不一样,更关注成本、延迟和并发,带宽需求往往集中在局部,不需要整个平台都维持极致带宽。这时候,把芯片拆成多个模块,再用局部高速连接拼起来,会更合适。
这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer,而是在关键位置提供高带宽连接,可以把计算、缓存、IO等模块分开设计,再按需组合。这样的结构更容易控制成本,也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说,这种灵活性很重要。
当然,推理并不完全不需要高带宽。在一些大模型推理场景里,HBM依然重要,对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中,成本和规模才是核心约束,这使得模块化和局部互连的价值变得更高。
站在26年一季度末看未来,AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大,而是把计算拆开,再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了,系统的规模则由连接能力决定。
免责声明:本文非投资建议dyor
显示更多
Play switch or me?
玩我还是游戏机🎮