搜尋 SOTA 相關推文 — 推特瀏覽器

2026.05.12 08:52

围绕前沿 SOTA 模型的第一层 harness 产品已经做的非常好了，以至于我现在做新产品的时候已经很少使用 plan 模式，换句话说，现在 codex/cc 可以自动的理解意图来执行目标。现在刚到 2026 年 5 月，短短四个月过去，harness 的进展惊人，但在云端 harness 仍有关键的多处问题未得到解决。

0

6

54

1

轉發到社區

Charles在路上@Charles77xixi

2026.04.16 11:41

不得不说现在SOTA模型的智能水平确实超过了大部分人类。背景是我下午在思考一个问题：为什么咸鱼之王这种粗糙的小游戏能赚这么多钱？因为我没玩过小游戏，平时玩游戏也并不会氪金，所以对这个问题毫无头绪，下面是AI的输出，我觉得非常有道理，同时我也相信这些认识的深度超越了大部分人类对这件事的认识。 ---------- 咸鱼之王这种小游戏为什么这么多人玩？粗糙不是缺点，粗糙是设计。你的隐含假设是错的。这个问题里藏了一个假设：游戏好玩 = 画面精致 + 玩法复杂。这是核心玩家的视角，但核心玩家只占游戏市场的一小撮。咸鱼之王的目标用户画像：30-50 岁，可能是工地午休的工人、带娃间隙的宝妈、等外卖单的骑手。他们对游戏的需求和你完全不同。从第一性原理拆：人为什么玩游戏？把所有花哨的东西剥掉，游戏提供的底层价值就三个： 1. 低成本的多巴胺咸鱼之王的核心循环：点一下 → 数字变大 → 奖励弹出来 → 再点一下。这个循环 2 秒就能完成一次。短视频是划一下获得一次多巴胺，咸鱼之王是点一下获得一次。精致 3A 大作呢？你得先学操作、理解剧情、打 30 分钟才能获得一次成就感。多巴胺的获取效率差了一个数量级。对于碎片时间用户来说，等电梯的 30 秒、蹲厕所的 3 分钟，他不需要沉浸感，他需要的是立刻、马上、现在就爽一下。 2. 数值成长的幻觉你的角色从 100 攻击力变成 10000，从青铜变成王者。现实生活里，大部分人的成长是缓慢甚至停滞的。游戏里的数字增长提供了一种现实中很难获得的确定性正反馈：你投入就一定有回报，不存在办公室政治，不存在怀才不遇。越是现实中缺乏掌控感的人，越容易在数值成长里找到满足。这不是智商问题，是心理需求问题。 3. 社交货币咸鱼之王在微信小游戏生态里爆发，天然带社交属性。排行榜上你比同事高一名，群里分享一下你的稀有角色。炫耀和比较是人类最古老的社交驱动力。精致游戏反而没有这个优势，因为你身边的人不一定玩同一款 3A 大作，但微信小游戏人人都能点开。粗糙为什么反而是优势？这里有一个很违反直觉的机制：精致游戏：心理门槛高，觉得要认真对待；花 300 块买断，决策很重；安利成本高，别人要下载 App；打到一半退出很可惜。粗糙小游戏：心理门槛几乎为零，随便点点；花 6 块抽一次，感觉不是钱；微信里点一下就能玩；随时放下随时捡起。粗糙 = 轻 = 没有心理负担。用户不会觉得我在玩游戏，他觉得我就是随便点点。这个心理差异极其重要，因为很多人对玩游戏是有负罪感的，但随便点点没有。氪金逻辑：6 块钱的心理学不氪金的人通常会算账：花这个钱值不值？但咸鱼之王的付费设计精准打击的是不算账的时刻：你差一点就能过关，弹出一个 6 元礼包。6 块钱，一瓶水的价格，你不会启动理性分析系统，手指比大脑快。你连续登录 7 天，第 7 天给你一个超值奖励，但要花 1 块钱领。你已经投入了 7 天的时间成本，沉没成本谬误会替你做决定。排行榜上你被朋友超过了，花 12 块就能追回来。损失厌恶比获得感强 2 倍，这是诺贝尔经济学奖验证过的结论。每一笔都很小，小到不触发你的理性防线。但 1000 万用户每人花 6 块，就是 6000 万。一句话总结咸鱼之王不是一个游戏产品，它是一台精准的多巴胺贩卖机，披着粗糙游戏的皮，底层跑的是行为心理学和微交易经济学。你不玩、不氪金，是因为你有更高效的多巴胺来源和更强的理性防线。但对于几千万碎片时间充裕、现实正反馈稀缺的用户来说，这 6 块钱买到的确定性快乐，比现实里任何东西都便宜。

0

1

0

轉發到社區

郭宇 guoyu.eth@turingou

2026.05.14 20:25

OpenAI 的估值也许被极大低估了，它是世界上唯一一家拥有顶级 SOTA 模型，最多用户数据后训练，最好的产品化跨平台 harness product（codex）和最充裕算力的 AI 公司。

0

20

471

28

轉發到社區

郭宇 guoyu.eth@turingou

2026.05.16 15:43

我对 wanman 未来半个月的开发计划设想：支持一台持久化的隔离计算空间（永久沙盒而不是当前的 workspace 临时沙盒），一个双工语音助理用来压缩输入和输出，内置顶级 SOTA 模型而不要求用户使用自己的 codex 授权；没有订阅 plan，所有功能按照使用时间付费。

0

1

25

0

轉發到社區

paulwei@coolish

2026.05.08 15:19

@cryptoresetlife Qwen3-TTS-12Hz-1.7B-Base-8bit，本地克隆任何人的声音，只需5秒样本。出声速度比走网络豆包语音快，在Mac Studio 512g下实测首音频延迟大约200ms，效果也是跟sota相比有过之而无不及。

0

1

19

0

轉發到社區

virushuo@virushuo

2026.04.22 14:22

各种coding plan都在涨价，不能推出token变贵了这个逻辑。对比 gemma4 31b和 gpt-5.0 两者智能水平接近，coding甚至gemma4更好。而gpt-5是10个月之前的sota。如今gemma4是免费且开放权重的，以10个月前标准看，token价格降低了不止90%。但是新一代模型更大了，也就更贵了。

0

4

18

0

轉發到社區

思维怪怪@0xLogicrw

2026.05.18 11:01

一名网友在小红书平台发帖称，据其多位留学生朋友反馈，DeepSeek 目前在初筛阶段直接拒绝海外本科学历（含 QS 前 50 高校），但一年制海外硕士反而能顺利过关。发帖人自述，他去年曾进入 DeepSeek 招聘的发 offer 阶段。今年更换化名重新投递，并在简历中补充了参与 SOTA 模型研发、为开源框架 verl 提交代码等经历，结果依然在初筛被直接淘汰。他表示，这种存在「倒挂」的硬性过滤规则完全无视了候选人的开源社区影响力与实际工程能力。上述筛选逻辑目前仅属社交平台用户的单方面说法，DeepSeek 官方暂未对相关传闻作出回应。

0

4

1

0

轉發到社區

Shawn Pang@0xshawnpang

2026.05.09 17:24

对于很多大陆华人朋友来说，最核心的个人能力“分水岭”就是两件事情： 1. 有足够强的英文能力和阅读英文一手信息源的习惯，而非只能在信息茧房里阅读全球信息的二手/三手过滤版。 2. 会不会用AI，尤其是正确使用全球SOTA模型，会用Prompt，可以部署和调用Agent，多模型和人机协作，而非只是问豆包问题。

0

80

1.1K

158

轉發到社區

阑夕@foxshuo

2026.02.08 07:27

之前有张「中国AI vs 美国AI」的图（图1）很火，就在OpenAI和Anthropic齐发新模型的同时，元宝和千问正在开打红包大战，对比起来讽刺性拉满了。但这个笑话的保质期很短，也不怎么好笑了，因为很快赶上了字节和快手同样先后的发了新一代视频模型，在外网刷屏的程度再次引起洋人对于中国AI实力深不可测的「刻板印象」。所以说钱钟书老爷子写「围城」是有道理的，寰宇就是一个围城，里头的人眼馋外边，外边的人羡慕里头。字节的Seedance 2.0很牛逼，可以说是完全改写了视频生成的方法，而且因为字节这家公司自带的外围声量一直很大，所以虽然发布更晚，评价增长却更快，但快手的Kling 3.0也非常强，我已经烧掉三个号了，保证绝对不是在强行塑造「双星闪耀」的概念。这也和两个模型的路线差异有关，综合能力肯定都要对标视频大模型的Sota、也就是谷歌的Veo模型，但Seedance 2.0更侧重于Sora 2的那套运镜、理解、模仿、转场等效果，极大的利好短视频创作者生态，而Kling 3.0则更偏向于Runway代表的影视化、真实化和工业化的能力，是冲着专业导演和工作室去的。所以博主和用户天然会对Seedance 2.0更有感觉，这没毛病，但我对Kling 3.0的上限期待很高，它真的是在抹平真实和虚拟之间的界限，不过从长期来看，路线差异必然是暂时的，最后大家都会殊途同归，解决抽卡问题的同时，全方位无死角的替代掉现有视频生产管线的一半以上，甚至更多。相比「闷声发大财」的AI Coding，多模态才是AI接近普通人的破圈手段，去年ChatGPT和Gemini的两次「翻倍级」增长（图2），一个是因为GPt-4o的「吉卜力风潮」，一个是基于Nano Banana的降维打击，都是多模态在立功。到了今年，战场开始继续前移，除了Seedance 2.0和Kling 3.0，同样是在这个月，马斯克发布了Grok专有的视频模型Imagine 1.0，谷歌也发布了打掉游戏引擎市值的Genie 3，发现共同点了吗？全，是，视，频。人是视觉动物，所见即所得的信息量，是远超文本和语言的，视频模型以前主要吃亏在能力不足，训练难度居高不下，生成质量良莠不齐，无法形成类似「一键P图」的稳定性玩法，但是到了2026年，这个瓶颈期目测已经快要跨过去了。还记得威尔·史密斯吃意大利面吗？那也不过是两三年前的事情，时间过得很快，也很扁平，技术的进化效率太可怕了。多说几句开头那个对比吧，如果说中国AI公司眼馋Claude Opus 4.6和GPT-5.3-Codex，倒也确实没毛病，但这也不只是纯粹的技术代差，中美的商业环境决定了AI渗透的发力点不一样。表面上看，美国的AI巨头都在发力AI Coding，容易货币化是一回事，再往深了想，Coding自由的终点是什么？是工具、软件甚至系统的零成本化，需要什么让AI去写代码就好了，所以美股里的SaaS赛道突然就崩了。 SaaS是一个积累了快30年的万亿级规模市场，非常适合拿来当作回应「AI投入太大、回报不足」的靶子，想象空间太大了，而大厦将倾的此情此景，实在是有种见证时代的残酷美学。王慧文在即刻上发了一条非常精辟的动态（图3）：「我们曾经以为，中国SaaS会像美国SaaS那么值钱，现在看，美国SaaS会像中国SaaS这么不值钱。」大佬就是大佬，几句话就说到点上了，中国的AI公司在产业化方面有苦难言，尤其是面对美国同行的高歌猛进，原因就在于：你不可能去替代一个不存在的市场，拿走一份不存在的产值，讲述一篇不存在的故事⋯⋯ 但在多模态尤其是视频模型方面，就不是这样了，中国互联网的短视频、直播和创作者生态，是全球领先的，这是真的存在巨大的市场、产值和故事可以被AI接上的，所以字节和快手为视频模型的投入动力，是完全不虚美国大厂的。快手Kling有先发优势，ARR涨得很快，在海外一直处于第一梯队，字节属于后来居上，多模态能力对豆包的留存拉动明显，更不用说GPU储备量是国内大厂里Top级的，真想做成事情，很难不做成。昨晚很多字节的朋友都在转梁汝波和张楠用AI合拍的视频（图4），用来宣传搭载了Seedance 2.0的即梦，张楠的性格搞这个不意外，意外的是梁汝波也配合了，你们很少会看到他给字节的其他产品这么站台。晚点LatePost的稿子里提过，字节内部是期待AI这波能有「下一个抖音」跑出来的，而且是完全用字节的方法去做选择——数据决定地位——也就是说，赛马机制已经启动了，目前至少有三拨势力在争这个「太子」： - 即梦，负责人张楠是把抖音做起来的第一人，她先去剪映，再到即梦，一直是被安放在从0到1的最前线，代表了字节在创业场景下最强的战斗力； - 豆包，所属的Flow团队负责人朱骏是 - 抖音自己，是的，抖音部门也希望「下一个抖音」能由自己孵化出来，而不是假手于人，比如抖音搜索团队做了一个名字就叫AI抖音的App，用户量不大，但占位置的意图很明显；还是那句话，字节这家公司的活力之高和欲望之强，在大厂里真的很少见，丝毫看不到老化的痕迹。最后我还想说，大的在后面，中国AI公司在这个月的重量级发布还没结束，我知道一些但是暂时不能说，等着吧，用心感受这神仙打架的一个月。

0

16

221

36

轉發到社區