搜索 AlphaGo 相关的推文

Colin Wu@colinwu

2026.04.14 09:50

谷歌 alphago 围棋战胜人类，开启了 AI 的时代谷歌的量子计算器，会不会某一天突然就破解比特币了？

0

36

32

2

转发到社区

0xTodd ( thinking )@0xTodd

2026.03.12 10:29

今天是柯洁放出豪言说不怕 AlphaGo 的十周年纪念日，那晚他说：“来吧！管你是阿法狗还是阿法猫。” 比赛结局我们都知道，很多人视它为 AI 击败人类的里程碑。不过值得辟谣的是，AlphaGo 背后靠的技术是卷积神经网络（外加强化学习和搜索），它和我们现在使用的这些大模型背后的 Transformer 技术，压根儿就是两条完全不同的技术路线。一个证据就是：16 年 AlphaGo 击败了李世石。而直到 17 年，Transformer 这个技术名词才被 Google Brain 团队在论文里发明出来。不过世事无常啊。Google 的这个Transformer 也是商业史上著名的“起大早赶晚集”魔幻事件。 Google 拥有这种改变世界的技术，却把它束之高阁，直到再后面 OpenAI 拿去造出了 ChatGPT，才引起 Google 的红色警戒。这背后还有一些八卦。开发 AlphaGo 的团队叫做 DeepMind，他们在发布 AlphaGo 前两年就已经被谷歌收购。当然也是因为他们被 Google 收购，所以才能有大量的 TPU 算力支持。 Google DeepMind vs Google Brain。在很长一段时间内，两个团队都在 Google 进行内部赛马。 DeepMind 点的技能是，卷积神经网络（外加强化学习和搜索）； Brain 作为Transformer 架构的开创者，技能树自然是 Transformer（也就是目前大模型用的这个）。按理说，因为技能树点错了，显然发明 Transformer 的 Brain 团队更应该获胜。然而最终的结局和我们想象中的不一样。最后 Google DeepMind 吞并了Google Brain，DeepMind 的 CEO Demis 成为了 Google AI 第一人，直接和 Larry 汇报。然后合并后的团队，主导了我们现在在用的 Gemini。 PS：Google 的 AI 最一开始叫 Bard，后面改名叫做 Gemini，就和 DeepMind 内部赛马获胜有直接的关系。另外 DeepMind 是怎么获胜的，感兴趣的话，我以后单开帖子聊。我不知道柯洁和李世石是否关注，当年击败了他们的那个男人，居然在谷歌内部带着那个并非正确答案的技能树，能再次击败大模型真正的发明者。我只能说，柯洁他们输得不冤。最后说回柯洁，我想大家现在对他的唯一印象，就是每天在搞抽象。他这种精神世界，是我羡慕的一种状态。甚至从某种角度来说，柯洁可能是我们的一个先遣测试服。就像好多人总说，东北就像是中国的先遣测试服一样。柯洁十年前被击败，从此过上了抽象的生活，我们估计也快了。我今天看到那个得物，据说把前端整个部门都给原地解散了，以后就只有 AI 全栈工程师了。害，如果 AI 全面取代，以后你再培养小孩，也别培养他念书、做题了，根据先遣测试服的这个结果，我建议以后直接培养小孩儿如何搞抽象🤪。

显示更多

0

6

16

2

转发到社区

Hugo Tsai@oceanheart_cai

2025.05.05 04:11

David Silver在DeepMind负责Reinforcement Learning（RL，强化学习），是AlphaGo团队的核心。他最近有个分享，有些启发：学习的三个阶段： 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习每个更高阶的学习，都在不断丢掉旧的知识，旧的经验。更具体而言： 1. 当前LLM主流还是Data驱动。问题在于1）Data会成为一个天花板，2）模型会和当前的Data尽量拟合而自身的学习能力被弱化。3）LLM默认会证明自己是对的，所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据，反馈，它不试图证明自己是对的，而是不断地在真实世界中试错来验证。 2. 如果没有强化学习，那么AlphaGo只会学会人类的技巧，而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代，证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始，从系统自身生成的经验中学习的方式，使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种，基于人类经验的反馈（RLHF）和真实世界的反馈。前者是人类事先根据经验设定的标准，但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准，奖励AI让我们变得更健康的策略。这个符合我们的需求，而且这里并不是具体的目标，而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标（心率，BMI等），并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间，因此，Data驱动和强化学习驱动会是两个持续演进的双螺旋，而强化学习会越来越重要。进一步： 1. 从哲学上讲，在时间之矢方向上的Randomness和熵增是确定的，因而我们无法完全从既有的数据和经验学习，我们只有不停地探索，无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。

显示更多

0

38

23

10

转发到社区

rick awsb ($people, $people)@rickawsb

2026.05.23 17:15

OpenAI 最近利用 AI 推翻 Erdős 离散几何猜想，这是ai科研的alphago时刻可能意味着ai在科研领域全面超越人类科学家的时刻已经很近了对这个问题，传统数学家主要在几何空间内优化，而 AI 却把问题转化到了代数数论结构中，找到了一整类全新解法。这意味着 AI 已不只是模式匹配，而开始具备跨领域、跨抽象层的泛化能力。历史上许多重大科学革命，例如爱因斯坦的相对论，本质上也是人类泛化能力的最好的展现：发现不同领域间更深层的统一结构

显示更多

0

15

37

0

转发到社区

TechFlow 深潮｜APP 已上线@TechFlowPost

2026.04.30 05:39

DeepMind 创始人 Demis Hassabis，从小就是国际象棋神童，17 岁便设计出爆款游戏《主题公园》。之后他重返校园，拿下认知神经科学博士学位，并于 2010 年联合创立 DeepMind。在他的带领下，DeepMind 缔造了多项传奇：AlphaGo 击败围棋世界冠军，AlphaFold 破解蛋白质结构预测这一生物学 50 年难题，并让他在去年荣膺诺贝尔化学奖。在 Y Combinator 最新 Startup Days 上，Demis Hassabis 分享了对 AGI 的最新判断：「AI 现在还处于“小玩具”阶段，但未来 6 到 12 个月，真正的大东西就要来了。」

显示更多

0

4

15

2

转发到社区

阑夕@foxshuo

2025.01.22 13:22

Kimi和DeepSeek的新模型这几天内同时发布，又是一波让人看不懂的突飞猛进，硅谷的反应也很有意思，已经不再是惊讶「他们是怎么办到的」，而是变成了「他们是怎么能这么快的」，就快走完了质疑、理解、成为的三段论。先说背景。大模型在运作上可用粗略分为训练和推理两大部分，在去年9月之前，训练的质量一直被视为重中之重，也就是通过所谓的算力堆叠，搭建万卡集群甚至十万卡集群来让大模型充分学习人类语料，去解决智能的进化。为什么去年9月是个关键的转折点呢？因为OpenAI发布了GPT-o1，以思维链（Chain-of-Thought）的方式大幅提高了模型能力。在那之前，行业里其实都在等GPT-5，以为一年以来传得沸沸扬扬的Q*就是GPT-5，对o1这条路线的准备严重不足，但这也不是说o1不能打，它的强大是在另一个层面，如果说训练能让AI变得更聪明，那么推理就会让AI变得更有用。从o1到o3，OpenAI的方向都很明确，就是变着法儿奔向AGI，一招不行就换另一招，永远都有对策，大家平时对于OpenAI的调侃和批评很多，但那都是建立在高预期的前提下，真不要以为OpenAI没后劲了，事实上每次都还是它在推动最前沿的技术创新，踩出一条小径后别人才敢放心大胆的跟上去。 AI大厂们一直不太承认训练撞墙的问题，这涉及到扩展法则（Scaling Law）——只要有更多的数据和算力，大模型就能持续进步——有没有失效的问题，因为可被训练的全网数据早就被抓取殆尽了，没有新的知识增量，大模型的智能也就面临着无源之水的困局。于是从训练到推理的重点转移，成了差不多半年以来最新的行业共识，推理采用的技术是强化学习（RL），让模型学会评估自己的预测并持续改进，这不是新东西，AlphaGo和GPT-4都是强化学习的受益者，但o1的思维链又把强化学习的效果往前推进了一大步，实现了用推理时间换推理质量的正比飞跃。给AI越充分的思考时间，AI就能越缜密的输出答案，是不是有点像新的扩展法则？只不过这个扩展在于推理而非训练阶段。理解了上述背景，才能理解Kimi和DeepSeek在做的事情有什么价值。 DeepSeek一直是「扮猪吃老虎」的角色，不但是价格战的发起者，600万美元训练出GPT-4o级模型的测试结果，更是让它一战成名，而Kimi正好相反，它的产品能力很强，有用户，甚至还为行业贡献了足够的融资八卦，但在科研方面，除了都知道杨植麟是个牛逼的人之外，其实还是不太被看到。这次就不一样了，DeepSeek不再是一枝独秀，Kimi也把肌肉秀到了人家脸上，Kimi k1.5满血版在6项主流基准测试里和o1同台竞赛，拿到了3胜1平2负的结果，已经完全称得上是平起平坐了。（1/2）

显示更多

0

11

321

68

转发到社区

阑夕@foxshuo

2025.01.15 10:22

历史是一面镜子，对照是它最有价值的功能。 15年前，Google宣布退出中国，引起一时轰动，在不满和同情的情绪夹杂下，许多年轻人自发前往清华科技园的科建大厦门口，在尚未铲除的Google标志留下花束。这种悲剧色彩拉满的行为，捎带着也为那一年创造了一个新的网络名词：「非法献花」大量的中文用户涌入推特，以「GoogleCN」为话题进行讨论，在推特年终的统计报告里，「GoogleCN」的热度甚至超过了当年举世瞩目的海底地震「Help Hatti」，爆发出了与中文用户规模完全不成比例的声量。后来国内对于Google退出事件的总结，被定调为「是它主动选择不愿接受中国法律监管而做出的决定」。真要这么说倒也没毛病，曾任Google中国区总裁的李开复后来补刀表示：「中国为外国互联网公司准备的法规非常清楚，Google愿意遵守的时候。就进来了，当它觉得不愿意遵守的时候，就退出了。」多年以后，华盛顿第二次推动TikTok法案的口径也变得很熟悉了，大伙别误会，没有封禁TikTok的意思，只要TikTok卖给美国公司就好了，你自己不卖，怪谁呢？总之，Google退出之后，仍然续租了科建大厦的4层楼，因为即使国内业务没有了，国际业务也断不了，低调养着数百人的工程师和销售团队，用来对接中国企业的出海投放。这是常年以来维持的最低限度的默契，Google偶尔还会在中国举办开发者大会，并将AlphaGo带去了乌镇和柯洁下围棋。扎克伯格在翻脸之前，也当过西长安街上的跑步健将，虽然Facebook谈了不少入华框架——包括和百度合资落地——但都没有成功，不过这倒并不影响Facebook每年雷打不动的从中国拿走10%的广告收入。 Google的塌房，在时间线上更靠后一些，棱镜曝光，蜻蜓低飞，林林总总，祛魅不止，年轻人长大了，发现「不作恶」只是一个被光线投射的墙面，光源并不由Google提供。就连OpenAI的成立契机，也是一群有抱负的工程师和科学家因为对于Google统治AI的共同厌恶而走到了一起。在昔年的Google楼下，有一张卡片上手写了这样的语句：「重重大山阻隔不了我们之间的联络，无论距离多远，我们都会翻过围墙找到你。」 15年后，美国的TikTok难民们呼朋唤友的涌入小红书，那颗子弹终于呼啸而来，正中眉心。年轻人的真诚和热忱，永远都是这个世界最不吝啬的馈赠。

显示更多

0

49

699

101

转发到社区

小盖@xiaogaifun

2026.05.02 23:49

强烈推荐大家看看DeepMind CEO Demis的最新判断。真的，Google DeepMind 的 CEO Demis Hassabis 每一期访谈我觉得值得都花时间看看。这哥们讲东西很实在，而且通俗易懂。早上边跑步边听完了他和 YC CEO Garry Tan 的最新一期播客。刚刚把笔记写完，也给大家分享下。多说一句，好多人问我这种笔记是不是 AI 写的。我说下自己的流程。我会先完整听完播客，然后用语音输入法把感触尽量充分地讲出来，再让 AI 帮着整理初稿，最后自己逐字修改优化。如果全部交给 AI 做总结，那等于把思考和理解的能力让渡给了 AI，对自己理解这件事其实没有任何价值。 OK，咱们进正题。 1 Demis 的态度非常明确，现在的大模型范式（大规模预训练 + RLHF + CoT）一定会是 AGI 最终架构的一部分，他不认为这会是条死路。但要实现 AGI，还有几个关键问题要解决。这几个问题包括：持续学习、长程推理和记忆系统。先从最容易看到的现象讲起，Context Window。现在大模型处理长信息，最常用的招就是把 Context Window 一直撑大。一开始 8k，后来 32k，再后来 100 万 Token。听起来很厉害，但本质上是暴力堆砌。 Context Window 其实就相当于人脑里的 Working Memory，工作记忆。人的工作记忆能同时装多少东西？心理学里有个经典数字，7 个左右。背电话号码能记住 7 位上下，再多就溢出了。大模型呢？已经做到 100 万 Token。按理说，模型的工作记忆比人大几十万倍，应该比人聪明几十万倍才对。但显然不是。问题也恰恰就出现在这。把所有东西都塞进 Context Window 里，里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多，其实是一团乱麻。那人为什么 7 个数字的工作记忆就够用？因为人脑背后还有另一套机制在工作。我们记得几年前的事，记得童年的事，记得几小时前发生的事。这些都不塞在工作记忆里，而是另一套系统。具体来说这套系统是海马体，大脑里负责把新知识整合进已有知识库的那个部分。研究发现，人睡觉的时候，特别是 REM 睡眠阶段，大脑会重放白天重要的片段，让大脑从中学习。新东西在睡觉的过程里，温柔地融进了旧的知识体系。这个把新东西融进旧知识库的过程，就是持续学习。模型现在没有这套机制。每一次对话结束，刚学到的东西就会忘记。下次重新打开，还是上次那个模型，没长进。 2 再聊聊长程推理的问题。英文表达是 Long-term Reasoning。我翻译为了长程。长程推理这个词太抽象了。Demis 讲了一个特别具体的故事，听完会立刻明白他说的是什么。他说自己喜欢跟 Gemini 下国际象棋。下棋的过程里能看到模型的 thinking trace，也就是它在那里到底想了什么。然后他发现一件怪事。模型考虑一步棋的时候，思考链里清清楚楚写着，这步是个昏招。但接下来，它没找到更好的走法，于是又走回这步昏招。明明知道是错的，还是把错的那一步走出去了。这个细节比任何 benchmark 数据都说明问题。因为它暴露的是模型缺少对自己思考过程的某种内省能力。正常人下棋，意识到一步是昏招之后，脑子里会有一个反应，停一下，再想想。停一下、再想想这个能力，模型现在没有。它能在每一步局部判断对错，但没法基于整盘棋的局势去调整整体策略。这就是长程推理还没搞定的样子。模型可以一步一步往前走，每一步看起来都合理，但走到后面整盘棋的方向其实是错的。它没有那种退回到当前思考的上一层、重新审视一下的能力。说到底，模型缺的是一种内省。 3 学习、长程推理、记忆，这是 Demis 在播客里点出来的三个 AGI 鸿沟。除此之外，他还反复提到了创造力。 2016 年 AlphaGo 跟李世石下棋，第二局走出了著名的 Move 37。那一步棋走出来的瞬间，全世界的围棋高手都看呆了。所有人类几千年下围棋积累的经验都告诉它不该下那里，但 AlphaGo 下了。下完之后大家发现，是一步神来之笔。很多人觉得，这就是 AI 的创造力来了。但 Demis 说，对他自己来说，Move 37 只是起点。他真正想看到的是另一件事。AI 能不能发明围棋这件事本身。这两件事的区别非常关键。 Move 37 是在围棋这个现成的规则里，找到了一步人类没想到的招。但围棋的规则、棋盘的形状、黑白子的对弈方式，是人类发明出来的。AI 在已有的框架里非常厉害，但能不能自己造一个框架，是另外一回事。 Demis 给了一个具体的设想。如果给 AI 一个高层次的描述。造一个游戏，五分钟能学会规则，要好几辈子才能精通，棋局有审美，一下午能下完一局。AI 能不能根据这个描述，自己倒推出围棋？目前做不到。为了把这件事讲得更清楚，Demis 还提了一个测试，他自己叫爱因斯坦测试。用 1901 年人类已有的全部知识训练一个模型，看它能不能在 1905 年那个时间点，自己推出狭义相对论。爱因斯坦在 1905 年那一年里，连写了几篇改变物理学的论文，后来叫爱因斯坦奇迹年。那些工作不是从已有的物理学论文里通过拼接得到的，是基于已有材料做了一次全新的概念跳跃。爱因斯坦测试想问的就是这件事。AI 能不能做这种跳跃。目前的大模型主要在做两件事，pattern matching 和 extrapolation。一个是从大量数据里找规律，一个是把规律往外延伸一点。但发现新东西需要的是类比推理的能力。从一个领域里抽出深层结构，搬到另一个全新的领域去用。这个能力，模型现在还没有。也可能是有，但用法不对所以激发不出来。 4 除此之外，Demis 还分享了一个让我特别出乎意料的判断，他说未来 6 到 12 个月，真正的价值不在更大的模型，在更小的模型。这一部分内容我反复听了好几次，确实突破我的已有认知。不知道大家的想法，反正我自己，这一年来并没有怎么关注小模型的进展。毕竟行业的焦点就是把模型做大嘛。那小模型的价值到底在哪？最直接的是成本。同样一个任务，小模型的推理价格可能只是前沿模型的十分之一甚至更少。但 Demis 说，比成本更重要的其实是速度。这里有一个前提得先说清楚。Demis 不是在说速度可以替代智能。他的原话是，当小模型的能力已经达到前沿模型的 90% 到 95%，也就是已经相当不错的时候，剩下那 5% 到 10% 的能力差距，比不上速度带来的好处。比如现在工程师用 AI 写代码，已经形成了一种新的工作节奏。一个想法冒出来，几秒之内就能看到结果，不行就改，再不行再改。这个一改再改的循环跑得越快，做出来的东西就越好。如果每次调用都要等十秒，整个工作流就被打断了。更关键的是，快到一定程度，工程师在这种节奏里能进入心流。一个想法、一次尝试、一个反馈、再来一个想法，思维不被打断。这件事写过代码的人都懂，进入心流和频繁掉出心流，产出的差距是数量级的。 Agent 也是同样的逻辑。一个 Agent 跑完一个任务可能要调几十次模型，每次慢一秒，整个任务就慢一分钟。慢到一定程度，Agent 就从一个能用的东西变成鸡肋。小模型不是大模型的廉价替代品。有些事只有小模型能做。比如手机、眼镜、家用机器人，需要的就是一个能在本地跑起来的模型。本地跑除了反应快，还有一个特别重要的好处，隐私。家里机器人看到的视频、听到的对话，全部在设备本地处理，根本不上云。这件事对很多用户来说不是加分项，是底线。成本、速度、边缘部署，这是小模型的价值。 5 讲完小模型的价值，接下来一个更关键的问题是，能力被压到这么小的参数里，会不会有上限？ Demis 的判断是，目前没看到信息密度有任何理论上限。小模型的智能天花板还远没看到。支撑这个判断的，是 DeepMind 在蒸馏这件事上的积累。蒸馏简单说就是先训练一个超大的模型，然后用这个超大模型去教一个小模型。教完之后，小模型用极少的参数，能复现原来 95% 以上的能力。为什么 DeepMind 这么重视蒸馏？因为要把 AI 能力放进谷歌的头部产品中，前提是低延迟、低成本。前沿模型再强，每次推理花几秒钟、花几毛钱...这条路，恐怕很难走得通。一个前沿模型发布之后，6 到 12 个月内，他们就能把这个模型的能力蒸馏到边缘设备能跑的小模型上去。这个时间表比很多人想的要快。在很多场景中，小模型和大模型会相互配合。举个例子，一个端到端的智能助手，绝大部分日常任务在本地的小模型上跑。智能眼镜看到的画面、家里机器人听到的对话、手机里的私人助理，模型直接在设备里读懂，不需要往云端传一遍。只有遇到特别复杂、本地搞不定的问题，才向云端的前沿模型发起请求。也就是说小模型在边缘做主力，前沿模型在云端做后援。不过，这个构想对小模型的要求也比较高，它不能只会处理文字，还得能理解物理世界。这就是为什么 Gemini 从一开始就坚持多模态，不光处理文字，也处理图像、视频、声音。一开始这么做比只做文本要难得多，但眼镜也好，机器人也好，需要的是一个能看懂周围世界的模型，不是一个只会聊天的模型。讲到这里，小模型这条路的轮廓就完全清楚了。它独立成立，不是前沿模型的廉价替代品，而是另一条同样重要的路。嗯，很有启发。

显示更多

0

48

1.2K

239

转发到社区

一笑@xiao_yi24405

2025.07.23 06:35

AlphaMoon社区撸毛工具正式版即将发布！加入AlphaMoon社区，享社区优惠福利，低至4折优惠~ 社区链接：社区不只有工具，还有高质量早期Alpha项目资讯信息、一级市场投研、项目方白名单、份额等渠道信息分享，加入我们，先人一步。 @AlphaMoonDao @CindyCreation @zouajie59995 @my_pyy @jn121314 @Corrina101Young #AlpahMoon# #先信资本#

显示更多

0

8

11

3

转发到社区

Cindy胖迪🥰@CindyCreation

2025.09.26 12:10

给宝宝们来个甜蜜暴击💕 嘿嘿😈 @AlphaMoonDao

0

17

31

0

转发到社区