TwiScan
热门
English
日本語
한국의
简体中文
繁体中文
Hugo Tsai
@oceanheart_cai
To Evolve. AI + Blockchain + Neuroscience Enthusiast Builder Investor.
Joined March 2009
409
Following
441
Followers
Hugo Tsai
@oceanheart_cai
2025.05.05 04:11
David Silver在DeepMind负责Reinforcement Learning(RL,强化学习),是AlphaGo团队的核心。他最近有个分享,有些启发: 学习的三个阶段: 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习 每个更高阶的学习,都在不断丢掉旧的知识,旧的经验。 更具体而言: 1. 当前LLM主流还是Data驱动。问题在于1)Data会成为一个天花板,2)模型会和当前的Data尽量拟合而自身的学习能力被弱化。3)LLM默认会证明自己是对的,所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据,反馈,它不试图证明自己是对的,而是不断地在真实世界中试错来验证。 2. 如果没有强化学习,那么AlphaGo只会学会人类的技巧,而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代,证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始,从系统自身生成的经验中学习的方式,使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种,基于人类经验的反馈(RLHF)和真实世界的反馈。前者是人类事先根据经验设定的标准,但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准,奖励AI让我们变得更健康的策略。这个符合我们的需求,而且这里并不是具体的目标,而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标(心率,BMI等),并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间,因此,Data驱动和强化学习驱动会是两个持续演进的双螺旋,而强化学习会越来越重要。 进一步: 1. 从哲学上讲,在时间之矢方向上的Randomness和熵增是确定的,因而我们无法完全从既有的数据和经验学习,我们只有不停地探索,无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。 https://t.co/YbjAcqZF4U https://t.co/tG9cFMe0t0 https://t.co/jIR5twS3gj
Show more
0
0
2
6
3
Most Popular Users
Kekius Maximus
@elonmusk
219.8M followers
Barack Obama
@BarackObama
130.2M followers
Cristiano Ronaldo
@Cristiano
115.1M followers
Narendra Modi
@narendramodi
108M followers
Rihanna
@rihanna
107.8M followers
KATY PERRY
@katyperry
105.2M followers
Donald J. Trump
@realDonaldTrump
105M followers
NASA
@NASA
86.2M followers
X
@X
69M followers
Virat Kohli
@imVkohli
67.8M followers
Bill Gates
@BillGates
66M followers
CNN Breaking News
@cnnbrk
63.8M followers
CNN
@CNN
63.3M followers
PMO India
@PMOIndia
57.6M followers
The New York Times
@nytimes
55.2M followers