搜索 Silver_wolf 相关的推文

-屿鱼@Yukako_yuyu

2023.09.10 11:21

快修好了，明儿上😎 #HonkaiStarRail# #SilverWolf # #崩壊スターレイル# #银狼#

0

6

1.5K

160

转发到社区

千早Tihaya@xingzixng147554

2026.05.11 04:45

画了银狼哦！ #hsrcreators# #honkaistarrail# #Planarcadia# #Silverwolf# #SilverWolfLV999# #銀狼# #銀狼LV999# #银狼# #スターレイル新星開幕# #スターレイル#

0

5

3.3K

326

转发到社区

鲸珞@Jing_Lluo

2026.04.22 12:00

增强已上线快去体验银狼LV999 #HonkaiStarRail# #kigurumi# #latex# #LatexCosplay# #SilverWolf#

0

2

272

16

转发到社区

牛牛Niu🐮@milkybird_niu

2025.04.10 12:58

之前拍的銀狼小孩💙 #星穹鐵道# #HonkaiStarRail# #崩壊スターレイル# #SilverWolf# #銀狼#

0

4

505

36

转发到社区

牛牛Niu🐮@milkybird_niu

2023.11.23 06:24

💙這個月Tier1是銀狼正裝喔💙 2023.11 Patreon VIP Bonus Patreon/Gumroad：milkybird - #HonkaiStaiRail# #SilverWolf#

0

9

2.2K

202

转发到社区

시나シイナ🍋@shiinamf64

2024.11.11 16:32

「我喜欢的游戏总在同一天更新版本，他们是约好了么？」 . 📸 @MSG1365 . #hoyoland# #Honkai_Star_Rail# #SilverWolf# #崩坏星穹铁道# #银狼# #붕괴_스타레일# #은랑# #호요랜드# #cosplay#

显示更多

0

1

62

9

转发到社区

시나シイナ🍋@shiinamf64

2024.11.10 05:05

「这次能让我玩得开心点吗？」 . 📸 @MSG1365 . . #hoyoland# #silverwolf# #Honkai_Star_Rail# #崩坏星穹铁道# #银狼# #붕괴스타레일# #은랑# #호요랜드#

0

34

10

转发到社区

Hugo Tsai@oceanheart_cai

2025.05.05 04:11

David Silver在DeepMind负责Reinforcement Learning（RL，强化学习），是AlphaGo团队的核心。他最近有个分享，有些启发：学习的三个阶段： 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习每个更高阶的学习，都在不断丢掉旧的知识，旧的经验。更具体而言： 1. 当前LLM主流还是Data驱动。问题在于1）Data会成为一个天花板，2）模型会和当前的Data尽量拟合而自身的学习能力被弱化。3）LLM默认会证明自己是对的，所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据，反馈，它不试图证明自己是对的，而是不断地在真实世界中试错来验证。 2. 如果没有强化学习，那么AlphaGo只会学会人类的技巧，而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代，证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始，从系统自身生成的经验中学习的方式，使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种，基于人类经验的反馈（RLHF）和真实世界的反馈。前者是人类事先根据经验设定的标准，但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准，奖励AI让我们变得更健康的策略。这个符合我们的需求，而且这里并不是具体的目标，而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标（心率，BMI等），并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间，因此，Data驱动和强化学习驱动会是两个持续演进的双螺旋，而强化学习会越来越重要。进一步： 1. 从哲学上讲，在时间之矢方向上的Randomness和熵增是确定的，因而我们无法完全从既有的数据和经验学习，我们只有不停地探索，无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。

显示更多

0

38

23

10

转发到社区