TwiScan
热门
社区
账号集合
登录
注册
English
日本語
한국의
简体中文
繁体中文
注册并分享邀请链接,可获得视频播放与邀请奖励。
立即注册
搜索结果
Silver_wolf
Silver_wolf 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含
Silver_wolf
的推特
-屿鱼
@Yukako_yuyu
2023.09.10 11:21
快修好了,明儿上😎 #
HonkaiStarRail
# #
SilverWolf
# #
崩壊スターレイル
# #
银狼
#
0
0
6
1.5K
160
转发到社区
千早Tihaya
@xingzixng147554
2026.05.11 04:45
画了银狼哦! #
hsrcreators
# #
honkaistarrail
# #
Planarcadia
# #
Silverwolf
# #
SilverWolfLV999
# #
銀狼
# #
銀狼LV999
# #
银狼
# #
スターレイル新星開幕
# #
スターレイル
#
0
0
5
3.3K
326
转发到社区
鲸珞
@Jing_Lluo
2026.04.22 12:00
增强已上线 快去体验 银狼LV999 #
HonkaiStarRail
# #
kigurumi
# #
latex
# #
LatexCosplay
# #
SilverWolf
#
0
0
2
272
16
转发到社区
牛牛Niu🐮
@milkybird_niu
2025.04.10 12:58
之前拍的銀狼小孩💙 #
星穹鐵道
# #
HonkaiStarRail
# #
崩壊スターレイル
# #
SilverWolf
# #
銀狼
#
0
0
4
505
36
转发到社区
牛牛Niu🐮
@milkybird_niu
2023.11.23 06:24
💙這個月Tier1是銀狼正裝喔💙 2023.11 Patreon VIP Bonus Patreon/Gumroad:milkybird - #
HonkaiStaiRail
# #
SilverWolf
#
0
0
9
2.2K
202
转发到社区
시나シイナ🍋
@shiinamf64
2024.11.11 16:32
「我喜欢的游戏总在同一天更新版本,他们是约好了么?」 . 📸
@MSG1365
. #
hoyoland
# #
Honkai_Star_Rail
# #
SilverWolf
# #
崩坏星穹铁道
# #
银狼
# #
붕괴_스타레일
# #
은랑
# #
호요랜드
# #
cosplay
#
显示更多
0
0
1
62
9
转发到社区
시나シイナ🍋
@shiinamf64
2024.11.10 05:05
「这次能让我玩得开心点吗?」 . 📸
@MSG1365
. . #
hoyoland
# #
silverwolf
# #
Honkai_Star_Rail
# #
崩坏星穹铁道
# #
银狼
# #
붕괴스타레일
# #
은랑
# #
호요랜드
#
0
0
0
34
10
转发到社区
Hugo Tsai
@oceanheart_cai
2025.05.05 04:11
David Silver在DeepMind负责Reinforcement Learning(RL,强化学习),是AlphaGo团队的核心。他最近有个分享,有些启发: 学习的三个阶段: 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习 每个更高阶的学习,都在不断丢掉旧的知识,旧的经验。 更具体而言: 1. 当前LLM主流还是Data驱动。问题在于1)Data会成为一个天花板,2)模型会和当前的Data尽量拟合而自身的学习能力被弱化。3)LLM默认会证明自己是对的,所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据,反馈,它不试图证明自己是对的,而是不断地在真实世界中试错来验证。 2. 如果没有强化学习,那么AlphaGo只会学会人类的技巧,而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代,证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始,从系统自身生成的经验中学习的方式,使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种,基于人类经验的反馈(RLHF)和真实世界的反馈。前者是人类事先根据经验设定的标准,但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准,奖励AI让我们变得更健康的策略。这个符合我们的需求,而且这里并不是具体的目标,而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标(心率,BMI等),并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间,因此,Data驱动和强化学习驱动会是两个持续演进的双螺旋,而强化学习会越来越重要。 进一步: 1. 从哲学上讲,在时间之矢方向上的Randomness和熵增是确定的,因而我们无法完全从既有的数据和经验学习,我们只有不停地探索,无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。
显示更多
0
0
38
23
10
转发到社区
blackhumor
@blackym25
2026.05.18 12:50
Gold and Silver Inlaid Rhinoceros-shaped Bronze Belt Hook, Warring States Period(Ba-shu巴蜀 culture) 战国错金银犀牛铜带钩
0
0
0
41
3
转发到社区
アンジュルム
@angerme_upfront
2026.01.03 13:06
【Blog更新】 Silver 川名凜:… #
ANGERME
# #
アンジュルム
# #
ハロプロ
#
0
0
2
1.4K
143
转发到社区
加载中...