搜尋 Reign 相關推文 — 推特瀏覽器

2026.05.18 05:47

Black lacquer wardrobe with painted and mother-of-pearl inlaid dragon design, Wanli reign, Ming Dynasty 明万历黑漆彩绘嵌螺钿龙纹箱（衣冠箱）

0

5

339

55

轉發到社區

拉姐💪很多假冒我的账户请注意不要被骗@Carly172HKKK

2026.05.19 13:07

如何重燃激情？🔥 敢不敢发给自己女友/老婆/情人？😈 How to reignite passion? Dare you send this to your girlfriend, wife or lovers @CarlysToys172

0

26

0

轉發到社區

PhimAV.net@phimav1234

2026.04.28 12:05

URE-132 Reina Momozono 桃園怜奈

0

1

671

67

轉發到社區

Hugo Tsai@oceanheart_cai

2025.05.05 04:11

David Silver在DeepMind负责Reinforcement Learning（RL，强化学习），是AlphaGo团队的核心。他最近有个分享，有些启发：学习的三个阶段： 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习每个更高阶的学习，都在不断丢掉旧的知识，旧的经验。更具体而言： 1. 当前LLM主流还是Data驱动。问题在于1）Data会成为一个天花板，2）模型会和当前的Data尽量拟合而自身的学习能力被弱化。3）LLM默认会证明自己是对的，所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据，反馈，它不试图证明自己是对的，而是不断地在真实世界中试错来验证。 2. 如果没有强化学习，那么AlphaGo只会学会人类的技巧，而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代，证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始，从系统自身生成的经验中学习的方式，使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种，基于人类经验的反馈（RLHF）和真实世界的反馈。前者是人类事先根据经验设定的标准，但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准，奖励AI让我们变得更健康的策略。这个符合我们的需求，而且这里并不是具体的目标，而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标（心率，BMI等），并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间，因此，Data驱动和强化学习驱动会是两个持续演进的双螺旋，而强化学习会越来越重要。进一步： 1. 从哲学上讲，在时间之矢方向上的Randomness和熵增是确定的，因而我们无法完全从既有的数据和经验学习，我们只有不停地探索，无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。

0

38

23

10

轉發到社區

才谷 | 哪吒商业评论@realCaigu

2026.06.02 15:56

黄仁勋 2011 年时在斯坦福创业大师课详细阐述了如何建立一家能超越所有竞争对手的公司。并给出了三个观点： Perspective beats vision every time Tolerating failure leads to innovation Reinventing yourself is the only way to survive 以及 12 个实用建议：

0

5

50

17

轉發到社區

Bee🎙️談東論西@bee926cn

2026.05.11 02:31

最近在 explore @megaeth 生態上的 apps，本來不是很想玩遊戲，但是這個 @OffshoreOnMega 真的挺有意思的大部分人沒解釋清楚的一點是這遊戲的風險不是隨機的。它追蹤的是即時 $ETH 價格。你選一個任務開始跑，如果在倒數期間 $ETH 價格跌破你的門檻，直接爆掉我試了一次 extortion（風險最高的任務），5 分鐘，binary outcome：要嘛拿到 100 $Dirty 要嘛全部歸 0。在玩的時候盯著 $ETH 價格跳動還真的有一種在犯罪的感覺 😂 壓力超大這遊戲也不是純粹賭博，玩家必須平衡 output 和 survival stats，根據市場波動選任務類型，決定什麼時候 reinvest 目前為止我大概投了 $350，還在摸索最佳策略，賺不賺錢後續再跟大家報告! 有興趣試試的朋友，回言區有 ref code 👇

0

7

30

2

轉發到社區

AI Dance@AI_Whisper_X

2026.05.06 12:59

机器人圈也被 AI 的 scaling 卷麻了截图是 ICRA 2026 一个数据统计，感觉蛮有意思的，分享一下。比如论文关键词的分布，中美加起来占一半以上的江山。投稿 4947 篇，接收 1882 篇，接收率 38.04%。2021 年时候投稿量大概 4000 篇左右，机器人圈也在被 AI 的 scaling 卷麻。 Hot topics 是 Manipulation、Planning、Mapping/Perception 3D，SLAM/Localization，Object Detection/ Tracking。 author keyword top 是：Deep Learning for Visual Perception、Reinforcement Learning、Motion and Path Planning、Imitation Learning。 btw，这个数据不是 ICRA 官方做的，是韩国 DGIST 一个助理教授 Giseop Kim 做的，现在vibecoding一个东西变得无比容易。just do it… 想起来去年还写过一场 ICRA 2025 的 keynote 辩论，当时议题是“Data will solve robotics: True or false？” 转眼一年过去了……大家觉得这一年机器人领域的进展快吗？现在关于Data will solve robotics的争论，大家觉得有答案了吗🐶

0

3

0

轉發到社區

一劍浣春秋@chee828

2026.02.22 02:29

2026最初也最強的人妻！壇玲奈痴女覺醒啦！迎接創業20週年，片商TAMEIKE最近動作愈來愈大：一出手，超大型新人、被喻為2026最初也最強的新人「壇玲奈」正式現身，因為她實在太棒了，所以TAMEIKE不急著丟她拍戲劇片，而是先痴女覺醒〜 #壇玲奈# 請追蹤 @dan_reina_

0

9

804

37

轉發到社區

唐华斑竹🦅@uniswap12

2026.05.18 14:08

每个人都应该了解的AI 术语名词，你都认识吗？搞懂这些名词并了解其实现方式和原理。你基本就入门了。 AGI（类人AI）：类似人类思维的AI。 CoT（链式思维）：AI一步步思考。 AI Agents（AI代理）：自动化决策的程序。 AI Wrapper：简化与AI模型的互动。 AI Alignment（AI对齐）：确保AI遵循人类价值观。 Fine-tuning（微调）：使用特定训练数据来改进AI。 Hallucination（幻觉）：AI编造的信息。 AI Model（AI模型）：用于任务的训练AI。 Chatbot（聊天机器人）：模拟人类对话的AI。 Compute（计算）：AI模型的处理能力。 Computer Vision（计算机视觉）：AI理解图像和视频的能力。 Context（上下文）：AI为更好响应保留的信息。 Deep Learning（深度学习）：通过多层神经网络学习的AI。 Embedding（嵌入）：AI的词汇数字化表示。 Explainability（可解释性）：理解AI决策背后的逻辑。 Foundation Model（基础模型）：可适应任务的大型AI模型。 Generative AI（生成式AI）：创建文本、图像等内容。 GPU（图形处理单元）：用于快速AI处理的硬件。 Ground Truth（真实数据）：AI学习的验证数据。 Inference（推理）：AI对新数据做出的预测。 LLM（大型语言模型）：用大量文本数据训练的AI。 Machine Learning（机器学习）：AI通过数据经验改进。 MCP（模型上下文协议）：AI内部数据访问的标准。 NLP（自然语言处理）：AI理解人类语言。 Neural Network（神经网络）：受大脑启发的AI模型。 Parameters（参数）：AI学习的内部变量。 Prompt Engineering（提示工程）：创建输入以指导AI输出。 Reasoning Model（推理模型）：有逻辑推理能力的AI。 Reinforcement Learning（强化学习）：AI通过奖励与惩罚学习。 RAG（检索增强生成）：结合搜索与生成的AI。 Supervised Learning（监督学习）：在标记数据上训练的AI。 TPU（张量处理单元）：AI处理专用芯片。 Tokenization（分词）：将文本分割成词片。 Training（训练）：通过调整参数教AI。 Transformer（变换器）：用于语言理解的AI架构。 Unsupervised Learning（无监督学习）：AI在无标签数据上发现模式。 Vibe Coding（情绪编码）：通过语言捕捉情绪并预测输出。 Weights（权重）：影响AI学习的值。 #AI# #AIAgent#

0

1

0

轉發到社區