搜索 LERNI 相关的推文

BILI@SuperBILI

2026.05.25 04:36

@LeonidasNFT @Bound_Exchange 中文区不用你操心，你能不能忽悠点西方投资者

0

1

0

转发到社区

风哥🇨🇳🇪🇺@BNBOKBt5

2026.05.26 03:06

@star_okx @LennixOKX 能让OKb起飞？

0

转发到社区

阑夕@foxshuo

2026.03.24 06:59

很突然，OnlyFans的老板Leonid Radvinsky死了，只活到了43岁，据说是癌症长期治疗无效，氪金都没救回来。很多报道说他是OnlyFans的创始人，这不太准确，创办OnlyFans的是英国人Tim Stokely，这个平台最开始主要为音乐人和网红提供表演变现服务，没有大尺度内容，直到2018年被卖给了Leonid Radvinsky，才真正转型成功。是Leonid Radvinsky一手把OnlyFans从一个总用户量不超过1000万人的小众网站变成了活跃用户超过2亿的成人平台。因为他就是搞黄色起家的，1999年，他才17岁，就建立了色情网站导航站群，老登们应该记得这种古典互联网的商业业务模式，类似hao123，很赚钱。 Leonid Radvinsky那会儿就很有商业头脑，或者说路子很野，他会在导航站上放置萝莉甚至兽交的网站标题，但实际上只会链接到普通的色情网站，于是既没有实际违法，又骗到了很高的点击量。靠着倒卖流量，他在美国读西北大学的时候，每年就有180万美金的睡后收入，毕业之后，他又在2004年创办了MyFreeCams，这是一个通过网络摄像头进行收费色情表演的网站，几年内就做到了500万付费用户，年入千万美金。他的运营风格也是一如既往的大胆，MyFreeCams在发垃圾邮件推广时，假冒微软和亚马逊的名义，告诉用户只要注册就能拿到现金补贴——瞧瞧人家这增长黑客的玩法——后来被微软和亚马逊的法务重拳出击，赔了一大笔钱。总之，他当初收购OnlyFans也是目的性极强的选择，把自己前半生积累下来的经验都用在了这个平台上，然后又特别幸运的——对他而言——赶上了新冠疫情，大家经常憋在家里，只能通过网络倾泻欲望，OnlyFans直接原地起飞，拿到了时代馈赠的丰厚回报。在Leonid Radvinsky的治下，OnlyFans完全作为私营公司运作，不扩张、不融资、不开发App，而且只给他一个人分红，刨开经营成本，每年的利润都打到他一个人的账户里，可以说是特别「纯粹」了。根据英国财政局的披露文件，Leonid Radvinsky总共从OnlyFans拿到了20亿美金左右的分红，但这甚至不到他总资产的一半——你就知道他还有多少隐秘事业了吧——「福布斯」杂志把他排在全球富豪榜的第869名，身家47亿美金。去年，OnlyFans开始在资本市场寻找买家，打包价从80亿美金一路降低到55亿美金，从PE来看属于贱卖了，但还是很多人不理解为啥要这么急于出货，现在知道答案了，原来是自知命不久矣⋯⋯ 有命赚钱，没命花钱，世事就是难料，死亡这事儿，么得关系可找啊。

显示更多

0

25

287

32

转发到社区

Hugo Tsai@oceanheart_cai

2025.05.05 04:11

David Silver在DeepMind负责Reinforcement Learning（RL，强化学习），是AlphaGo团队的核心。他最近有个分享，有些启发：学习的三个阶段： 1. 基于现有知识的学习 2. 基于人类已有经验的强化学习 3. 忘记人类经验的自我学习每个更高阶的学习，都在不断丢掉旧的知识，旧的经验。更具体而言： 1. 当前LLM主流还是Data驱动。问题在于1）Data会成为一个天花板，2）模型会和当前的Data尽量拟合而自身的学习能力被弱化。3）LLM默认会证明自己是对的，所以经常有幻觉的产生。而强化学习是让AI在实际使用中获得数据，反馈，它不试图证明自己是对的，而是不断地在真实世界中试错来验证。 2. 如果没有强化学习，那么AlphaGo只会学会人类的技巧，而没有它第二局超越人类经验的第37手。经验比知识更重要。 3. 而AlphaZero是AlphaGo的下一代，证明了忘记人类经验学习的价值。AlphaZero从完全随机的行为开始，从系统自身生成的经验中学习的方式，使得 AlphaZero 从零开始达到了并超越了人类在围棋和国际象棋等领域的最高水平。 4. 反馈有两种，基于人类经验的反馈（RLHF）和真实世界的反馈。前者是人类事先根据经验设定的标准，但它在真实世界仍然可能是错的。而后者是真正通过行动在真实世界得到的反馈。这是AlphaZero超越AlphaGo的背后原理。 5. David Silver提出“Reward is enough”。我们训练AI的职责主要是把目标和我们的价值观对齐融合在设定的奖励标准中。比如我们设定一个标准，奖励AI让我们变得更健康的策略。这个符合我们的需求，而且这里并不是具体的目标，而是模糊的高层目标——如何变得健康。AI系统自己去优化具体的目标（心率，BMI等），并根据真实的反馈调整具体目标的组合。 6. Anthropic以及一些团队证明了基础模型仍然有提升的空间，因此，Data驱动和强化学习驱动会是两个持续演进的双螺旋，而强化学习会越来越重要。进一步： 1. 从哲学上讲，在时间之矢方向上的Randomness和熵增是确定的，因而我们无法完全从既有的数据和经验学习，我们只有不停地探索，无论是AI还是我们自身。 2. 我们几乎所有在AI训练中的启示都适用于我们对下一代的教育。

显示更多

0

38

23

10

转发到社区

知识分享官@knowledgefxg

2026.04.21 04:45

学习英语的宝藏YouTube频道推荐：VUS - Learning English Podcast 适合想提升听力和口语的初、中级小伙伴，每天更新，每期将近一小时，内容围绕思维与学习方法，时间管理与自我提升这类话题。整体应该都是AI生成，但音色语速发音都很棒，适合睡前助眠听，还有实时纯英字幕帮助辅助学习。

显示更多

0

4

228

50

转发到社区

流星@0xliuxing

2026.05.25 03:43

BTC OG Runes 协议 $DOG 社区大佬也发帖支持 Bound 发射台了 @LeonidasNFT 老师这条直接站台奶 Bound 发射台了 Btc OG陆续都下场了，这波 Bound 生态能不能先冲击到5M？简单讲讲这个发射台： @Bound_Exchange 是 BTC L1 原生 Runes 发射台 + DEX，主打自托管统一账户 + 原子结算 + 秒级交易，把以前操作麻烦的问题基本都解决了充值超级简单：直接选择 BNB / ETH / SOL 充值即可，到账后在里面直接换成 BTC 就能玩了过去一周 Runes 已经占比特币全网交易笔数的 60%，现在大佬亲自站台，热度更上一层楼！这次我捏死 $BOUND 能等到大结果吗？

显示更多

0

2

8

2

转发到社区

rick awsb ($people, $people)@rickawsb

2026.05.17 19:09

Scaling Law正在被重新Scaling ---openai核心研究员最新论文《Learning Beyond Gradients》解读过去几年，AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU，就是更强的模型，就是scaling law。过去几个月，行业开始认为，更多的推理，更多的agent，就能完成更长时、更高价值的任务，就是更强的智能。这构成了行业对scaling law的理解，而只要Scaling Law继续成立，模型就会不断逼近AGI。最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》，提出了一个全新的scaling维度：AI不一定只能通过梯度下降学习，也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。这是继agentic和harness之后，AI行业可能正在从“Scaling Model”，进入“Scaling System”的阶段一个最新的重要进展。过去AI的能力飞轮，本质上是：更多数据→更大模型→更强能力→更多用户→更多数据。但现在，论文要告诉我们的是，新的能力飞轮：更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。行业正在加速的从：智能 = weights。过度到：智能 = weights + runtime system。 LLM本质上是输入→Transformer→输出。模型训练结束之后，能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说，learning = 修改参数。 LLM就像人类的大脑，参数就像脑细胞。但现实世界的大量复杂能力，其实并不完全来自参数。就像人类文明真正强大的地方，也不仅仅是大脑本身。真正让文明爆炸的，是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。《Learning Beyond Gradients》，的创新，在于它开始尝试把“学习”从参数空间里解放出来。过去是：reward → gradient → weights。现在开始变成：feedback → heuristic modification → runtime evolution。学习开始发生在program space，而不是parameter space。 heuristic，还有点像专家系统，但极大的增强了其能力：过去的专家系统，规则由人类写；现在，规则开始由LLM自动生成。这是在效率上的从量变到质化。传统专家系统失败，并不完全因为“规则”方向错了，而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控，所以专家系统最终被深度学习取代。但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则，还开始能自动生成workflow、tool graph、planner、memory strategy，甚至修复agent行为。这意味着，AI开始能够修改自己的运行时系统。于是，越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。更大的模型 = 更强的AI，变成：更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。过去AI只有“模型scaling”。未来AI会开始出现：Model Scaling × System Scaling × Runtime Self-Improvement。我们很可能正在从去年底的scaling law，迈入到现在的heuristic驱动的，结合agent和harness的scaling law的平方。更重要的是，runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱，本质上还处于“DOS时代”。但接下来，同一个基础模型，在不同Harness之下，实际能力可能相差几十倍。因为很多复杂任务的瓶颈，已经不是“模型会不会”，而是“系统能不能持续组织行为”。这也是为什么，未来最重要的竞争，可能不再只是“谁的参数最多”，而是“谁最先形成：模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。某种意义上，Transformer越来越像“认知内核”。真正的AGI，可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。《Learning Beyond Gradients》最让我兴奋的地方，其实并不是“超越梯度”。而是它开始尝试：把Scaling Law本身，也变成一个可以被继续Scaling的系统。

显示更多

0

12

83

15

转发到社区

玉靥姬@Lilithyyj

2026.03.05 13:58

小玉老师，你们家白菜好像有点着急

0

8

1.6K

35

转发到社区

Diary.AI@Yiyixmb

2026.05.12 01:59

✅当年空投符石也是轰动整个brc20生态，如今一看，非常惋惜，愿 @LeonidasNFT 再来一次伟大的创新！

Leonidas 🧡 $DOG@LeonidasNFT

2026.05.11 22:18

We're shutting down @ord_io and @ZapApp at the end of the month This really sucks because great people put a lot of hard work into these products, friends invested in me, our users believed in us, and I feel like I let everyone down In the end we ran out of money and don't see a path forward Despite that I'm still incredibly proud of everything that we did I'm proud that we organically built two respected crypto brands that never farmed anyone or launched a token I'm proud that we empowered over a million people to explore Ordinals inscriptions on Bitcoin I'm proud that we shipped an app that let anyone sign up and buy a Bitcoin memecoin in under 30 seconds (an experience that many considered impossible) For the past 3 years I've woken up every day excited to build in the Bitcoin ecosystem and feel blessed to have had that opportunity I never took a salary, have no regrets, and wouldn't trade the epic moments we had along the way for anything Thank you to my cofounder Zach, our team, our investors, and all of our users for being part of this journey with me 🧡

显示更多

0

1

0

转发到社区

AI Dance@AI_Whisper_X

2026.05.09 04:16

翁家翌新 blog：超越梯度的学习昨天看到翁家翌（前 OpenAI 研究员）新写了一篇 blog《Learning Beyond Gradients》，挺有意思的，分享一些我读下来的感受。原文较长且偏技术，下面这版做了不少删减和重组，建议感兴趣的同学直接读原文 · · · 翁家翌：超越梯度的学习持续学习（Continual Learning）之所以一直很难，很大程度上是因为神经网络的顽疾：灾难性遗忘。那如果我们不只盯着权重更新这一条路呢？随着 LLM agent 越来越强，写代码这件事变得又快又好。但翁家翌注意到一个更有趣的现象：agent 可以反复读取失败信息、修改策略代码、添加测试、回放录像，让整套程序在不动任何网络权重的情况下持续变强。 · · · 这个视角让他重新审视了一个老朋友：heuristic，也就是手写规则和程序化策略。之前很多 heuristic 不是没用，而是维护太贵了，而coding agent 改变的正是这条维护曲线。那些曾经用完就扔的一次性补丁，开始变得值得长期拥有。凡是能被持续迭代的东西，都开始变得更可解，这也恰恰是持续学习一直追求的目标。它有没有可能成为继 pretraining → RLHF → 大规模 RL/RLVR 之后的下一个范式？ · · · 翁家翌用 Codex（gpt-5.4）做了实验，纯写规则版本，完全不碰神经网络。结果超出预期： — Atari Breakout 的打砖块分数从 387 一路升到 864，达到理论最高分； — MuJoCo 四足和跑步机器人任务中，纯 Python 策略也跑进了常见 Deep RL 结果的量级，HalfCheetah 五轮均值 11836.7； — 跑完 Atari 全部 57 个游戏后，在相同的环境交互步数下，中位数得分已经远高于 PPO 这类标准算法。这里被更新的对象早就不是单纯的策略函数了，而是一整套带着记忆、反馈入口和回归机制的软件系统。翁家翌把它叫作 Heuristic Learning（HL，启发式学习）。（我自己也做过 evolve，但不训练神经网络，纯靠规则约束，感觉系统怎么都智能不起来。其实不管 RL 还是 HL，能不能跑起来都是看一件事，优化结果的评分能不能清晰定义。） · · · Heuristic Learning（HL）是什么？HL 怎么持续学习？ HL 的核心是用 coding agent 维护一个 Heuristic System（HS）。和 Deep RL 的差异： — 反馈来源：不是 loss 函数，而是测试结果、环境奖励、日志、视频、失败模式分析； — 更新方式：不走反向传播，agent 直接改 policy、状态检测器、测试、配置或记忆结构； — 维护对象：不止一个 trace（黄金轨迹）、环境 wrapper 等。以前怎么没人搞？专家系统 70 年代就有，但人维护起来是噩梦：加一条规则修好 case A，case B 崩了；规则堆到几百条后，除了原作者没人看得懂。而 coding agent 不怕堆规则。它能同时读所有代码、跑全量测试、对比日志，把维护成本打下来。用翁的比喻说，就像纺纱机改变纺线成本曲线一样：手工纺贵得要死，机器一上来就塌掉了。 · · · Heuristic Learning 怎么做 Continual Learning 神经网络把经验压进权重，忘没忘、怎么忘的都是黑箱。HL 的历史则是显式的：版本 diff、回归测试、replay、视频、golden trace 全透明。新增能力前先固化旧能力：跑回归测试、跑固定种子回放。如果新规则破坏旧 case，agent 能直接定位到哪行代码引入的 regression。但规则叠太多、agent 自己都维护不动的时候，就需要"历史压缩"，把一堆 case-specific 的补丁合并成更通用的逻辑，否则系统迟早变成没人敢碰的代码泥球。 · · · 当然，HL 不是万能药。因为 Heuristic Learning 并不能做所有神经网络能做的事情。它的上限卡在代码的表达能力：比如复杂感知和长程泛化。翁家翌也坦率地说，他想不出有哪个 agent 能纯靠 Python、不用网络去搞定 ImageNet。所以真正的问题变成了：怎么把神经网络和 HL 结合起来，同时搞定在线学习和持续学习？最有希望的方向是：用 HL 快速处理在线数据，把在线经验变成可训练、可回归、可筛选的数据，再周期性地更新神经网络。以机器人为例，借用 System 1 / System 2 的说法，一种可能的分工是： — 专用浅层 NN 作为 System 1 的一部分：快、便宜，负责感知、分类、物体状态估计； — HL 也可以当做 System 1 的一部分：负责最新数据处理、规则、测试、回放、memory、安全边界、局部恢复； — LLM agent 作为 System 2：负责给 HL 提供反馈、改进数据，并周期性把 HL 生成的数据拿过来更新自己。 · · · Agentic coding 改变的不仅是写代码的速度，更改变了"哪些代码值得被长期拥有"。过去很多 heuristic 看上去没前途，不是它们太弱，而是维护不起。 coding agent 改变的就是这条维护成本曲线。规则、测试、日志、记忆和补丁，原来只是散落的工程材料，现在开始能组成一个持续进化的 Heuristic System，去解决在线学习和持续学习一直没搞定的事。欢迎来到下一个范式。 · so，skills + instruction following = AGI？

显示更多

0

1

171

41

转发到社区