搜索 replayあいみょん2025 相关的推文

2026.05.25 08:45

这几天Axis 老板 @chris_anm01 在群里很活跃，回应了很多社区关心的问题，给老表捋捋： 1⃣关于脚本的问题 team自行购买了市面上的各种脚本，包括多层验证去测试，目的就是最大化降低脚本影响。当前的情况是：不能完全阻止脚本提交，但是可以通过后端强验证把污染数据筛掉，把被刷坏的 slot 重新释放出来。目前这套机制已经在跑，效果明显。 2⃣验证机制 ①每一条数据都会在服务器端做 Replay，验证轨迹真实性和质量 ②单条 Replay 耗时几秒到几十秒，目前有 3-5 台服务器实时处理 ③任务发布后2小时内就会涌入上万条，因此replay 会 pending ④最近一周实际表现：最长8-12小时完成全部 verify ⑤通过 = 可 sign 状态，Failed = slot 自动释放 ⑥若账号绝大部分数据 failed，将直接 ban 账户 3⃣关于发币与激励如果发币，会严格按照真实贡献量 + 贡献价值来做空投或数据商业化后的分润。 4⃣ Fail 是正常现象绝大多数失败是因为 sim2sim validation 没过。 Fail 就代表这条数据确实无效，无法恢复，但如果觉得有问题，项目方可以人工介入帮忙看。翻了翻历史记录，failed属于极个别现象，问题不大，欢迎老表一起上车： @axisrobotics @0xsexybanana @plpiaoliang

显示更多

0

1

0

转发到社区

AI Dance@AI_Whisper_X

2026.05.09 04:16

翁家翌新 blog：超越梯度的学习昨天看到翁家翌（前 OpenAI 研究员）新写了一篇 blog《Learning Beyond Gradients》，挺有意思的，分享一些我读下来的感受。原文较长且偏技术，下面这版做了不少删减和重组，建议感兴趣的同学直接读原文 · · · 翁家翌：超越梯度的学习持续学习（Continual Learning）之所以一直很难，很大程度上是因为神经网络的顽疾：灾难性遗忘。那如果我们不只盯着权重更新这一条路呢？随着 LLM agent 越来越强，写代码这件事变得又快又好。但翁家翌注意到一个更有趣的现象：agent 可以反复读取失败信息、修改策略代码、添加测试、回放录像，让整套程序在不动任何网络权重的情况下持续变强。 · · · 这个视角让他重新审视了一个老朋友：heuristic，也就是手写规则和程序化策略。之前很多 heuristic 不是没用，而是维护太贵了，而coding agent 改变的正是这条维护曲线。那些曾经用完就扔的一次性补丁，开始变得值得长期拥有。凡是能被持续迭代的东西，都开始变得更可解，这也恰恰是持续学习一直追求的目标。它有没有可能成为继 pretraining → RLHF → 大规模 RL/RLVR 之后的下一个范式？ · · · 翁家翌用 Codex（gpt-5.4）做了实验，纯写规则版本，完全不碰神经网络。结果超出预期： — Atari Breakout 的打砖块分数从 387 一路升到 864，达到理论最高分； — MuJoCo 四足和跑步机器人任务中，纯 Python 策略也跑进了常见 Deep RL 结果的量级，HalfCheetah 五轮均值 11836.7； — 跑完 Atari 全部 57 个游戏后，在相同的环境交互步数下，中位数得分已经远高于 PPO 这类标准算法。这里被更新的对象早就不是单纯的策略函数了，而是一整套带着记忆、反馈入口和回归机制的软件系统。翁家翌把它叫作 Heuristic Learning（HL，启发式学习）。（我自己也做过 evolve，但不训练神经网络，纯靠规则约束，感觉系统怎么都智能不起来。其实不管 RL 还是 HL，能不能跑起来都是看一件事，优化结果的评分能不能清晰定义。） · · · Heuristic Learning（HL）是什么？HL 怎么持续学习？ HL 的核心是用 coding agent 维护一个 Heuristic System（HS）。和 Deep RL 的差异： — 反馈来源：不是 loss 函数，而是测试结果、环境奖励、日志、视频、失败模式分析； — 更新方式：不走反向传播，agent 直接改 policy、状态检测器、测试、配置或记忆结构； — 维护对象：不止一个 trace（黄金轨迹）、环境 wrapper 等。以前怎么没人搞？专家系统 70 年代就有，但人维护起来是噩梦：加一条规则修好 case A，case B 崩了；规则堆到几百条后，除了原作者没人看得懂。而 coding agent 不怕堆规则。它能同时读所有代码、跑全量测试、对比日志，把维护成本打下来。用翁的比喻说，就像纺纱机改变纺线成本曲线一样：手工纺贵得要死，机器一上来就塌掉了。 · · · Heuristic Learning 怎么做 Continual Learning 神经网络把经验压进权重，忘没忘、怎么忘的都是黑箱。HL 的历史则是显式的：版本 diff、回归测试、replay、视频、golden trace 全透明。新增能力前先固化旧能力：跑回归测试、跑固定种子回放。如果新规则破坏旧 case，agent 能直接定位到哪行代码引入的 regression。但规则叠太多、agent 自己都维护不动的时候，就需要"历史压缩"，把一堆 case-specific 的补丁合并成更通用的逻辑，否则系统迟早变成没人敢碰的代码泥球。 · · · 当然，HL 不是万能药。因为 Heuristic Learning 并不能做所有神经网络能做的事情。它的上限卡在代码的表达能力：比如复杂感知和长程泛化。翁家翌也坦率地说，他想不出有哪个 agent 能纯靠 Python、不用网络去搞定 ImageNet。所以真正的问题变成了：怎么把神经网络和 HL 结合起来，同时搞定在线学习和持续学习？最有希望的方向是：用 HL 快速处理在线数据，把在线经验变成可训练、可回归、可筛选的数据，再周期性地更新神经网络。以机器人为例，借用 System 1 / System 2 的说法，一种可能的分工是： — 专用浅层 NN 作为 System 1 的一部分：快、便宜，负责感知、分类、物体状态估计； — HL 也可以当做 System 1 的一部分：负责最新数据处理、规则、测试、回放、memory、安全边界、局部恢复； — LLM agent 作为 System 2：负责给 HL 提供反馈、改进数据，并周期性把 HL 生成的数据拿过来更新自己。 · · · Agentic coding 改变的不仅是写代码的速度，更改变了"哪些代码值得被长期拥有"。过去很多 heuristic 看上去没前途，不是它们太弱，而是维护不起。 coding agent 改变的就是这条维护成本曲线。规则、测试、日志、记忆和补丁，原来只是散落的工程材料，现在开始能组成一个持续进化的 Heuristic System，去解决在线学习和持续学习一直没搞定的事。欢迎来到下一个范式。 · so，skills + instruction following = AGI？

显示更多

0

1

171

41

转发到社区

李继刚@lijigang

2026.05.05 03:22

日读论文： From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill) 互斗写书，越斗越偏 ──────── 医生想用一份刚出的临床指南调整治疗方案。50 页文档，密密麻麻全是术语，规则之间还交叉引用。他真正需要的是把"什么病合什么药"变成几条能照着走的步骤。直接把整份指南扔给 GPT-5.1 让它答题，全 benchmark 平均对率 21%——大模型读完了，用不出来。这不是它"长上下文"不行，是 *它没把规则提炼成可以反复调用的小手册*。老办法是把人类标注员请来给文档画重点：把规则、流程、注意事项提炼成自然语言"技能"，附在 prompt 前面给模型用。但这条路有两个死结：一是*标注成本爆炸*——50 页技术文档，标注员要把整套领域逻辑读到能复述，几小时才标一份；500 份这么搞，人累死也搞不完。二是*没有外部反馈*——如果想让 AI 自动写技能，怎么验证它提炼对了？没有 ground truth、没有执行结果、没有标准答案，它瞎写你都不知道。已有的"自动写技能"方法（AutoSkill、SkillX 等）都需要环境给反馈信号——比如"代码跑出来对不对""任务完成没"——可面对一份纯文档，没人替你判对错。作者说不需要外人。让模型自己跟自己打——一个出题，一个解题，第三方判 pass/fail。每一回合，错题让解题方反省"我漏了什么知识"，过得太轻松的题让出题方反省"我出题不够刁"。两边各自维护一份自然语言的"技能手册"，回合结束之后改写各自的手册。这套循环不依赖人类标注，也不依赖任务本身的对错反馈—— *只用模型互相之间的胜负就能把技能写出来*。 ──────── 按常识，5 个回合互相磨练完，第 5 回合的 Reasoner 手册应该最强吧？错。论文做了固定回合的对照实验（GPT-4.1）：*单调下降*。越练越差。为什么？作者起了个名字： *adversarial collapse*——对抗坍缩。Challenger 越来越凶，开始出"考钻牛角尖"的题；Reasoner 为了应付这些极端题，把手册改得越来越歪——专为对付怪题而存在的条目挤掉了通用知识。两边都在围着一个不代表真实任务分布的"病态点"打转。更阴险的是， *这种崩塌在循环内部察觉不到*——Judge 每一回合只看当前题，没有信号告诉你"之前学会的事是不是被新条目挤丢了"。 ** 怎么找回早期的好手册：Cross-Time Replay 既然不能信"最后一版"，得回头挑。但凭什么挑？办法：在 5 个回合里偷偷攒两套小探针—— - *Hard probe*：每回合败得最惨（评分点通过率最低）的那道题 - *Easy probe*：每回合解得最轻松（评分点最少）的那道题循环跑完，把 5 个版本的 Reasoner 手册*回去重做*这两套探针。每个版本算两个分：在难题集上的解题率 ρ_h、在易题集上的解题率 ρ_e。 *选哪一版？* 让 ρ_h × ρ_e 最大的那一版赢。为什么是乘积不是相加？*乘积惩罚"舍弱保强"*——一个版本如果为了多解几道难题、把易题做塌了，乘积立刻塌（一个 0 拉低全场）；加法只算总分，掩盖短板。消融：换成加法 → -0.6%。 ──────── *你的对手如果只服你一个人，他会变成你的镜子，不是你的镜鉴*。 Self-play 跑久了，Challenger 出的题不再代表真实世界，只代表 Reasoner 当下还不会的边角；Reasoner 的手册也不再是知识，只是这场私局的应试手册。两个人在屋里关久了，一起走进自己造的回音壁。破解的办法不在循环里——*在循环之外保留一份"代表性参照"*，回头挑哪一版没飘走。Cross-Time Replay 是这个论文真正的灵魂，不是某个技术细节。它在说：*对抗优化必须配一个不参与对抗的判别器*，否则一定会塌。这个判别器不一定是人，可以是从对抗自己内部偷出来的、有代表性的小样本——但它必须独立于"当下这一刻在追什么"。

显示更多

0

1

39

1

转发到社区

Vincent Yang@m1ssuo

2026.03.16 22:28

重写了一下 Remodex 的 Relay 部分，并且支持了 Docker 部署。你也可以选择使用我提供的 Relay（部署在日本东京，三网优化，到江浙沪的延迟在 30ms 左右）。

显示更多

蓝点网@landiantech

2026.03.13 02:02

[开源] [TF版] Remodex - 适用于 OpenAI Codex CLI 和桌面客户端版的手机远程控制应用，可以对话和发送指令进行远程开发操作。这是开发者 @Emanueledpt 推出的开源应用，支持读取现有会话并继续开发，缺点是每次都必须在 PC/Mac 上运行命令生成二维码，手机端扫码才能配对：

显示更多

0

4

77

9

转发到社区

娜美知识库@fhwofjow51260

2026.04.02 13:13

推荐一个开源项目闲鱼超级管家，基于 xianyu-auto-reply 二次开发的闲鱼自动回复工具，并且有自动自动发货功能（不过仅建议小号尝试，可能触发咸鱼风控）。它保留了原项目的全部核心功能，同时对前端界面进行了完整重构，整体视觉和操作体验比原版更现代、更专业 GitHub：

显示更多

0

2

181

29

转发到社区

Shawn Pang@0xshawnpang

2026.05.13 07:04

Moltbook没做起来，但是X和Linkedin再不治理就比molt book还moltbook了，评论区里全是用AI来对话的矩阵号。 Reply to this post if you are an AI

0

3

6

0

转发到社区

郭宇 guoyu.eth@turingou

2026.05.07 04:41

思路很像 nkmc cli + sandbank，看介绍完成度不错，好奇怎么处理网络 io，class 从 browser 模块里导出，难道是每个 sandbox 都创建一个 browserbox 做 relay？这样的话就只能做本地方案。

显示更多

Wey Gu 古思为@wey_gu

2026.05.07 02:51

关注！

0

2

12

0

转发到社区

kabikabi@jakevin7

2026.05.14 10:46

OpenCLI 一键打通 Agent 的 Twitter 世界！🚀 发推、回复、引用转推、监控通知、关键词触发自动回 DM、把整条 thread 抓下来总结、批量整理 list、定期备份某个人的所有图和视频——你想到的客户端操作，Agent 都能替你跑。不需要 X API key。不需要等审批。不用 OAuth 折腾半天。全部复用浏览器登录态——你能在网页上做的事，Agent 都能做。 OpenCLI 的 Twitter 适配器膨胀到 36 个命令，几乎打穿整个客户端：读：timeline / search / thread / tweets / likes / followers / following / bookmarks / notifications / trending / article / download 写：post / reply / quote / retweet / like / bookmark / follow / block / hide-reply / delete DM：reply-dm / accept 关键词自动放行 List：lists / list-tweets / list-add / list-remove 以前 Agent 看 Twitter 只能爬时间线现在 search → thread 抓完整讨论 → 总结 → quote / reply 发出去，一条流水线串到底 Twitter 是 Agent 的第一个完整生活场景。

显示更多

0

18

218

37

转发到社区

MiPAY@MiPAY_SG

2026.05.14 06:13

还国内信用卡/花呗海外工资还国内账单？跨境汇款慢私人换汇？怕被冻卡银行电汇？手续费贵到肉疼 MiPay 怎么做： USDT 兑换为人民币直接还款到支付宝/微信绑定的信用卡 T+0 到账，手续费仅1.5% Mipay下载链接：官方中文客服群： Pay domestic credit card/Huabei Pay domestic bills with overseas wages? Cross-border remittance is slow Private currency exchange? Afraid of being frozen Bank wire transfer? The handling fee is so expensive that it hurts How to do MiPay: Convert USDT to RMB Repay directly to the credit card bound to Alipay/WeChat T+0 deposit, the handling fee is only 1.5% Mipay download link: Official Chinese customer service group:

显示更多

0

3

0

转发到社区

郭宇 guoyu.eth@turingou

2026.05.12 11:17

今晚真的脑子快炸了，同时开发的项目达到了高峰： - otohibi 的 webapp/native app 开发和打磨，做提交上线的商店设计材料 - sandbank cloud 做 runnerbox（自托管 runner）和 repobox（自托管 git）并把自己的 GHA 迁移到 self-hosted - sandbank 做控制台 app，允许大家自己开设新的 project 并查看不同 service box 的 relay 关系 - mails 设计了崭新的 web app：允许查看收件箱和定义发件模板逻辑，相当于内置了 cloud agent mailbox，并支持 clerk 用户系统的 webhook email（我的刚需）虽然所有的代码都不是我写，而且开发都是全自动的，人类大脑只是需要在这些不同的事情中切换就会显得计算能力不足，可能本质上还是太低功耗了，换句话说，人的大脑已经不适应 AI 时代这种节奏了

显示更多

0

15

167

4

转发到社区