注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 replayあいみょん2025
replayあいみょん2025 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 replayあいみょん2025 的推特
这几天Axis 老板 @chris_anm01 在群里很活跃,回应了很多社区关心的问题,给老表捋捋: 1⃣关于脚本的问题 team自行购买了市面上的各种脚本,包括多层验证去测试,目的就是最大化降低脚本影响。 当前的情况是:不能完全阻止脚本提交,但是可以通过后端强验证把污染数据筛掉,把被刷坏的 slot 重新释放出来。目前这套机制已经在跑,效果明显。 2⃣验证机制 ①每一条数据都会在服务器端做 Replay,验证轨迹真实性和质量 ②单条 Replay 耗时几秒到几十秒,目前有 3-5 台服务器实时处理 ③任务发布后2小时内就会涌入上万条,因此replay 会 pending ④最近一周实际表现:最长8-12小时完成全部 verify ⑤通过 = 可 sign 状态 ,Failed = slot 自动释放 ⑥若账号绝大部分数据 failed,将直接 ban 账户 3⃣关于发币与激励 如果发币,会严格按照真实贡献量 + 贡献价值来做空投或数据商业化后的分润。 4⃣ Fail 是正常现象 绝大多数失败是因为 sim2sim validation 没过。 Fail 就代表这条数据确实无效,无法恢复,但如果觉得有问题,项目方可以人工介入帮忙看。 翻了翻历史记录,failed属于极个别现象,问题不大,欢迎老表一起上车: @axisrobotics @0xsexybanana @plpiaoliang
显示更多
翁家翌新 blog:超越梯度的学习 昨天看到翁家翌(前 OpenAI 研究员)新写了一篇 blog《Learning Beyond Gradients》,挺有意思的,分享一些我读下来的感受。 原文较长且偏技术,下面这版做了不少删减和重组,建议感兴趣的同学直接读原文 · · · 翁家翌:超越梯度的学习 持续学习(Continual Learning)之所以一直很难,很大程度上是因为神经网络的顽疾:灾难性遗忘。那如果我们不只盯着权重更新这一条路呢? 随着 LLM agent 越来越强,写代码这件事变得又快又好。但翁家翌注意到一个更有趣的现象:agent 可以反复读取失败信息、修改策略代码、添加测试、回放录像,让整套程序在不动任何网络权重的情况下持续变强。 · · · 这个视角让他重新审视了一个老朋友:heuristic,也就是手写规则和程序化策略。之前很多 heuristic 不是没用,而是维护太贵了,而coding agent 改变的正是这条维护曲线。那些曾经用完就扔的一次性补丁,开始变得值得长期拥有。 凡是能被持续迭代的东西,都开始变得更可解,这也恰恰是持续学习一直追求的目标。 它有没有可能成为继 pretraining → RLHF → 大规模 RL/RLVR 之后的下一个范式? · · · 翁家翌用 Codex(gpt-5.4)做了实验,纯写规则版本,完全不碰神经网络。结果超出预期: — Atari Breakout 的打砖块分数从 387 一路升到 864,达到理论最高分; — MuJoCo 四足和跑步机器人任务中,纯 Python 策略也跑进了常见 Deep RL 结果的量级,HalfCheetah 五轮均值 11836.7; — 跑完 Atari 全部 57 个游戏后,在相同的环境交互步数下,中位数得分已经远高于 PPO 这类标准算法。 这里被更新的对象早就不是单纯的策略函数了,而是一整套带着记忆、反馈入口和回归机制的软件系统。翁家翌把它叫作 Heuristic Learning(HL,启发式学习)。 (我自己也做过 evolve,但不训练神经网络,纯靠规则约束,感觉系统怎么都智能不起来。其实不管 RL 还是 HL,能不能跑起来都是看一件事,优化结果的评分能不能清晰定义。) · · · Heuristic Learning(HL) 是什么?HL 怎么持续学习? HL 的核心是用 coding agent 维护一个 Heuristic System(HS)。 和 Deep RL 的差异: — 反馈来源:不是 loss 函数,而是测试结果、环境奖励、日志、视频、失败模式分析; — 更新方式:不走反向传播,agent 直接改 policy、状态检测器、测试、配置或记忆结构; — 维护对象:不止一个 trace(黄金轨迹)、环境 wrapper 等。 以前怎么没人搞?专家系统 70 年代就有,但人维护起来是噩梦:加一条规则修好 case A,case B 崩了;规则堆到几百条后,除了原作者没人看得懂。 而 coding agent 不怕堆规则。它能同时读所有代码、跑全量测试、对比日志,把维护成本打下来。用翁的比喻说,就像纺纱机改变纺线成本曲线一样:手工纺贵得要死,机器一上来就塌掉了。 · · · Heuristic Learning 怎么做 Continual Learning 神经网络把经验压进权重,忘没忘、怎么忘的都是黑箱。HL 的历史则是显式的:版本 diff、回归测试、replay、视频、golden trace 全透明。新增能力前先固化旧能力:跑回归测试、跑固定种子回放。如果新规则破坏旧 case,agent 能直接定位到哪行代码引入的 regression。 但规则叠太多、agent 自己都维护不动的时候,就需要"历史压缩",把一堆 case-specific 的补丁合并成更通用的逻辑,否则系统迟早变成没人敢碰的代码泥球。 · · · 当然,HL 不是万能药。因为 Heuristic Learning 并不能做所有神经网络能做的事情。它的上限卡在代码的表达能力:比如复杂感知和长程泛化。翁家翌也坦率地说,他想不出有哪个 agent 能纯靠 Python、不用网络去搞定 ImageNet。 所以真正的问题变成了:怎么把神经网络和 HL 结合起来,同时搞定在线学习和持续学习? 最有希望的方向是:用 HL 快速处理在线数据,把在线经验变成可训练、可回归、可筛选的数据,再周期性地更新神经网络。以机器人为例,借用 System 1 / System 2 的说法,一种可能的分工是: — 专用浅层 NN 作为 System 1 的一部分:快、便宜,负责感知、分类、物体状态估计; — HL 也可以当做 System 1 的一部分:负责最新数据处理、规则、测试、回放、memory、安全边界、局部恢复; — LLM agent 作为 System 2:负责给 HL 提供反馈、改进数据,并周期性把 HL 生成的数据拿过来更新自己。 · · · Agentic coding 改变的不仅是写代码的速度,更改变了"哪些代码值得被长期拥有"。过去很多 heuristic 看上去没前途,不是它们太弱,而是维护不起。 coding agent 改变的就是这条维护成本曲线。 规则、测试、日志、记忆和补丁,原来只是散落的工程材料,现在开始能组成一个持续进化的 Heuristic System,去解决在线学习和持续学习一直没搞定的事。 欢迎来到下一个范式。 · so,skills + instruction following = AGI?
显示更多
0
1
171
41
转发到社区
日读论文: From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill) 互斗写书,越斗越偏 ──────── 医生想用一份刚出的临床指南调整治疗方案。50 页文档,密密麻麻全是术语,规则之间还交叉引用。他真正需要的是把"什么病合什么药"变成几条能照着走的步骤。直接把整份指南扔给 GPT-5.1 让它答题,全 benchmark 平均对率 21%——大模型读完了,用不出来。这不是它"长上下文"不行,是 *它没把规则提炼成可以反复调用的小手册*。 老办法是把人类标注员请来给文档画重点:把规则、流程、注意事项提炼成自然语言"技能",附在 prompt 前面给模型用。但这条路有两个死结:一是*标注成本爆炸*——50 页技术文档,标注员要把整套领域逻辑读到能复述,几小时才标一份;500 份这么搞,人累死也搞不完。二是*没有外部反馈*——如果想让 AI 自动写技能,怎么验证它提炼对了?没有 ground truth、没有执行结果、没有标准答案,它瞎写你都不知道。已有的"自动写技能"方法(AutoSkill、SkillX 等)都需要环境给反馈信号——比如"代码跑出来对不对""任务完成没"——可面对一份纯文档,没人替你判对错。 作者说不需要外人。让模型自己跟自己打——一个出题,一个解题,第三方判 pass/fail。每一回合,错题让解题方反省"我漏了什么知识",过得太轻松的题让出题方反省"我出题不够刁"。两边各自维护一份自然语言的"技能手册",回合结束之后改写各自的手册。这套循环不依赖人类标注,也不依赖任务本身的对错反馈—— *只用模型互相之间的胜负就能把技能写出来*。 ──────── 按常识,5 个回合互相磨练完,第 5 回合的 Reasoner 手册应该最强吧? 错。论文做了固定回合的对照实验(GPT-4.1):*单调下降*。越练越差。 为什么?作者起了个名字: *adversarial collapse*——对抗坍缩。Challenger 越来越凶,开始出"考钻牛角尖"的题;Reasoner 为了应付这些极端题,把手册改得越来越歪——专为对付怪题而存在的条目挤掉了通用知识。两边都在围着一个不代表真实任务分布的"病态点"打转。 更阴险的是, *这种崩塌在循环内部察觉不到*——Judge 每一回合只看当前题,没有信号告诉你"之前学会的事是不是被新条目挤丢了"。 ** 怎么找回早期的好手册:Cross-Time Replay 既然不能信"最后一版",得回头挑。但凭什么挑? 办法:在 5 个回合里偷偷攒两套小探针—— - *Hard probe*:每回合败得最惨(评分点通过率最低)的那道题 - *Easy probe*:每回合解得最轻松(评分点最少)的那道题 循环跑完,把 5 个版本的 Reasoner 手册*回去重做*这两套探针。每个版本算两个分:在难题集上的解题率 ρ_h、在易题集上的解题率 ρ_e。 *选哪一版?* 让 ρ_h × ρ_e 最大的那一版赢。 为什么是乘积不是相加?*乘积惩罚"舍弱保强"*——一个版本如果为了多解几道难题、把易题做塌了,乘积立刻塌(一个 0 拉低全场);加法只算总分,掩盖短板。消融:换成加法 → -0.6%。 ──────── *你的对手如果只服你一个人,他会变成你的镜子,不是你的镜鉴*。 Self-play 跑久了,Challenger 出的题不再代表真实世界,只代表 Reasoner 当下还不会的边角;Reasoner 的手册也不再是知识,只是这场私局的应试手册。两个人在屋里关久了,一起走进自己造的回音壁。 破解的办法不在循环里——*在循环之外保留一份"代表性参照"*,回头挑哪一版没飘走。Cross-Time Replay 是这个论文真正的灵魂,不是某个技术细节。它在说:*对抗优化必须配一个不参与对抗的判别器*,否则一定会塌。这个判别器不一定是人,可以是从对抗自己内部偷出来的、有代表性的小样本——但它必须独立于"当下这一刻在追什么"。
显示更多
重写了一下 Remodex 的 Relay 部分,并且支持了 Docker 部署。你也可以选择使用我提供的 Relay(部署在日本东京,三网优化,到江浙沪的延迟在 30ms 左右)。
显示更多
[开源] [TF版] Remodex - 适用于 OpenAI Codex CLI 和桌面客户端版的手机远程控制应用,可以对话和发送指令进行远程开发操作。这是开发者 @Emanueledpt 推出的开源应用,支持读取现有会话并继续开发,缺点是每次都必须在 PC/Mac 上运行命令生成二维码,手机端扫码才能配对:
显示更多
推荐一个开源项目 闲鱼超级管家,基于 xianyu-auto-reply 二次开发的闲鱼自动回复工具,并且有自动自动发货功能(不过仅建议小号尝试,可能触发咸鱼风控)。 它保留了原项目的全部核心功能,同时对前端界面进行了完整重构,整体视觉和操作体验比原版更现代、更专业 GitHub:
显示更多
0
2
181
29
转发到社区
Moltbook没做起来,但是X和Linkedin再不治理就比molt book还moltbook了,评论区里全是用AI来对话的矩阵号。 Reply to this post if you are an AI
思路很像 nkmc cli + sandbank,看介绍完成度不错,好奇怎么处理网络 io,class 从 browser 模块里导出,难道是每个 sandbox 都创建一个 browserbox 做 relay?这样的话就只能做本地方案。
显示更多
OpenCLI 一键打通 Agent 的 Twitter 世界!🚀 发推、回复、引用转推、监控通知、关键词触发自动回 DM、把整条 thread 抓下来总结、批量整理 list、定期备份某个人的所有图和视频——你想到的客户端操作,Agent 都能替你跑。 不需要 X API key。不需要等审批。不用 OAuth 折腾半天。 全部复用浏览器登录态——你能在网页上做的事,Agent 都能做。 OpenCLI 的 Twitter 适配器膨胀到 36 个命令,几乎打穿整个客户端: 读:timeline / search / thread / tweets / likes / followers / following / bookmarks / notifications / trending / article / download 写:post / reply / quote / retweet / like / bookmark / follow / block / hide-reply / delete DM:reply-dm / accept 关键词自动放行 List:lists / list-tweets / list-add / list-remove 以前 Agent 看 Twitter 只能爬时间线 现在 search → thread 抓完整讨论 → 总结 → quote / reply 发出去,一条流水线串到底 Twitter 是 Agent 的第一个完整生活场景。
显示更多
0
18
218
37
转发到社区
还国内信用卡/花呗 海外工资还国内账单?跨境汇款慢 私人换汇?怕被冻卡 银行电汇?手续费贵到肉疼 MiPay 怎么做: USDT 兑换为人民币 直接还款到支付宝/微信绑定的信用卡 T+0 到账,手续费仅1.5% Mipay下载链接: 官方中文客服群: Pay domestic credit card/Huabei Pay domestic bills with overseas wages? Cross-border remittance is slow Private currency exchange? Afraid of being frozen Bank wire transfer? The handling fee is so expensive that it hurts How to do MiPay: Convert USDT to RMB Repay directly to the credit card bound to Alipay/WeChat T+0 deposit, the handling fee is only 1.5% Mipay download link: Official Chinese customer service group:
显示更多
今晚真的脑子快炸了,同时开发的项目达到了高峰: - otohibi 的 webapp/native app 开发和打磨,做提交上线的商店设计材料 - sandbank cloud 做 runnerbox(自托管 runner) 和 repobox(自托管 git)并把自己的 GHA 迁移到 self-hosted - sandbank 做控制台 app,允许大家自己开设新的 project 并查看不同 service box 的 relay 关系 - mails 设计了崭新的 web app:允许查看收件箱和定义发件模板逻辑,相当于内置了 cloud agent mailbox,并支持 clerk 用户系统的 webhook email(我的刚需) 虽然所有的代码都不是我写,而且开发都是全自动的,人类大脑只是需要在这些不同的事情中切换就会显得计算能力不足,可能本质上还是太低功耗了,换句话说,人的大脑已经不适应 AI 时代这种节奏了
显示更多
0
15
167
4
转发到社区