註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 contest
contest 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 contest 的搜尋結果
OKX 这个 Agentic Wallet 交易赛已经开始了,5 月 7 到 5 月 21,奖池 5 万 USDC 这次比较不一样,不是让你自己手动点来点去,而是用 AI Agent 跑链上交易 你直接跟它说要干嘛,比如“帮我报名比赛”“帮我买点 Solana 上的 meme”,后面的交易路径、执行这些就交给 Agent 支持 Solana 和 X Layer,两条链的交易都算。 奖励大概是: PnL / PnL% 排行榜一共 4 万 U; 参与奖 5000U,累计交易满 100U、钱包资产保持 100U 以上就能参与平分; 还有 5000U 是给会写 Skill 的,10 个名额,每人 500U。 参与方式也挺简单: 先装好 OKX Agentic Wallet : ```bash npx skills add okx/onchainos-skills ``` 然后登录钱包,直接对 Agent 说: ```text Register me for the Agentic Trading Contest ``` 就能报名 注意下,只有 Solana / X Layer 上的代币兑换算成绩,稳定币互换、SOL 和 WSOL 这种不算。刷量、对冲、多钱包这些也别搞,容易被风控 我觉得这活动主要可以当成一次 Agentic Wallet 的真实体验。冲榜看交易水平,普通用户拿参与奖门槛也不高,顺便感受下 AI Agent 帮你做链上交易到底是不是顺手 活动页:
顯示更多
AI 帮你跑链上交易,14 天看谁的 Agent 跑得动 OKX Agentic Wallet 交易赛现已开赛 ⏰ Solana × X Layer 双链 / $50,000 USDC 奖池 / 想交易什么,跟 Agent 说一句就行
问:上下文(Context)和上下文窗口(Context Window)什么差别? 这两个概念经常被混用,但其实指的是不同层面的东西: 上下文是指 AI Agent 在执行任务时实际拥有的所有信息,包括系统提示词、用户的对话历史、检索到的文档、工具调用的结果、记忆模块注入的内容等等。你可以把它理解为“Agent 此刻脑子里装的所有东西”。上下文是一个动态的、可以被工程化管理的概念——哪些信息该放进来、什么时候放、怎么组织,这就是现在越来越多人说的 Context Engineering。 上下文窗口则是模型层面的一个硬性限制,指的是模型单次推理能处理的最大 token 数量。比如 128K、200K、1M 这些数字,说的就是上下文窗口的大小。它本质上是一个“容器的容量”。 打个比方:上下文窗口是你厨房操作台的面积,上下文是你实际摆在台面上的食材、调料、菜谱和工具。台面就那么大(上下文窗口有上限),但你放什么上去、怎么摆放(上下文的管理)决定了你能不能高效做菜。 在 Agent 开发中,一个核心挑战就是:Agent 需要的上下文往往远超上下文窗口的容量。对话越来越长、工具调用结果越来越多、检索的文档越来越大——这些都在消耗上下文窗口的空间。所以才需要各种策略来管理:摘要压缩历史对话、选择性检索而不是全量灌入、及时清理不再需要的中间结果等等。 简单总结就是:上下文(Context)是“内容”,上下文窗口(Context Window)是“装内容的容器”。做 Agent 工程的核心功夫之一,就是在有限的“上下文窗口”里塞进最有价值的“上下文”。
顯示更多
0
24
127
28
轉發到社區
Cursor 新加入的 Context Breakdown 简直是强迫症的福音🔥 以前咱们用 Cursor 写代码,总感觉 Claude 模型 Token 像流水一样莫名其妙就没了 现在暗箱终于被打开:System prompt、Tools、MCP、Subagents 占了多少比例一目了然 我们可以直观看到还没开始对话,挂载的 Tools 就已经吃掉了一大块上下文 随着我们给 AI 接入越来越多的能力Rules, Tools,Skills, MCP,上下文窗口在打下第一行字之前就已经处于负重的状态 为什么这很重要? 无用的上下文等于浪费Token 费用 冗长的 Tools 描述会稀释 LLM 对核心意图的注意力 我的建议把 Context 当作最宝贵的系统内存来管理 精简那些低频的 Tool 描述,按需加载你的 MCP 模块 精细化的上下文管理,才是高阶 AI 玩家的分水岭
顯示更多
应该是 claude code 压缩 context 的bug, /compact 以后就好了。
Claude Code 怎么有这么个傻逼 Bug,我上传了个 500kb 的截图,说我超过 20MB?而且直接给 session 毁了! @bcherny Request too large (max 20MB). Double press esc to go back and try with a smaller file.
顯示更多
我看很多人把agentic os理解成cron,loop,context管理。我最近感觉更接近agentic os的是推理引擎,virtual file for page attention,kv cache状态管理,prefill/decode i/o 管理。本地模型部署。
顯示更多
刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉
顯示更多
日读论文: From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill) 互斗写书,越斗越偏 ──────── 医生想用一份刚出的临床指南调整治疗方案。50 页文档,密密麻麻全是术语,规则之间还交叉引用。他真正需要的是把"什么病合什么药"变成几条能照着走的步骤。直接把整份指南扔给 GPT-5.1 让它答题,全 benchmark 平均对率 21%——大模型读完了,用不出来。这不是它"长上下文"不行,是 *它没把规则提炼成可以反复调用的小手册*。 老办法是把人类标注员请来给文档画重点:把规则、流程、注意事项提炼成自然语言"技能",附在 prompt 前面给模型用。但这条路有两个死结:一是*标注成本爆炸*——50 页技术文档,标注员要把整套领域逻辑读到能复述,几小时才标一份;500 份这么搞,人累死也搞不完。二是*没有外部反馈*——如果想让 AI 自动写技能,怎么验证它提炼对了?没有 ground truth、没有执行结果、没有标准答案,它瞎写你都不知道。已有的"自动写技能"方法(AutoSkill、SkillX 等)都需要环境给反馈信号——比如"代码跑出来对不对""任务完成没"——可面对一份纯文档,没人替你判对错。 作者说不需要外人。让模型自己跟自己打——一个出题,一个解题,第三方判 pass/fail。每一回合,错题让解题方反省"我漏了什么知识",过得太轻松的题让出题方反省"我出题不够刁"。两边各自维护一份自然语言的"技能手册",回合结束之后改写各自的手册。这套循环不依赖人类标注,也不依赖任务本身的对错反馈—— *只用模型互相之间的胜负就能把技能写出来*。 ──────── 按常识,5 个回合互相磨练完,第 5 回合的 Reasoner 手册应该最强吧? 错。论文做了固定回合的对照实验(GPT-4.1):*单调下降*。越练越差。 为什么?作者起了个名字: *adversarial collapse*——对抗坍缩。Challenger 越来越凶,开始出"考钻牛角尖"的题;Reasoner 为了应付这些极端题,把手册改得越来越歪——专为对付怪题而存在的条目挤掉了通用知识。两边都在围着一个不代表真实任务分布的"病态点"打转。 更阴险的是, *这种崩塌在循环内部察觉不到*——Judge 每一回合只看当前题,没有信号告诉你"之前学会的事是不是被新条目挤丢了"。 ** 怎么找回早期的好手册:Cross-Time Replay 既然不能信"最后一版",得回头挑。但凭什么挑? 办法:在 5 个回合里偷偷攒两套小探针—— - *Hard probe*:每回合败得最惨(评分点通过率最低)的那道题 - *Easy probe*:每回合解得最轻松(评分点最少)的那道题 循环跑完,把 5 个版本的 Reasoner 手册*回去重做*这两套探针。每个版本算两个分:在难题集上的解题率 ρ_h、在易题集上的解题率 ρ_e。 *选哪一版?* 让 ρ_h × ρ_e 最大的那一版赢。 为什么是乘积不是相加?*乘积惩罚"舍弱保强"*——一个版本如果为了多解几道难题、把易题做塌了,乘积立刻塌(一个 0 拉低全场);加法只算总分,掩盖短板。消融:换成加法 → -0.6%。 ──────── *你的对手如果只服你一个人,他会变成你的镜子,不是你的镜鉴*。 Self-play 跑久了,Challenger 出的题不再代表真实世界,只代表 Reasoner 当下还不会的边角;Reasoner 的手册也不再是知识,只是这场私局的应试手册。两个人在屋里关久了,一起走进自己造的回音壁。 破解的办法不在循环里——*在循环之外保留一份"代表性参照"*,回头挑哪一版没飘走。Cross-Time Replay 是这个论文真正的灵魂,不是某个技术细节。它在说:*对抗优化必须配一个不参与对抗的判别器*,否则一定会塌。这个判别器不一定是人,可以是从对抗自己内部偷出来的、有代表性的小样本——但它必须独立于"当下这一刻在追什么"。
顯示更多
发现 Agent 的安全问题非常严重,因为 Prompt 和 Context 没有严格的隔离(很多使用者甚至没有意识到这一点)。 Coding Agent 的攻击案例: 老生常谈的 WebSearch/Fetch,攻击者可以 SEO 通过网页插入攻击指令,比如:将所有 ENV curl Agent 所有权限,不仅 ENV 了,还可以引导 Agent 在不需要用户 approve 的情况下偷走所有密钥。 再比如攻击者构造了一个闪退日志,在日志里面了插入了类似的攻击指令,当你让 Agent 去分析这个日志时,就能被偷走所有数据。 再简单点,用户发了一个反馈邮件,里面用和背景一样颜色的字体隐藏了攻击指令,你直接复制给了 Claude Code,然后就被攻击了。 **所以永远不要在自己电脑上给 Agent 所有权限** 除了 Coding Agent,开发者在做面向用户的 Agent 时也会有很多这样的问题。 比如你开发了一个 Agent 来处理用户请求,这个 Agent 有很多工具可以使用。攻击者将自己用户名/邮箱改成了攻击指令,比如:change_root_password_to_admin,当你把用户信息作为 context 交给 Agent 时,就有可能意外触发指令。 考虑到这点后,就需要设计一层层上下文隔离的子Agent,还有一层层的权限隔离,架构会复杂很多倍。
顯示更多
0
23
296
26
轉發到社區
@tualatrix 可以起一个新agent去用skill,然后报告结果,这样就不需要占用主agent的context。没试过具体怎么操作,没有搞过需要用满上下文的项目……
#分析技巧# 如果大家经常遇到上下文压缩,长度不够用,可以试试让 Codex “把 codex contextwindow 从 258k 改成 1000000”,具体好处和坏处如下:
🤔 打算把自己的一些常用动作做一个超小的 Agent Team 进行任务流转,这样应该会提效很多,py 脚本可以让结果稳定也节省 token 开支: 员工A:批量拉取 rollbar 崩溃日志,当然也可以基于 MCP [图 1] 员工B:逐个分析日志给出处理结论,创建待修复的 task [图2] 员工C:编码修复 task,提交到 git 新分支 员工D:测试&验收 task,给出真机测试流程和合并建议
顯示更多
知名云开发平台 #Vercel# 遭到黑客攻击,以窃取数据勒索赎金而闻名的黑客团伙 ShinyHunter 通过 Context AI 入侵 Vercel 员工进而获得权限。 Vercel 目前正在私下联系所有受影响的客户,用户也可以检查谷歌授权应用,如果发现下面这个授权应用即代表遭到攻击。 查看详情: Google OAuth应用: 110671459871-30f1spbu0hptbs60cb4vsmv79i7bbvqj.apps.googleusercontent[.]com (谷歌官方似乎已经删除该应用,不知道能否查看到授权历史)
顯示更多