注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 日プ新世界』
日プ新世界』 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 日プ新世界』 的推特
日奈娇爱心护理制服裹不住超级巨乳,粉粉嫩嫩肌肤晃荡大奶,爱心图案下乳沟深不见底,撩人低吟勾引:哥哥快来揉爆这对粉嫩巨乳,操到姐姐浪叫求饶!日奈娇 #超级巨乳# #爱心护理# #粉嫩勾引# @sktwober @sktworel @sktwolris @sktwobba
显示更多
【日中经济协会考察团开启访华行程 将参观机器人研发】日中经济协会的考察团11日开启为期五天的访华行程。考察团由约30名制造商或商社等企业的人员组成,将在上海市和浙江省杭州市参观机器人研发与应用第一线。在日中关系恶化导致经济交流受阻的背景下,日中经协希望通过增加小规模派遣来维持关系。日中经协透露了上述消息。 日中经协以及日本经济团体联合会(经团联)、日本商工会议所这3家团体的代表团原计划今年1月访华,但由于日本首相高市早苗在国会作出的涉台答辩引起中方强烈不满,访华计划推后。尽管就访华持续展开协调,但尚无实现的眉目。 日中经协还计划最快7月向高科技产业发展迅速的安徽省合肥市等地派遣最多约30人的代表团。
显示更多
日,这个真的扎心到我了。
0
71
146
8
转发到社区
日读论文 Prompt 技巧中的「角色扮演法」,有效,但为啥会有效呢?这篇论文给了一个解释,有意思。 ──────── The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in LLMs 扮演非格,实是刻度 ──────── 你跟 GPT 说「你是一位忧心的家长,孩子最近沉迷手机怎么办」,它给你的答案带着具体家长的那股焦虑——「试试把手机放客厅」「和孩子聊聊他刷的都是啥」。然后你换一句:「你是世界银行行长,怎么看青少年屏幕成瘾这个全球公共健康问题」——同一个模型,瞬间换了一套口吻:跨国数据、政策杠杆、长期 GDP 影响。 这个换台的丝滑感,所有用过大模型的人都体会过。但模型脑子里究竟发生了什么?过去研究者的默认假设是:模型记住了"家长该怎么说""行长该怎么说"——每个角色对应一组语言风格的模板。如果你打开模型,应该能看到几百个角色,对应几百个独立的小堆。「扮演」就是个表面活儿——本质是模板匹配。 但 Qin 这群人翻出来的发现完全不一样。他们让模型分别"扮演"75 个角色(从最微观的"忧心的家长"到最宏观的"世界银行行长"),把每次回答时模型内部的隐藏向量都记下来,再做几何分析。结果:这 75 个角色不是几百个孤立的点——*它们排在一根直线上*。从微观到宏观,每个角色都是这根线上的一个刻度。换角色不是换一套风格模板,是沿着一把"视野远近"的尺子挪一个位置。 ──────── *"角色"不是模型的属性,是这根轴上的一个坐标。所谓"扮演谁",本质是"挪到哪一格刻度"。* 这个洞见超出 LLM。 你在生活里"扮演角色"——CEO、父亲、咨询顾问、学生家长——之间的切换,可能也不是几百个独立模板,而是同一个你沿着几根类似的轴(粒度、时间尺度、利他度、风险偏好)调位置。模型把这件事做得这么干净,可能不是因为它特别简单,是因为它继承了人类语言里就编码了的这种结构——*我们的语言对"视野远近"这件事,本身就是个连续刻度*。
显示更多
【日經暴漲5.58%收於62833點,歷史新高】收盤較上一交易日上漲3320點,漲幅超過2024年8月6日創下的3217點紀錄,創歷史最大單日上漲點數。日本黃金周假期結束後的東京市場,AI行情進一步加速。鎧俠控股漲幅19.22%……
显示更多
【日經午盤大漲5.72%】5月7日東京股市,日經平均股指大幅連續上漲,午盤收於62915點,較上一交易日上漲3402點。AI行情正進一步加速……
显示更多
【日經開盤後突破61000點】5月7日的東京股市,日經平均股指一度較上一交易日(4月30日)上漲超過2000點,突破61000點關口。投資者風險偏好明顯回升……
显示更多
【日企打假(2)撤店促銷假消息動搖卡西歐】「由於洪水,將關閉泰國的所有店舖。所有商品兩折銷售」,瀏覽資訊,可以看到穿西裝的男性跪在地上的照片,還有多人低頭鞠躬的照片。2024年11月「卡西歐要從泰國撤退的假消息到處流傳」……
显示更多
日内做了五六单,累了,赶集去。
0
52
40
0
转发到社区
日读论文: From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill) 互斗写书,越斗越偏 ──────── 医生想用一份刚出的临床指南调整治疗方案。50 页文档,密密麻麻全是术语,规则之间还交叉引用。他真正需要的是把"什么病合什么药"变成几条能照着走的步骤。直接把整份指南扔给 GPT-5.1 让它答题,全 benchmark 平均对率 21%——大模型读完了,用不出来。这不是它"长上下文"不行,是 *它没把规则提炼成可以反复调用的小手册*。 老办法是把人类标注员请来给文档画重点:把规则、流程、注意事项提炼成自然语言"技能",附在 prompt 前面给模型用。但这条路有两个死结:一是*标注成本爆炸*——50 页技术文档,标注员要把整套领域逻辑读到能复述,几小时才标一份;500 份这么搞,人累死也搞不完。二是*没有外部反馈*——如果想让 AI 自动写技能,怎么验证它提炼对了?没有 ground truth、没有执行结果、没有标准答案,它瞎写你都不知道。已有的"自动写技能"方法(AutoSkill、SkillX 等)都需要环境给反馈信号——比如"代码跑出来对不对""任务完成没"——可面对一份纯文档,没人替你判对错。 作者说不需要外人。让模型自己跟自己打——一个出题,一个解题,第三方判 pass/fail。每一回合,错题让解题方反省"我漏了什么知识",过得太轻松的题让出题方反省"我出题不够刁"。两边各自维护一份自然语言的"技能手册",回合结束之后改写各自的手册。这套循环不依赖人类标注,也不依赖任务本身的对错反馈—— *只用模型互相之间的胜负就能把技能写出来*。 ──────── 按常识,5 个回合互相磨练完,第 5 回合的 Reasoner 手册应该最强吧? 错。论文做了固定回合的对照实验(GPT-4.1):*单调下降*。越练越差。 为什么?作者起了个名字: *adversarial collapse*——对抗坍缩。Challenger 越来越凶,开始出"考钻牛角尖"的题;Reasoner 为了应付这些极端题,把手册改得越来越歪——专为对付怪题而存在的条目挤掉了通用知识。两边都在围着一个不代表真实任务分布的"病态点"打转。 更阴险的是, *这种崩塌在循环内部察觉不到*——Judge 每一回合只看当前题,没有信号告诉你"之前学会的事是不是被新条目挤丢了"。 ** 怎么找回早期的好手册:Cross-Time Replay 既然不能信"最后一版",得回头挑。但凭什么挑? 办法:在 5 个回合里偷偷攒两套小探针—— - *Hard probe*:每回合败得最惨(评分点通过率最低)的那道题 - *Easy probe*:每回合解得最轻松(评分点最少)的那道题 循环跑完,把 5 个版本的 Reasoner 手册*回去重做*这两套探针。每个版本算两个分:在难题集上的解题率 ρ_h、在易题集上的解题率 ρ_e。 *选哪一版?* 让 ρ_h × ρ_e 最大的那一版赢。 为什么是乘积不是相加?*乘积惩罚"舍弱保强"*——一个版本如果为了多解几道难题、把易题做塌了,乘积立刻塌(一个 0 拉低全场);加法只算总分,掩盖短板。消融:换成加法 → -0.6%。 ──────── *你的对手如果只服你一个人,他会变成你的镜子,不是你的镜鉴*。 Self-play 跑久了,Challenger 出的题不再代表真实世界,只代表 Reasoner 当下还不会的边角;Reasoner 的手册也不再是知识,只是这场私局的应试手册。两个人在屋里关久了,一起走进自己造的回音壁。 破解的办法不在循环里——*在循环之外保留一份"代表性参照"*,回头挑哪一版没飘走。Cross-Time Replay 是这个论文真正的灵魂,不是某个技术细节。它在说:*对抗优化必须配一个不参与对抗的判别器*,否则一定会塌。这个判别器不一定是人,可以是从对抗自己内部偷出来的、有代表性的小样本——但它必须独立于"当下这一刻在追什么"。
显示更多