看了美股最近SaaS类公司的财报,还有人说LLMs are eating SaaS吗?
传统软件的客户渠道生态是很大的护城河,SaaS加了AI之后,护城河比AI native agent强太多了
上海交大这份大模型教程,藏得有点深
GitHub上发现一个宝藏项目,上海交大出品,叫 Dive into LLMs,11个主题全覆盖,每个模块都有课件+教程+可跑代码,不是那种看完啥也不会的纯理论。
重点来了,这11个方向:
1️⃣ 微调与部署
2️⃣ 提示学习与思维链
3️⃣ 知识编辑(让模型记住或忘掉某件事)
4️⃣ 数学推理,蒸馏迷你R1
5️⃣ 模型水印
6️⃣ 越狱攻击(怎么撬开大模型的嘴)
7️⃣ 大模型隐写
8️⃣ 多模态
9️⃣ GUI智能体,让AI替你点外卖
🔟 智能体安全
1️⃣1️⃣ RLHF安全对齐
还联合华为昇腾出了配套课程,初中高三级,有视频有实验手册。
🔗 链接:
显示更多
想了解大语言模型到底是怎么工作的,找到的资料都太过于学术看不懂,或者说的太浅只讲概念,就没一个从头到尾讲清楚的内容。
无独有偶,看到 how-llms-work 这个项目,把大模型的完整流程做成了一个可视化交互网页,内容基于 Karpathy 的经典讲座整理。
从网页数据采集、分词、神经网络训练,一直到推理生成、后训练对齐,每个阶段都有直观的图示和解释,一页看完整个流程。
GitHub:
还涵盖了幻觉问题、上下文窗口、检索增强生成等进阶话题,帮我们理解模型的能力边界和实际应用方式。
想搞明白大模型从训练到对话的全过程,又不想啃学术论文,这份教程值得花十分钟看一遍。
显示更多
日读论文
Prompt 技巧中的「角色扮演法」,有效,但为啥会有效呢?这篇论文给了一个解释,有意思。
────────
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in LLMs
扮演非格,实是刻度
────────
你跟 GPT 说「你是一位忧心的家长,孩子最近沉迷手机怎么办」,它给你的答案带着具体家长的那股焦虑——「试试把手机放客厅」「和孩子聊聊他刷的都是啥」。然后你换一句:「你是世界银行行长,怎么看青少年屏幕成瘾这个全球公共健康问题」——同一个模型,瞬间换了一套口吻:跨国数据、政策杠杆、长期 GDP 影响。
这个换台的丝滑感,所有用过大模型的人都体会过。但模型脑子里究竟发生了什么?过去研究者的默认假设是:模型记住了"家长该怎么说""行长该怎么说"——每个角色对应一组语言风格的模板。如果你打开模型,应该能看到几百个角色,对应几百个独立的小堆。「扮演」就是个表面活儿——本质是模板匹配。
但 Qin 这群人翻出来的发现完全不一样。他们让模型分别"扮演"75 个角色(从最微观的"忧心的家长"到最宏观的"世界银行行长"),把每次回答时模型内部的隐藏向量都记下来,再做几何分析。结果:这 75 个角色不是几百个孤立的点——*它们排在一根直线上*。从微观到宏观,每个角色都是这根线上的一个刻度。换角色不是换一套风格模板,是沿着一把"视野远近"的尺子挪一个位置。
────────
*"角色"不是模型的属性,是这根轴上的一个坐标。所谓"扮演谁",本质是"挪到哪一格刻度"。*
这个洞见超出 LLM。
你在生活里"扮演角色"——CEO、父亲、咨询顾问、学生家长——之间的切换,可能也不是几百个独立模板,而是同一个你沿着几根类似的轴(粒度、时间尺度、利他度、风险偏好)调位置。模型把这件事做得这么干净,可能不是因为它特别简单,是因为它继承了人类语言里就编码了的这种结构——*我们的语言对"视野远近"这件事,本身就是个连续刻度*。
显示更多