登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

Charles在路上
@Charles77xixi
00后 | 程序员 | 长期投资者 aka安妮的心动录 ⚡️ 重复做对的事,慢一点也没关系,希望能成为你的优质信息源
参加 January 2025
140 フォロー中    2.3K ファン
最近在研究Agent,顺带看了看 LLM 评测跑分的逻辑。 通常基础跑分靠的是 Benchmark,顶级模型靠的是 HLE(Humanity's Last Exam) 人类终极测试。 Benchmark本质就是一套标准化题库,给所有模型做同一套题,横向对比分数;而 HLE 是一个更高级的题库,里面所有的题目都无法在互联网上直接搜索出答案,必须经过推理。 类似高考是衡量学生水平的应试标准,benchmark 是衡量 AI 能力的标准,给AI一个标准的、有明确答案的题库。 几个比较经典的 benchmark: MMLU(大规模多任务语言理解),包含了 57 个学科的选择题,覆盖数学、历史、法律、医学…… 典型题目: - 以下哪种维生素缺乏会导致夜盲症?A. 维生素A B. 维生素B C. 维生素C D. 维生素D - 《联合国宪章》第51条规定的是什么权利? GSM8K(小学数学),8500 道小学数学应用题,测模型的多步推理能力。 典型题目: - 小明有 12 个苹果,给了小红 3 个,又买了 5 个,现在有几个? HumanEval(代码能力),164 道编程题,给函数签名和描述,让模型写出实现。 典型题目: - 写一个函数,判断一个字符串是否是回文 这些 benchmark 曾经很有用。 但现在的问题是:从GPT-4开始,顶级模型已经把 benchmark 全都刷穿了。 MMLU 上 GPT-4 能到 86%,GSM8K 上 o1 能到 97%,HumanEval 早就被各大模型接近满分。 一旦分数全部逼近天花板,benchmark 就失去了区分度,你无法用它区分哪个模型更聪明。 于是就有了 HLE(Humanity's Last Exam),号称"人类最后的考试"。 3000 道题,由全球顶尖学者提交,全是那种在互联网上直接搜不到答案的题。 几个真实例子: - 生物:蜂鸟的籽骨支撑几对肌腱?(只答数字) - 语言学:把一段罗马墓碑铭文翻译成帕尔米拉阿拉米语(结合图片) - 数学:证明对所有整数 n ≥ 5,n² < 2ⁿ - 量子物理:根据手绘量子电路图推导出对应的酉变换矩阵 - 历史:根据残缺的敦煌文书,推断某位唐代地方官员的行政管辖范围 这些题难在必须真正推理出来,而不能从训练数据里提取记忆。 各模型 HLE 得分: Grok 4 Heavy:44.4% Claude 4 opus:~24.9% GPT-4o:~10% o3:~18% 人类专家:~34% 是的,人类专家做这套题也只有三成的得分。
もっと見る