Charles在路上(@Charles77xixi):最近在研究Agent，顺带看了看 LLM 评测跑分的逻辑。通常基础跑分靠的是 Benchmark，顶级模型靠的是 HLE（Humanity's Last Exam）人类终极测试。 Benchmark本质就是一套标准化题库，给所有模型做同一套题，横向对比分数；而 HLE 是一个更高级的题库，里面所有的题目都无法在互联网上直接搜索出答案，必须经过推理。类似高考是衡量学生水平的应试标准，benchmark 是衡量 AI 能力的标准，给AI一个标准的、有明确答案的题库。几个比较经典的 benchmark： MMLU（大规模多任务语言理解），包含了 57 个学科的选择题，覆盖数学、历史、法律、医学…… 典型题目： - 以下哪种维生素缺乏会导致夜盲症？A. 维生素A B. 维生素B C. 维生素C D. 维生素D - 《联合国宪章》第51条规定的是什么权利？ GSM8K（小学数学），8500 道小学数学应用题，测模型的多步推理能力。典型题目： - 小明有 12 个苹果，给了小红 3 个，又买了 5 个，现在有几个？ HumanEval（代码能力），164 道编程题，给函数签名和描述，让模型写出实现。典型题目： - 写一个函数，判断一个字符串是否是回文这些 benchmark 曾经很有用。但现在的问题是：从GPT-4开始，顶级模型已经把 benchmark 全都刷穿了。 MMLU 上 GPT-4 能到 86%，GSM8K 上 o1 能到 97%，HumanEval 早就被各大模型接近满分。一旦分数全部逼近天花板，benchmark 就失去了区分度，你无法用它区分哪个模型更聪明。于是就有了 HLE（Humanity's Last Exam），号称"人类最后的考试"。 3000 道题，由全球顶尖学者提交，全是那种在互联网上直接搜不到答案的题。几个真实例子： - 生物：蜂鸟的籽骨支撑几对肌腱？（只答数字） - 语言学：把一段罗马墓碑铭文翻译成帕尔米拉阿拉米语（结合图片） - 数学：证明对所有整数 n ≥ 5，n² < 2ⁿ - 量子物理：根据手绘量子电路图推导出对应的酉变换矩阵 - 历史：根据残缺的敦煌文书，推断某位唐代地方官员的行政管辖范围这些题难在必须真正推理出来，而不能从训练数据里提取记忆。各模型 HLE 得分： Grok 4 Heavy：44.4% Claude 4 opus：~24.9% GPT-4o：~10% o3：~18% 人类专家：~34% 是的，人类专家做这套题也只有三成的得分。

2026.04.22 11:08

最近在研究Agent，顺带看了看 LLM 评测跑分的逻辑。通常基础跑分靠的是 Benchmark，顶级模型靠的是 HLE（Humanity's Last Exam）人类终极测试。 Benchmark本质就是一套标准化题库，给所有模型做同一套题，横向对比分数；而 HLE 是一个更高级的题库，里面所有的题目都无法在互联网上直接搜索出答案，必须经过推理。类似高考是衡量学生水平的应试标准，benchmark 是衡量 AI 能力的标准，给AI一个标准的、有明确答案的题库。几个比较经典的 benchmark： MMLU（大规模多任务语言理解），包含了 57 个学科的选择题，覆盖数学、历史、法律、医学…… 典型题目： - 以下哪种维生素缺乏会导致夜盲症？A. 维生素A B. 维生素B C. 维生素C D. 维生素D - 《联合国宪章》第51条规定的是什么权利？ GSM8K（小学数学），8500 道小学数学应用题，测模型的多步推理能力。典型题目： - 小明有 12 个苹果，给了小红 3 个，又买了 5 个，现在有几个？ HumanEval（代码能力），164 道编程题，给函数签名和描述，让模型写出实现。典型题目： - 写一个函数，判断一个字符串是否是回文这些 benchmark 曾经很有用。但现在的问题是：从GPT-4开始，顶级模型已经把 benchmark 全都刷穿了。 MMLU 上 GPT-4 能到 86%，GSM8K 上 o1 能到 97%，HumanEval 早就被各大模型接近满分。一旦分数全部逼近天花板，benchmark 就失去了区分度，你无法用它区分哪个模型更聪明。于是就有了 HLE（Humanity's Last Exam），号称"人类最后的考试"。 3000 道题，由全球顶尖学者提交，全是那种在互联网上直接搜不到答案的题。几个真实例子： - 生物：蜂鸟的籽骨支撑几对肌腱？（只答数字） - 语言学：把一段罗马墓碑铭文翻译成帕尔米拉阿拉米语（结合图片） - 数学：证明对所有整数 n ≥ 5，n² < 2ⁿ - 量子物理：根据手绘量子电路图推导出对应的酉变换矩阵 - 历史：根据残缺的敦煌文书，推断某位唐代地方官员的行政管辖范围这些题难在必须真正推理出来，而不能从训练数据里提取记忆。各模型 HLE 得分： Grok 4 Heavy：44.4% Claude 4 opus：~24.9% GPT-4o：~10% o3：~18% 人类专家：~34% 是的，人类专家做这套题也只有三成的得分。