最近在研究Agent,顺带看了看 LLM 评测跑分的逻辑。
通常基础跑分靠的是 Benchmark,顶级模型靠的是 HLE(Humanity's Last Exam) 人类终极测试。
Benchmark本质就是一套标准化题库,给所有模型做同一套题,横向对比分数;而 HLE 是一个更高级的题库,里面所有的题目都无法在互联网上直接搜索出答案,必须经过推理。
类似高考是衡量学生水平的应试标准,benchmark 是衡量 AI 能力的标准,给AI一个标准的、有明确答案的题库。
几个比较经典的 benchmark:
MMLU(大规模多任务语言理解),包含了 57 个学科的选择题,覆盖数学、历史、法律、医学……
典型题目:
- 以下哪种维生素缺乏会导致夜盲症?A. 维生素A B. 维生素B C. 维生素C D. 维生素D
- 《联合国宪章》第51条规定的是什么权利?
GSM8K(小学数学),8500 道小学数学应用题,测模型的多步推理能力。
典型题目:
- 小明有 12 个苹果,给了小红 3 个,又买了 5 个,现在有几个?
HumanEval(代码能力),164 道编程题,给函数签名和描述,让模型写出实现。
典型题目:
- 写一个函数,判断一个字符串是否是回文
这些 benchmark 曾经很有用。
但现在的问题是:从GPT-4开始,顶级模型已经把 benchmark 全都刷穿了。
MMLU 上 GPT-4 能到 86%,GSM8K 上 o1 能到 97%,HumanEval 早就被各大模型接近满分。
一旦分数全部逼近天花板,benchmark 就失去了区分度,你无法用它区分哪个模型更聪明。
于是就有了 HLE(Humanity's Last Exam),号称"人类最后的考试"。
3000 道题,由全球顶尖学者提交,全是那种在互联网上直接搜不到答案的题。
几个真实例子:
- 生物:蜂鸟的籽骨支撑几对肌腱?(只答数字)
- 语言学:把一段罗马墓碑铭文翻译成帕尔米拉阿拉米语(结合图片)
- 数学:证明对所有整数 n ≥ 5,n² < 2ⁿ
- 量子物理:根据手绘量子电路图推导出对应的酉变换矩阵
- 历史:根据残缺的敦煌文书,推断某位唐代地方官员的行政管辖范围
这些题难在必须真正推理出来,而不能从训练数据里提取记忆。
各模型 HLE 得分:
Grok 4 Heavy:44.4%
Claude 4 opus:~24.9%
GPT-4o:~10%
o3:~18%
人类专家:~34%
是的,人类专家做这套题也只有三成的得分。
显示更多