【今日參與:西藏抗暴 67 週年大遊行】
1959 年的 3 月 10 日,是圖伯特人民為了守護家園而起身反抗的轉捩點。今日受台灣政治大學李酉潭教授 的熱忱邀請,身在台灣的我來到捷運忠孝復興站 2 號出口的 SOGO 廣場,與許多關心人權的朋友一同參與這場意義非凡的抗暴 67 週年集會。
今年的行動特別聚焦於兩大核心訴求:
1守護轉世自主:堅信達賴喇嘛的轉世決定權,唯有尊者本人及其指定的機構方能決定,任何政治勢力皆無權干預宗教神聖性。
2反對跨國鎮壓:嚴正譴責中共對藏人、維吾爾人、蒙古人、香港人乃至台灣公民社會的跨境鎮壓,威權的長臂不應伸向追求自由的靈魂。
站在台北街頭,我們深知自由並非理所當然。今天不只是為了圖伯特(西藏)發聲,更是為了守護民主防線而站出來。
顯示更多
最近在研究Agent,顺带看了看 LLM 评测跑分的逻辑。
通常基础跑分靠的是 Benchmark,顶级模型靠的是 HLE(Humanity's Last Exam) 人类终极测试。
Benchmark本质就是一套标准化题库,给所有模型做同一套题,横向对比分数;而 HLE 是一个更高级的题库,里面所有的题目都无法在互联网上直接搜索出答案,必须经过推理。
类似高考是衡量学生水平的应试标准,benchmark 是衡量 AI 能力的标准,给AI一个标准的、有明确答案的题库。
几个比较经典的 benchmark:
MMLU(大规模多任务语言理解),包含了 57 个学科的选择题,覆盖数学、历史、法律、医学……
典型题目:
- 以下哪种维生素缺乏会导致夜盲症?A. 维生素A B. 维生素B C. 维生素C D. 维生素D
- 《联合国宪章》第51条规定的是什么权利?
GSM8K(小学数学),8500 道小学数学应用题,测模型的多步推理能力。
典型题目:
- 小明有 12 个苹果,给了小红 3 个,又买了 5 个,现在有几个?
HumanEval(代码能力),164 道编程题,给函数签名和描述,让模型写出实现。
典型题目:
- 写一个函数,判断一个字符串是否是回文
这些 benchmark 曾经很有用。
但现在的问题是:从GPT-4开始,顶级模型已经把 benchmark 全都刷穿了。
MMLU 上 GPT-4 能到 86%,GSM8K 上 o1 能到 97%,HumanEval 早就被各大模型接近满分。
一旦分数全部逼近天花板,benchmark 就失去了区分度,你无法用它区分哪个模型更聪明。
于是就有了 HLE(Humanity's Last Exam),号称"人类最后的考试"。
3000 道题,由全球顶尖学者提交,全是那种在互联网上直接搜不到答案的题。
几个真实例子:
- 生物:蜂鸟的籽骨支撑几对肌腱?(只答数字)
- 语言学:把一段罗马墓碑铭文翻译成帕尔米拉阿拉米语(结合图片)
- 数学:证明对所有整数 n ≥ 5,n² < 2ⁿ
- 量子物理:根据手绘量子电路图推导出对应的酉变换矩阵
- 历史:根据残缺的敦煌文书,推断某位唐代地方官员的行政管辖范围
这些题难在必须真正推理出来,而不能从训练数据里提取记忆。
各模型 HLE 得分:
Grok 4 Heavy:44.4%
Claude 4 opus:~24.9%
GPT-4o:~10%
o3:~18%
人类专家:~34%
是的,人类专家做这套题也只有三成的得分。
顯示更多
來到可俯瞰台北市的旅遊景點「貓空」的台灣料理用餐🍽️
2004年6月,因參與六四事件而被中共判處「顛覆國家政權罪」的山東青島市民燕鵬先生(左一)勇敢地從金門游泳到岸,成功逃離中國。目前他已是中華民國公民,並成為一名牧師。
2024年6月9日上午,為了「投奔自由」駕船到台灣的中共海軍艦艇的前艇長的阮芳勇先生(左三)。
2025年10月10日,中共國家安全部正式將臺灣統派自媒體網紅及王氏研創藝術有限公司的負責人王苡儒(右三)先生列入「臺獨水軍」名單,並對其懸賞50萬元人民幣,發布了“終身追責”的通緝令。
台灣獨家傳媒智庫執行長 ,國立臺灣大學國家發展研究所法學博士曾建元教授(右二)。
台灣著名的政治學學者,現任國立政治大學國家發展研究所的李酉潭教授(右一)
顯示更多