0xTodd ( thinking )(@0xTodd ):谷歌最新发布的 Gemini 3.1 Pro 模型，最让我激动的还是它在这三个基准测试（Benchmark）的考试分数： ARC-AGI-2：推理智力 2.5倍提升 31%→77% ，这个考试没啥说的，目前最硬核的智商测试，纯靠逻辑，没法背题。 BrowseComp：深度搜索能力 1.5 倍提升 59%→86%，需要搜索的东西都在难以搜到的角落，不是简单 Google，同时考察搜不到之后自我纠正的能力。 APEX-Agents：长任务/职业任务 2 倍提升 18%→36%，主要考察长周期专业任务，尤其是职业任务，例如投行分析师、律师、咨询顾问，得会看报表、读文档。我的哈基米越来越聪明了🥰。

2026.02.20 01:52

谷歌最新发布的 Gemini 3.1 Pro 模型，最让我激动的还是它在这三个基准测试（Benchmark）的考试分数： ARC-AGI-2：推理智力 2.5倍提升 31%→77% ，这个考试没啥说的，目前最硬核的智商测试，纯靠逻辑，没法背题。 BrowseComp：深度搜索能力 1.5 倍提升 59%→86%，需要搜索的东西都在难以搜到的角落，不是简单 Google，同时考察搜不到之后自我纠正的能力。 APEX-Agents：长任务/职业任务 2 倍提升 18%→36%，主要考察长周期专业任务，尤其是职业任务，例如投行分析师、律师、咨询顾问，得会看报表、读文档。我的哈基米越来越聪明了🥰。

显示更多