注册并分享邀请链接,可获得视频播放与邀请奖励。

0xTodd ( thinking )
@0xTodd
热衷研究 | 在 @researchnothing 琢磨策略 | 在 @ebunker_eth 打包区块 | Long BTC, Love the World | NFA
加入 September 2016
3K 正在关注    71.6K 粉丝
谷歌最新发布的 Gemini 3.1 Pro 模型,最让我激动的还是它在这三个基准测试(Benchmark)的考试分数: ARC-AGI-2:推理智力 2.5倍提升 31%→77% ,这个考试没啥说的,目前最硬核的智商测试,纯靠逻辑,没法背题。 BrowseComp:深度搜索能力 1.5 倍提升 59%→86%,需要搜索的东西都在难以搜到的角落,不是简单 Google,同时考察搜不到之后自我纠正的能力。 APEX-Agents:长任务/职业任务 2 倍提升 18%→36%,主要考察长周期专业任务,尤其是职业任务,例如投行分析师、律师、咨询顾问,得会看报表、读文档。 我的哈基米越来越聪明了🥰。
显示更多
Gemini 3.1 Pro is here. We’ve significantly improved the model’s overall intelligence so it can solve tougher problems. 🧵