註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

Jiayuan (JY) Zhang
@jiayuan_jy
Building @MulticaAI. Ex-@devv_ai. Ex-@tiktok_us.
加入 June 2014
1.3K 正在關注    114.5K 粉絲
几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面,会出现考虑不是特别全的情况。 但是加另外一个 Agent 作为 gate 和 mentor(例如 Opus 4.7),可以获得一个非常好的结果,M3 写代码,Opus 4.7 做 code review 并给出具体的修改意见,可以做到一个很好的「效果 + token 使用」的平衡。 为了保证客观性,正在做一个更加量化的数据评测:用 Multica 这个项目中真实的 Issue 来做 benchmark。 整个流程均基于 Multica 的 Squads 功能,会同步加上其他主流 OSS 模型作为评测的对象。
顯示更多
0
12
61
8
轉發到社區