开源模型王座再次易主,依旧是国产模型!
不过之前霸榜的DeepSeek和Qwen来自杭州,现在变成上海的Minimax了。
在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得了开源模型第一,紧随Claude 4.5 Sonnet。

官方介绍,Minimax M2专为智能体和编程而生,编程能力和Agent表现出众。
而且经济高效,推理速度是Claude 3.5 Sonnet的两倍,API价格却只有8%。
Minimax表示,智能水平、速度和成本在过去被视为“不可能三角”,但随着M2的出世,这个三角被打破了。
目前,M2的完整模型权重已经开源,采用MIT协议,在线Agent平台和API也限时免费。

8%成本实现Claude级水平
Minmax M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅有10B。
网友表示10B的激活参数运行起来会非常快,如果配上Cerebras或者Groq这样的推理加速平台,有望跑到每秒上千Token。

另一个特色是采用了交错的思维格式,使得模型能够规划和验证跨多个对话的操作步骤,这对于Agent推理至关重要。
如开头介绍,Minimax官方将M2定义为一个专为智能体和编程而生的模型。
它专为端到端开发工作流程而构建,而且表现出对复杂、长链工具调用任务的出色规划和稳定执行能力,支持Shell、浏览器、Python代码解释器和各种MCP工具的调用。
在Agent最关键的三个能力——编程能力、工具使用能力和深度搜索能力上,M2在工具使用和深度搜索方面上都不逊于海外顶尖模型,编程能力也在国内名列前茅。

综合表现上,M2在Artificial Analysis的测试中,获得了总排名第五、开源第一的成绩。
该测试使用了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等。

而M2的定价是0.3美元/2.1人民币每百万输入Token,1.2美元/8.4人民币每百万输出Token,只要Claude 3.5 Sonnet的8%。
以Artificial Analysis的成绩为基准,Minimax绘制了一张图来比较各大模型性价比(横轴越向右成本越低)。

在线推理服务的速度则可达每秒100Token,Minimax也画了一张图体现以速度衡量的性价比。
