302.AI 基准实验室丨Claude 4 系列最新对比测评，推理退步前端编程增强？

在微信中打开



302.AI 基准实验室丨Claude 4 系列最新对比测评，推理退步前端编程增强？

302.AI

2025-05-23

导读：Anthropic推出了?Claude 4 系列的两款全新模型：Claude Opus 4 和 Claude Sonnet 4。实力如何？

美东时间5月22日周四，Anthropic在公司首届"Code with Claude"开发者大会上推出了 Claude 4 系列的两款全新模型：Claude Opus 4 和 Claude Sonnet 4。

据了解，Claude Opus 4 和 Sonnet 4 都是混合推理模型，同时支持 Extended thinking（扩展推理）、工件调用、文件读取、并行任务等核心功能。

根据Anthropic官方重点信息提炼：

Opus 4 是全球顶级编程模型，非常擅长处理复杂且超长时间的推理任务，尤其是 Agent 领域非常出色。根据 Rakuten 测试数据显示，通过 Opus 4 打造的编程智能体可以独立稳定连续工作 7 小时，超过了之前 OpenAI 创造的记录。

Sonnet 4 则是 Sonnet 3.7 的迭代版本，同样在编程领域非常出色，在 SWE-bench 上达到了 72.7%，超过了 OpenAI 最新发布的 Codex-1、o3 等前沿模型。

Claude Opus 4 和 Claude Sonnet 4 在基准测试中，编码、推理等能力有了大幅提升。

图片来源：Anthropic 官方

今天，302.AI 团队会对五个模型进行对比实测，分别是 Claude 4 系列的claude-opus-4-20250514、claude-sonnet-4-20250514 以及 claude-3-7-sonnet、 o3 、gemini-2.5-pro-preview-05-06。

I. claude 系列 vs. o3 vs. gemini-2.5-pro 实测

按照惯例，先展示测评模型在 302.AI 的价格：

	输入	输出
o3	10 美金/1M	40 美金/1M
claude-3-7-sonnet-20250219	3.3 美金/1M	16.5 美金/1M
claude-sonnet-4-20250514	3.3 美金/1M	16.5 美金/1M
claude-opus-4-20250514	16.5 美金/1M	82.5 美金/1M
gemini-2.5-pro-preview-05-06	1.3 美金/1M	10 美金/1M

价格最高为：claude-opus-4-20250514

价格最低为：gemini-2.5-pro-preview-05-06

1、推理

提示词：已知对前天来说的下周三是对后天来说的本周三，则今天距离对今天来说的下周三有可能有几天？（计算距离今天的天数时不包括今天。以周一为每周的第一天）

（答案是3，4，8，9）

o3：回答正确。

claude-3-7-sonnet：回答正确。

claude-sonnet-4：答案不完整，分析过程中存在错误。

claude-opus-4：同样答案不完整，分析过程中存在错误。

gemini-2.5-pro：回答正确。

2、数学计算

提示词：请用 1、1、6、7、10 计算出结果为81，只能使用加减乘除，且每个数字只能使用一次。

（正确答案：6 * [ 10 + 7 / ( 1 + 1 ) ]）

o3：回答正确。

claude-3-7-sonnet：等式并不成立，回答错误。

claude-sonnet-4：使用了三个“1”，回答错误。

claude-opus-4：没有使用数字“6”，回答错误。

gemini-2.5-pro：回答正确。

3、可视化网页

提示词：

你是一名专业的网页设计师和前端开发专家，对现代 Web 设计趋势和最佳实践有深入理解，尤其擅长创造具有极高审美价值的用户界面。你的设计作品不仅功能完备，而且在视觉上令人惊叹，能够给用户带来强烈的"Aha-moment"体验。

请根据最后提供的内容，设计一个美观、现代、易读的"中文"可视化网页。请充分发挥你的专业判断，选择最能体现内容精髓的设计风格、配色方案、排版和布局。待处理内容:

https://www.anthropic.com/news/claude-4

(提示词参考：歸藏)

o3：效果较一般，整体页面像是文字堆积，排版效果也较为普通。

claude-3-7-sonnet：效果尚可，对比 o3 略胜一筹，文字排版还不错。

claude-sonnet-4：配色可优化，部分选择会有阴影变化，整体比 claude-3-7-sonnet 更优。

claude-opus-4：无论是配色、排版、内容上，生成的效果是本次测评模型中最佳的。

gemini-2.5-pro：从内容来看，gemini 的完整度最高的，但整体效果不如 opus-4 。

II. 实测总结

1、实测结果整理：

	价格（从低到高）	推理测试	数学测试	可视化页面
o3	4	??	??	一般，较为普通
claude-3-7-sonnet	2	??	?	效果尚可
claude-sonnet-4	2	?	?	较好，但配色可优化
claude-opus-4	5	?	?	效果最佳
gemini-2.5-pro-preview	1	??	??	较好，内容完整度最高