美东时间5月22日周四,Anthropic在公司首届"Code with Claude"开发者大会上推出了 Claude 4 系列的两款全新模型:Claude Opus 4 和 Claude Sonnet 4。
据了解,Claude Opus 4 和 Sonnet 4 都是混合推理模型,同时支持 Extended thinking(扩展推理)、工件调用、文件读取、并行任务等核心功能。
根据Anthropic官方重点信息提炼:
Opus 4 是全球顶级编程模型,非常擅长处理复杂且超长时间的推理任务,尤其是 Agent 领域非常出色。根据 Rakuten 测试数据显示,通过 Opus 4 打造的编程智能体可以独立稳定连续工作 7 小时,超过了之前 OpenAI 创造的记录。
Sonnet 4 则是 Sonnet 3.7 的迭代版本,同样在编程领域非常出色,在 SWE-bench 上达到了 72.7%,超过了 OpenAI 最新发布的 Codex-1、o3 等前沿模型。
Claude Opus 4 和 Claude Sonnet 4 在基准测试中,编码、推理等能力有了大幅提升。

图片来源:Anthropic 官方
今天,302.AI 团队会对五个模型进行对比实测,分别是 Claude 4 系列的claude-opus-4-20250514、claude-sonnet-4-20250514 以及 claude-3-7-sonnet、 o3 、gemini-2.5-pro-preview-05-06。
I. claude 系列 vs. o3 vs. gemini-2.5-pro 实测
按照惯例,先展示测评模型在 302.AI 的价格:
输入 |
输出 |
|
o3 |
10 美金/1M |
40 美金/1M |
claude-3-7-sonnet-20250219 |
3.3 美金/1M |
16.5 美金/1M |
claude-sonnet-4-20250514 |
3.3 美金/1M |
16.5 美金/1M |
claude-opus-4-20250514 |
16.5 美金/1M |
82.5 美金/1M |
gemini-2.5-pro-preview-05-06 |
1.3 美金/1M |
10 美金/1M |
价格最高为:claude-opus-4-20250514
价格最低为:gemini-2.5-pro-preview-05-06
1、推理
提示词:已知对前天来说的下周三是对后天来说的本周三,则今天距离对今天来说的下周三有可能有几天?(计算距离今天的天数时不包括今天。以周一为每周的第一天)
(答案是3,4,8,9)
o3:回答正确。

claude-3-7-sonnet:回答正确。

claude-sonnet-4:答案不完整,分析过程中存在错误。

claude-opus-4:同样答案不完整,分析过程中存在错误。

gemini-2.5-pro:回答正确。

2、数学计算
提示词:请用 1、1、6、7、10 计算出结果为81,只能使用加减乘除,且每个数字只能使用一次。
(正确答案:6 * [ 10 + 7 / ( 1 + 1 ) ])
o3:回答正确。

claude-3-7-sonnet:等式并不成立,回答错误。

claude-sonnet-4:使用了三个“1”,回答错误。

claude-opus-4:没有使用数字“6”,回答错误。

gemini-2.5-pro:回答正确。

3、可视化网页
提示词:
你是一名专业的网页设计师和前端开发专家,对现代 Web 设计趋势和最佳实践有深入理解,尤其擅长创造具有极高审美价值的用户界面。你的设计作品不仅功能完备,而且在视觉上令人惊叹,能够给用户带来强烈的"Aha-moment"体验。
请根据最后提供的内容,设计一个美观、现代、易读的"中文"可视化网页。请充分发挥你的专业判断,选择最能体现内容精髓的设计风格、配色方案、排版和布局。待处理内容:
https://www.anthropic.com/news/claude-4
(提示词参考:歸藏)
o3:效果较一般,整体页面像是文字堆积,排版效果也较为普通。

claude-3-7-sonnet:效果尚可,对比 o3 略胜一筹,文字排版还不错。

claude-sonnet-4:配色可优化,部分选择会有阴影变化,整体比 claude-3-7-sonnet 更优。

claude-opus-4:无论是配色、排版、内容上,生成的效果是本次测评模型中最佳的。

gemini-2.5-pro:从内容来看,gemini 的完整度最高的,但整体效果不如 opus-4 。

II. 实测总结
1、实测结果整理:
价格(从低到高) |
推理测试 |
数学测试 |
可视化页面 |
|
o3 |
4 |
?? |
?? |
一般,较为普通 |
claude-3-7-sonnet |
2 |
?? |
? |
效果尚可 |
claude-sonnet-4 |
2 |
? |
? |
较好,但配色可优化 |
claude-opus-4 |
5 |
? |
? |
效果最佳 |
gemini-2.5-pro-preview |
1 |
?? |
?? |
较好,内容完整度最高 |
2、实测结论:
基于以上实测结果,可初步得出以下结论:
(1)根据实测1中的推理测试结果,Claude 4 系列的新模型的表现不及前一代模型 claude-3-7-sonnet,这是否表明新版本模型的推理能力有所减退?
(2)通过实测2中的数学测试结果,明显可以看出 o3 和 gemini-2.5-pro 表现优异,而 Claude 系列模型的表现则较为一般。
(3)在可视化网页设计的测试中,claude-opus-4 的表现明显优于其他模型,claude-sonnet-4 对于前一版本 claude-3-7-sonnet 也有进步。
综合本次实测结果,可以得出性价比最高的模型为 gemini-2.5-pro-preview。claude-opus-4 在本次对比模型中价格最高,但其表现未能达到预期的水平。
我们将继续关注后续动态,并为大家提供更多实测报告。
III. 如何在302.AI上使用:
302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
1、聊天机器人中使用
步骤指引 :在线使用→应用超市→机器人→聊天机器人;

点击选择模型 claude-sonnet-4-20250514/claude-opus-4-20250514 →确定→创建;

2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:API→API超市→语言大模型→Anthropic→查看文档;
API名称:claude-sonnet-4-20250514/claude-opus-4-20250514

想体验Claude 4 系列模型?
??立即注册免费试用302.AI,开启你的AI之旅!??
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

扫下方二维码加入AI技术群,获得更多技术资讯!
