关闭广告

深夜突发!Claude Opus 4.1发布:智能体、代码、推理能力全面提升

学术头条2025-08-06 12:00:024926人阅读

Anthropic 突然发布了 Claude Opus 4.1,这是对 Claude Opus 4 在 agentic 任务、真实世界编程和推理能力上的全面升级,并称计划在未来几周内发布对模型的大幅改进。

据介绍,Claude Opus 4.1 将编码性能提升至 SWE-bench Verified 测试中的 74.5%,同时还提升了深度研究和数据分析能力,尤其在细节追踪和 agentic 搜索方面。

Anthropic 还提到了第三方合作伙伴对 Claude Opus 4.1 的真实感受。

[哇]GitHub 指出,与 Opus 4 相比,Claude Opus 4.1 在大多数能力上均有提升,其中多文件代码重构的性能提升尤为显著。
[让我看看]Rakuten Group 发现,Opus 4.1 在大型代码库中精准定位具体修正点时表现优异,不会进行不必要的调整或引入 bug,他们更倾向于在日常调试任务中使用这种精准度。
[强]Windsurf 报告称,Opus 4.1 在其初级开发者基准测试中较 Opus 4 提升了一个标准差,与从 Sonnet 3.7 到 Sonnet 4 的性能飞跃大致相当。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刘晓曙: 2024-2025年亚洲货币市场现状、特征及未来展望

首席经济学家论坛 浏览 2143 08-10

美客机降落时失控冲出着陆区 在减速路面上留下深深印痕

环球网资讯 浏览 379 09-27

福建舰入列在即 8万吨排水量成世界最大常规动力航母

极目新闻 浏览 340 10-18

香港爱马仕大秀,古天乐面相变了

杨仔述 浏览 386 09-20

闹翻!记者:巴萨取消与特狮的会面,拉波尔塔很愤怒&高层很失望

直播吧 浏览 9688 08-07

英伟达拟向OpenAI投资至多1000亿美元

界面新闻 浏览 396 09-23

雷军回应YU7首拆:欢迎同行和专家指点

盖世汽车 浏览 382 11-07

小红书押注兴趣社交:用户增速放缓,差异化能否成增长点

时代周报 浏览 1276 07-16

中美第4轮交锋 特朗普发长文破天荒承认"美国不行了"

博览历史 浏览 461 09-16

4月起 光伏产品出口退税归零 千亿产业 谁在窃喜?

中国能源网 浏览 272 01-11

美公布加沙和平计划 特朗普:若哈马斯拒绝将面临被摧毁

央视新闻客户端 浏览 418 10-01

高德重走商业化老路,腾讯、百度迎来反超机会?

蓝鲸新闻 浏览 377 09-29

微博回应约谈:以最高标准整改

北京日报客户端 浏览 437 09-21

泸州老窖:“1574”能否拯救“1573”?

阿尔法工场 浏览 348 09-09

早评:创业板指低开0.37% 中船系领涨

网易财经 浏览 529 08-19

牛弹琴:香港经历不眠之夜 对罕见火灾有两个"没想到"

北京日报客户端 浏览 388 11-27

兄弟俩花400万买到2套抵押房 开发商明知被抵押仍销售

潇湘晨报 浏览 547 08-19

61岁印度富婆被首富丈夫宠成少女 比女儿和儿媳都白嫩

照见古今 浏览 8785 08-08

俄军出动“榛树”导弹袭击乌克兰

上观新闻 浏览 44 05-25

上海男篮官方:戴昊租借加盟宁波男篮,租期2年

懂球帝 浏览 494 08-22

时代不同了,莲花怎么办?

HighendLife 浏览 384 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11