关闭广告

深夜突发!Claude Opus 4.1发布:智能体、代码、推理能力全面提升

学术头条2025-08-06 12:00:024946人阅读

Anthropic 突然发布了 Claude Opus 4.1,这是对 Claude Opus 4 在 agentic 任务、真实世界编程和推理能力上的全面升级,并称计划在未来几周内发布对模型的大幅改进。

据介绍,Claude Opus 4.1 将编码性能提升至 SWE-bench Verified 测试中的 74.5%,同时还提升了深度研究和数据分析能力,尤其在细节追踪和 agentic 搜索方面。

Anthropic 还提到了第三方合作伙伴对 Claude Opus 4.1 的真实感受。

[哇]GitHub 指出,与 Opus 4 相比,Claude Opus 4.1 在大多数能力上均有提升,其中多文件代码重构的性能提升尤为显著。
[让我看看]Rakuten Group 发现,Opus 4.1 在大型代码库中精准定位具体修正点时表现优异,不会进行不必要的调整或引入 bug,他们更倾向于在日常调试任务中使用这种精准度。
[强]Windsurf 报告称,Opus 4.1 在其初级开发者基准测试中较 Opus 4 提升了一个标准差,与从 Sonnet 3.7 到 Sonnet 4 的性能飞跃大致相当。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

73岁唐国强的晚年:儿子医疗费成痛苦负担

不八卦掌门人 浏览 526 09-01

沪指站上3800点 芯片股爆发 寒武纪涨停

网易财经 浏览 486 08-23

以政府证实:已批准占领加沙城计划

央视新闻客户端 浏览 5368 08-09

赞布罗塔:加图索能够为国家队重燃热情 如今的天才球员越来越少

直播吧 浏览 2133 08-07

迎接决赛,FIFA用无人机在曼哈顿上空投影了PSG队徽

懂球帝 浏览 8242 07-13

耗资1亿,陈佩斯新片预售仅108万,一代喜剧之王败走暑期档?

靠谱电影君 浏览 5301 07-10

大六座/超大前备箱 乐道L90将于7月上旬预售

网易汽车 浏览 1472 06-27

美被指允许恢复向中国商飞供喷气发动机

环球网资讯 浏览 10061 07-04

反内卷,光伏的拐点近了

虎嗅APP 浏览 8063 07-29

美国“恢复核试验表态”背后有何考量

环球网资讯 浏览 309 11-03

算法工程师想在女友面前秀技术“养龙虾”,结果文件夹被全删 周鸿祎称“龙虾”更像个实习生

红星新闻 浏览 211 03-11

夏天穿衣其实很简单,上衣越短裙子越长、多穿T恤,舒适日常

静儿时尚达人 浏览 923 07-02

杨丞琳庆祝结婚6周年,与李荣浩手牵手撒糖,纪念仪式简单浪漫

扒虾侃娱 浏览 414 09-18

新一代装甲装备100坦克、100支援战车亮相

新华网 浏览 375 09-04

今年秋冬最时髦的穿法:外套+连帽卫衣,减龄又松弛!

LinkFashion 浏览 230 11-03

七任男友闹不停的张雨绮 这一次新恋情惹争议 !

成成鉴话 浏览 1921 08-13

微软 Copilot 测试“智能”模式,基于任务动态调整 AI 思考时间

IT之家 浏览 1505 07-31

美国4月服务业PMI不及预期,叠加价格压力高企,加剧滞胀担忧

华尔街见闻官方 浏览 116 05-06

基恩和卡拉格赞利物浦:状态不佳时仍能取胜,这就是冠军表现

懂球帝 浏览 494 09-01

S妈不忍了!公开大量大S与孩子罕见合照

一盅情怀 浏览 480 08-22

【进博时刻】每天训它几百遍,这份枯燥的工作并非冷冰冰

上观新闻 浏览 233 11-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11