关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2026-02-04 00:00:01157人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米准车主遇30天尾款"通牒":不支付2万元定金不退

红星资本局 浏览 492 08-22

"715万建牛郎织女雕塑"调查2年无结论 河南平顶山回应

AHTV第一时间 浏览 6729 07-13

800名核心员工谁先富?千亿联影医疗5大股权激励平台同步减持!

野马财经 浏览 10080 08-10

22省份公布2025养老金调整方案,养老金2500元,谁涨得多?

数字财经智库 浏览 1693 07-27

上海一博物馆循环播放"熊孩子"损坏展品视频 馆方回应

上游新闻 浏览 2112 07-25

49岁李湘最新露面过胖!走路肉都在颤,热爱吃甜食网友担心三高

萌神木木 浏览 10053 07-23

拼多多新质供给一周年:新质商品SKU数增长超五成,产业加速新质转型

财闻 浏览 309 09-29

俄外长称俄正与北约和欧洲处于“真正的战争”之中

澎湃新闻 浏览 313 09-27

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 192 11-25

媒体:爱泼斯坦案2000段视频公布 震碎三观突破下限

北京日报客户端 浏览 164 02-02

外媒:美企绕过中方禁令 偷偷拿到中国关键矿物

澎湃新闻 浏览 1136 07-11

八年累计交车不足30辆,贾跃亭还在为梦想“续命”

澎湃新闻 浏览 6983 07-21

第123期:48.65

炒基蛋 浏览 370 08-12

墙倒众人推,吴京风波扯上多位明星?

陈意小可爱 浏览 387 09-01

基因编辑细胞在糖尿病患者体内存活并产胰岛素

网易科技报道 浏览 2940 08-06

李小冉回复孙艺洲《心愿便利贴》:好皮的孩子

韩小娱 浏览 34 04-22

伊东纯也:没组织好防守让球队陷入困难,若进球可能改变比赛走向

直播吧 浏览 351 09-10

美前驻华大使不装了:凭啥和中国组G2划"势力范围"

观察者网 浏览 270 10-11

李嘉欣黎姿携老公聚餐,两大豪门夫妻甘愿镶边

不八卦会死星人 浏览 308 09-06

90%靠进口?谁在“收割”中国粮

正和岛 浏览 5164 07-16

拿地即亮相!首钢·璟瑞长安择址长安街,解锁京西人居新篇

365财经plus 浏览 158 02-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11