关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02363人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米汽车详解YU7“小爱同学”:支持免唤醒,车外有四组麦克风

IT之家 浏览 3686 07-18

山西80亩林地征地补偿价次次作假 "受指示"估价1348万

大风新闻 浏览 3626 07-16

关于广东AI与机器人产业,这场高规格会议释放了哪些信号?

南方都市报 浏览 1412 07-12

警惕手脚麻木背后的健康隐患

浏览 6746 07-14

超级跑车计划或延期 宝马最新消息曝光

乐选爱车 浏览 511 06-06

乌克兰称不需要中国提供安全保障 中方回应

澎湃新闻 浏览 505 08-23

“房东税”要来了?专家解读

网易财经 浏览 529 08-20

理想汽车启动门店合伙人计划:曝一线门店将参与分红

汽车服务世界 浏览 232 03-02

纯电小车五菱缤果 S 预售 6.88 万元起,最高续航 430 公里

IT之家 浏览 499 08-25

苏超第10轮观众人数:盐城主场34383人居首,场均30163人

直播吧 浏览 377 09-01

不只是换块牌子 奕派科技的“底气”从何而来?

网易汽车 浏览 7962 08-06

工信部征求车门把手国标意见 隐藏式设计被明确禁止

太平洋汽车 浏览 378 09-25

美国重要盟友宣布承认巴勒斯坦国 美国务院回应

环球网资讯 浏览 461 09-23

南向资金今日净买入17.44亿港元,美团-W净买入7.15亿港元

证券时报 浏览 5019 07-12

“亚洲巴菲特”,大手笔押注黄金

财通社 浏览 271 01-20

多纳鲁马:曼奇尼和巴洛特利都推荐我来,他们让我更坚定选择

懂球帝 浏览 321 11-04

狼队官方:热身赛对阵塞尔塔、英超揭幕战对阵曼城将缅怀若塔

懂球帝 浏览 1747 07-15

弄堂大舞台,有梦你就来,机器人也会梦到“烟火气”吗?

文汇报 浏览 4982 07-26

号称可以生成录音室级别音频,Eleven Music AI 模型问世

IT之家 浏览 6125 08-07

柬泰两国士兵在边境发生冲突 致柬方一士兵死亡

红星新闻 浏览 7443 05-29

2025年双11来了!京东提前至10月9日开启:满300元减50元 活动玩法出炉

快科技 浏览 340 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11