关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02364人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普拟任命副幕僚长米勒担任国安顾问

澎湃新闻 浏览 7335 05-06

袁悦苦战182分钟惨胜后遭调侃打球兼项马拉松,吴易昺疑似又伤了

网球之家 浏览 292 01-15

美国私人飞机坠毁机上6人全部遇难 15栋民宅连环烧

潇湘晨报 浏览 7466 05-24

专家:高市早苗收敛了一贯对华强硬的鹰派色彩

北京日报客户端 浏览 311 11-01

财政负担持续累积,“节油意识”难以培养,岛内担忧“冻油价”加剧能源困局

环球网资讯 浏览 198 03-17

冬天穿衣也可以很简单!这些造型赶紧照搬,舒适时髦两不误

静儿时尚达人 浏览 270 12-19

都体:尤文会以租借+买断的形式让道路去森林,48小时内搞定

懂球帝 浏览 4862 08-07

早日回归哈利伯顿IG转发赛场照:我想念篮球

直播吧 浏览 7873 08-07

半年巨亏22亿,某车企公告!

电动知家 浏览 1381 07-15

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 358 10-20

雷军回应YU7首拆:欢迎同行和专家指点

盖世汽车 浏览 403 11-07

德天空确认:药厂前锋博尼法斯租借米兰,2026年夏天可选择买断

直播吧 浏览 470 08-22

粉丝看谢霆锋演唱会热中暑,被120拉走,工作人员热到上吐下泻

扒虾侃娱 浏览 515 08-12

吉利持续加码亿咖通 智能化海外布局提速

网易汽车 浏览 283 01-14

五亿美元到手 巴铁迎"美国贵客"连同稀土一股脑给对方

博览历史 浏览 719 09-11

衣柜里要有一条蓝色系半身裙,不撞款的日常造型,轻松get

静儿时尚达人 浏览 73 05-27

AI闭环交易再引争议:OpenAI入股Thrive Holdings,或瞄准更多私募

华尔街见闻官方 浏览 277 12-02

男子8001元捡漏网拍劳力士后商家拒发货 起诉获赔7万

大风新闻 浏览 37451 09-19

股价跌超20%!东方甄选回应新东方CEO被立案调查:纯属谣言

红星资本局 浏览 492 08-20

文章近状曝光,亲切与路人合照,头发炸毛潦草

我爱八卦娱q 浏览 452 09-19

深圳00后600多万在港抄底买房 内地客十年砸下8000亿

南方都市报 浏览 353 11-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11