关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02297人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

眼看选情不利,特朗普“喊话”中国,另有算盘

浏览 3459 07-14

春树导演制片人回应争议,否认靠卖惨打动白百何,短信内容曝光

扒虾侃娱 浏览 229 11-09

小波特:纽约是我最不喜欢的城市 但它会成为我梦寐以求的地方

直播吧 浏览 7516 07-14

杀害16岁女友 张艺洋成娱乐圈首个被执死刑的艺人

贵州小娟 浏览 3351 07-24

全系标配800V/续航700km 智己LS7焕新版售32.99万

网易汽车 浏览 489 06-17

比亚迪海洋推“一口价”,这是为销量拼了?

汽车公社 浏览 410 05-27

以色列又对加沙开火 内塔尼亚胡被指曾想请示特朗普

澎湃新闻 浏览 193 11-01

今年秋天最流行的4组搭配,谁穿谁好看!

LinkFashion 浏览 319 08-31

38岁宝妈时隔20年再次高考:曾学新闻 想转型当中医

上游新闻 浏览 3538 06-12

业绩预增+二次上市,澜起科技还有啥烦恼?

铑财 浏览 8630 07-30

《逍遥》大结局:纪严下线订单终于到达,最终还是领导了结了他!

肆季娱乐 浏览 176 01-05

新一代中国操作系统银河麒麟V11正式发布

财联社 浏览 40315 08-27

汤唯,早就戳穿了雷佳音被“排挤”的真相

素衣读史 浏览 6648 07-10

可能被“没收”一半股权,谷歌创始人逃离硅谷

字母榜 浏览 192 01-11

媒体:高市当选新首相 极端保守立场或激化与中国矛盾

环球网资讯 浏览 277 10-22

成都蓉城祝福旧将胡靖:作为曾经并肩作战的伙伴,愿你早日康复

直播吧 浏览 429 08-11

《年少有为》追剧团 41岁叶祖新和31岁彭昱畅同框

往史过眼云烟 浏览 161 02-03

拼多多“千亿扶持”落地半年,“包邮区”持续扩大,更多地区享受便利网购服务

雷峰网 浏览 217 11-17

张纪中杜星霖被指偏心!亲儿子公然殴打混血继子,全程冷漠无视

萌神木木 浏览 436 08-16

预售35万起 小鹏X9增程版终结MPV续航焦虑

网易汽车 浏览 211 11-08

刷完热搜,轮到打工人来说两句了

时尚COSMO 浏览 1320 06-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11