关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02349人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《飞驰人生3》,那个装逼对抗资本的少年,终成背后的资本

诗与星空 浏览 216 02-24

2025自主四强全年销量成绩单出炉

大象新闻 浏览 255 01-06

21点中国U17女足战南美黑马!打平即世界杯出线 16强赛遇3大强队

我爱英超 浏览 310 10-24

塔吉克斯坦媒体:北京直飞杜尚别首条航线开通

参考消息 浏览 8246 06-18

重庆通报"游客吃烧烤3人花780元":商家有修改结算单

新民晚报 浏览 2829 06-09

美媒:特朗普就俄乌谈判表态 立场出现重大转变

参考消息 浏览 2396 08-24

美以联合袭击伊朗是否提前通报中方 外交部:没有

澎湃新闻 浏览 194 03-03

弃理从文,他走出不同寻常的电影路

幕味儿 浏览 302 10-28

上海一小区骑手送餐保安全程陪同 骑手:以后再不来了

极目新闻 浏览 10332 08-07

PEEK材料概念大涨,中欣氟材收获5天4板

览富财经网 浏览 10313 08-12

冯绍峰新恋情曝光?深夜与29岁网红亲密同居

橙星文娱 浏览 6242 08-05

切尔西首发:若昂·佩德罗出战

体坛周报 浏览 249 09-29

推广中奖名单-更新至2025年7月11日推广

黎贝卡的异想世界 浏览 6279 07-26

张予曦初中拒表白后竟遭男生霸凌?

新金牌娱乐观察家 浏览 5631 07-30

泽连斯基:美提议举行美俄乌国家安全顾问级别会议

国际在线 浏览 273 12-22

杨幂说与欧豪合作是封神之战,巧妙串联缘分

韩小娱 浏览 492 08-16

乌克兰决定与尼加拉瓜断交

参考消息 浏览 236 10-04

记者:马竞与尤文谈妥先租后买签冈萨雷斯,交易只差西甲批准

懂球帝 浏览 480 09-01

关窗前的期待?李-夏普:曼联签门将是当务之急,其次是中场

懂球帝 浏览 455 09-01

名宿:拉门斯需要展现出勇气,做禁区的主人,他们的领地不容侵犯

直播吧 浏览 418 09-11

图片报:拜仁在关窗前差点签下斯特林但球员不想来,最终签杰克逊

直播吧 浏览 401 09-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11