QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language

  • Qingsong Zou, Jingyu Xiao, Qing Li*, Zhi Yan, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li and Yong Jiang, QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language. Accepted by ACL 2025.
  • ACL 25 Findings

QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language

Abstract

最近大型语言模型(LLMs)在自然语言处理领域展现出了显著的潜力。不幸的是,LLMs面临着严重的安全和伦理风险。尽管开发了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的越狱攻击绕过这些防御的可能性。在本文中,我们提出了QueryAttack,这是一个新颖的框架,用于检验安全对齐的泛化能力。通过将LLMs视为知识数据库,我们将自然语言中的恶意查询翻译成结构化的非自然查询语言,以绕过LLMs的安全对齐机制。我们在主流LLMs上进行了广泛的实验,结果表明,QueryAttack不仅能够实现高攻击成功率(ASRs),还能突破各种防御方法。此外,我们针对QueryAttack定制了一种防御方法,可以在GPT4-1106上将ASR降低多达64%。我们的代码可在https://github.com/horizonsinzqs/QueryAttack 获取。
警告:本文包含不安全的模型响应。

1 Introduction

像 OpenAI 的 GPT 系列(OpenAI,2024a)和 Meta 的 Llama 系列(Touvron 等人,2023a)这样的大型语言模型(LLMs)在各个领域都展现出了卓越的生成潜力(Xiao 等人,2024;Boiko 等人,2023;He 等人,2024;Gao 等人,2024a)。然而,用于训练 LLMs 的海量数据包含大量信息,使它们能够学习到明显违反道德和伦理标准的未经筛选的知识(Li 等人,2023;Jiang 等人,2024;Yuan 等人,2024;Bai 等人,2024)。因此,服务提供商的一项关键责任是防止这些模型向潜在的对手提供有害信息。

为了使 LLMs 的回答与人类伦理和偏好保持一致,在 LLMs 的训练过程中采用了多种技术来规范它们对人类查询的输出。例如,提出了监督微调(Wei 等人,2022;Ouyang 等人,2022)、从人类反馈中进行强化学习(Sun 等人,2023;Mehrabi 等人,2024)、红队测试(Bai 等人,2022a)以及宪法人工智能(Bai 等人,2022b)等方法来增强 LLMs 的安全性。不幸的是,这些方法的一个重大限制是它们依赖于对齐阶段的恶意自然语言样本来训练模型识别恶意查询,并确保生成安全的输出。这种依赖为对手留下了使用非自然语言输入开发越狱方法的空间。

具体来说,CipherChat(Yuan 等人,2024)使用诸如凯撒密码之类的加密方法将有害查询翻译成加密文本。ArtPrompt(Jiang 等人,2024)用 ASCII 风格编码替换敏感术语。(Deng 等人,2024)将敏感内容转换成低资源语言。这些方法的本质在于诱导模型生成加密输出,然后将其解密为自然语言格式的有害文本。然而,它们通常要求模型具备加密知识才能理解提示,或者对模型生成加密内容的能力要求较高。因此,它们的攻击效果有限。为了说明这一点,我们设计了一个简单而清晰的实验来测试一些主流的大型语言模型是否能够有效地理解和生成加密文本,如附录 A 所示。结果表明,一些模型可能无法同时实现这两个目标,导致越狱失败。因此,开发一种有效且高效的越狱攻击方法仍然是一个关键挑战。

我们观察到,这些越狱攻击的本质在于定义一种定制的加密方法,然后使用该方法加密的语言与目标 LLMs 交互,从而绕过它们的防御机制。受先前工作的启发,我们发现 LLMs 的防御机制对结构化的非自然查询语言并不敏感。例如,将目标 LLM 视为知识数据库时,使用结构化查询语言(SQL)请求恶意知识(如图 1 所示),目标 LLM 不仅很好地识别了请求的意图,而且没有触发防御机制。相反,目标 LLM 正常地对整个提示以自然语言做出回应。

从这个新的角度来看,我们提出了一个名为 QueryAttack 的攻击,它首先使用结构化的非自然查询语言来越狱 LLMs。具体来说,我们将 QueryAttack 分解为三个主要组成部分:
1)从原始自然语言查询中提取三个关键组件:请求的内容、内容的修饰符以及内容所属的高级类别(可以找到内容的潜在来源)。
2)将查询组件填充到预定义的查询模板(例如 SQL 模板)中,生成结构化的非自然查询。
3)应用上下文学习,以帮助目标 LLM 理解模板的自然语义,并使用结构化的非自然查询提示目标 LLM。

这三个步骤定义了一个查询任务,类似于使用 SQL 从数据库中查询数据。此过程引入的额外成本仅限于将恶意查询翻译成指定格式,可以根据自然语言的任何查询轻松适应。鉴于编程语言广泛出现在 LLMs 的训练数据中,这些模型表现出对编程语言的出色语义理解能力(OpenAI,2023,2024a;Anthropic,2023;Touvron 等人,2023a),我们自然地采用编程语法来构建查询模板。我们在 AdvBench(Zou 等人,2023b)上测试了 QueryAttack,涵盖了知名开源和闭源 LLMs。实验结果表明,QueryAttack 有效地绕过了它们的安全防御,实现了最先进的攻击成功率(ASRs)。此外,我们还提供了对 QueryAttack 成功的视觉分析,并提出了针对 QueryAttack 的定制防御方法。我们的贡献可以总结如下:

  • 我们首次观察到 LLMs 的防御机制对结构化的非自然查询语言并不敏感,并基于这一观察提出了 QueryAttack,这是一个新颖的越狱框架。
  • 我们对主流 LLMs 的评估表明,QueryAttack 成功地绕过了它们的安全机制,并实现了最先进的平均攻击成功率。
  • 我们提出了一种针对 QueryAttack 的定制防御方法,实验表明它可以帮助 LLMs 有效降低攻击成功率。

2 Background

大型语言模型(LLMs)在各个领域展现出了卓越的生成潜力。然而,它们仍然容易受到越狱攻击。针对LLMs的越狱攻击通常涉及精心设计输入内容,以诱导模型生成并输出有害响应,例如公然违反人类伦理的指令或披露敏感信息。由于自然语言样本在LLMs训练阶段被广泛用作安全对齐数据(OpenAI,2024a),潜在的恶意用户或对手可以通过设计基于非自然语言分布的提示来绕过这些模型的防御机制。

利用长尾编码分布进行攻击尤其有效,当目标LLMs的安全微调无法泛化到需要相应能力的领域时更是如此。例如,通过将敏感内容替换为Base64(Wei等人,2023a)、密文(Yuan等人,2024)或低资源语言(Deng等人,2024),此类攻击诱导目标LLMs出现不匹配的泛化。

尽管研究人员开发了多种防御方法来缓解越狱攻击,例如监督微调(Wei等人,2022;Ouyang等人,2022)和从人类反馈中进行强化学习(Sun等人,2023;Mehrabi等人,2024),但最近的研究表明,它们无法完全防御零日越狱攻击(Song等人,2025;Wu等人,2025)。因此,有必要继续研究LLMs的攻击向量,并为开发新的防御措施提供见解。

3 Method

《宾馆客房管理系统》是一个基于C#与MySQL的项目,旨在帮助学习者掌握数据库管理和系统开发知识。该项目通过完整代码实现,将编程技术应用于宾馆客房管理的实际业务场景。 C#是微软开发的面向对象编程语言,广泛用于Windows应用程序开发。在本项目中,C#用于构建用户界面、处理业务逻辑以及与数据库交互。它拥有丰富的类库,便于开发复杂图形用户界面(GUI),并通过ADO.NET组件实现与MySQL数据库的连接。MySQL是一种流行的开源关系型数据库管理系统(RDBMS),常用于Web应用程序,用于存储客房、预订、客户等核心数据。通过SQL语句,开发者可对数据进行增、删、改、查操作。系统中可能涉及“客房表”“预订表”“客户表”等,包含客房编号、类型、价格、预订日期等字段。 数据库连接是系统的关键部分。C#通过ADO.NET的SqlConnection类连接MySQL数据库,连接字符串包含服务器地址、数据库名称、用户名和密码。用户下载项目后,需根据本地环境修改连接字符串中的用户名和密码。系统主要功能模块包括:客房管理,可展示、添加、修改、删除客房信息;预订管理,处理预订的查看、新增、修改和取消;客户管理,存储和管理客户个人信息;查询功能,支持按客房类型、价格范围、预订日期等条件查询;报表和统计功能,生成入住率、收入统计等报表辅助决策。开发者需编写C#方法对应数据库操作,同时设计直观易用的界面,方便用户完成预订流程。项目中的MySQL文件可能是数据库脚本或配置文件,包含建表、数据填充及权限设置等内容,用户需在本地测试前运行脚本设置数据库环境。 总之,该系统结合C#和MySQL,为学习者提供了一个涵盖数据库设计、业务逻辑处理和界面开发的综合实践案例,有助于提升开发者在数据库应用和系统集成方面的能力。
yolov12-pyqt5-gui识别扑克牌的花色和点数-检测游戏开发和娱乐应用+数据集+训练好的模型+pyqt5可视化界面包含pyqt可视化界面,有使用教程 1. 内部包含标注好的目标检测数据集,分别有yolo格式(txt文件)和voc格式标签(xml文件), 共1285张图像, 已划分好数据集train,val, test,并附有data.yaml文件可直接用于yolov5,v8,v9,v10,v11,v12等算法的训练; 2. yolo目标检测数据集类别名:poker-cards(扑克牌),包括 10_Diamonds(方块10)、10_Hearts(红心10)、10_Spades(黑桃10)、10_Trefoils(梅花10)、2_Diamonds(方块2)、2_Hearts(红心2)、2_Spades(黑桃2)、2_Trefoils(梅花2)、3_Diamonds(方块3)、3_Hearts(红心3)、3_Spades(黑桃3)、3_Trefoils(梅花3)、4_Diamonds(方块4)、4_Hearts(红心4)、4_Spades(黑桃4)、4_Trefoils(梅花4)、5_Diamonds(方块5)、5_Hearts(红心5)、5_Spades(黑桃5)、5_Trefoils(梅花5)、6_Diamonds(方块6)、6_Hearts(红心6)、6_Spades(黑桃6)、6_Trefoils(梅花6)、7_Diamonds(方块7)、7_Hearts(红心7)、7_Spades(黑桃7)、7_Trefoils(梅花7)、8_Diamonds(方块8)、8_Hearts(红心8)、8_Spades(黑桃8)、8_Trefoils(梅花8)、9_Diamonds(方块9)、9_Hearts(红心9)、9_Spades(黑桃9)、9_Trefoils(梅花9)、A_Diamonds(方块A)、A_Hearts(红心A)、A_Spades(黑桃A)、A_Trefoils(梅花A)、J_Diamonds(方块J)、J_Hearts(红心J)、J_Spades(黑桃J)、J_Trefoils(梅花J)、K_Diamonds(方块K)、K_Hearts(红心K)、K_Spades(黑桃K)、K_Trefoils(梅花K)、Q_Diamonds(方块Q)、Q_Hearts(红心Q)、Q_Spades(黑桃Q)、Q_Trefoils(梅花Q)等 3. yolo项目用途:识别扑克牌的花色和点数,用于游戏开发和娱乐应用 4. 可视化参考链接:https://blog.csdn.net/weixin_51154380/article/details/126395695?spm=1001.2014.3001.5502
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

真·skysys

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值