- Qingsong Zou, Jingyu Xiao, Qing Li*, Zhi Yan, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li and Yong Jiang, QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language. Accepted by ACL 2025.
- ACL 25 Findings
QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language
Abstract
最近大型语言模型(LLMs)在自然语言处理领域展现出了显著的潜力。不幸的是,LLMs面临着严重的安全和伦理风险。尽管开发了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的越狱攻击绕过这些防御的可能性。在本文中,我们提出了QueryAttack,这是一个新颖的框架,用于检验安全对齐的泛化能力。通过将LLMs视为知识数据库,我们将自然语言中的恶意查询翻译成结构化的非自然查询语言,以绕过LLMs的安全对齐机制。我们在主流LLMs上进行了广泛的实验,结果表明,QueryAttack不仅能够实现高攻击成功率(ASRs),还能突破各种防御方法。此外,我们针对QueryAttack定制了一种防御方法,可以在GPT4-1106上将ASR降低多达64%。我们的代码可在https://github.com/horizonsinzqs/QueryAttack 获取。
警告:本文包含不安全的模型响应。
1 Introduction
像 OpenAI 的 GPT 系列(OpenAI,2024a)和 Meta 的 Llama 系列(Touvron 等人,2023a)这样的大型语言模型(LLMs)在各个领域都展现出了卓越的生成潜力(Xiao 等人,2024;Boiko 等人,2023;He 等人,2024;Gao 等人,2024a)。然而,用于训练 LLMs 的海量数据包含大量信息,使它们能够学习到明显违反道德和伦理标准的未经筛选的知识(Li 等人,2023;Jiang 等人,2024;Yuan 等人,2024;Bai 等人,2024)。因此,服务提供商的一项关键责任是防止这些模型向潜在的对手提供有害信息。
为了使 LLMs 的回答与人类伦理和偏好保持一致,在 LLMs 的训练过程中采用了多种技术来规范它们对人类查询的输出。例如,提出了监督微调(Wei 等人,2022;Ouyang 等人,2022)、从人类反馈中进行强化学习(Sun 等人,2023;Mehrabi 等人,2024)、红队测试(Bai 等人,2022a)以及宪法人工智能(Bai 等人,2022b)等方法来增强 LLMs 的安全性。不幸的是,这些方法的一个重大限制是它们依赖于对齐阶段的恶意自然语言样本来训练模型识别恶意查询,并确保生成安全的输出。这种依赖为对手留下了使用非自然语言输入开发越狱方法的空间。
具体来说,CipherChat(Yuan 等人,2024)使用诸如凯撒密码之类的加密方法将有害查询翻译成加密文本。ArtPrompt(Jiang 等人,2024)用 ASCII 风格编码替换敏感术语。(Deng 等人,2024)将敏感内容转换成低资源语言。这些方法的本质在于诱导模型生成加密输出,然后将其解密为自然语言格式的有害文本。然而,它们通常要求模型具备加密知识才能理解提示,或者对模型生成加密内容的能力要求较高。因此,它们的攻击效果有限。为了说明这一点,我们设计了一个简单而清晰的实验来测试一些主流的大型语言模型是否能够有效地理解和生成加密文本,如附录 A 所示。结果表明,一些模型可能无法同时实现这两个目标,导致越狱失败。因此,开发一种有效且高效的越狱攻击方法仍然是一个关键挑战。
我们观察到,这些越狱攻击的本质在于定义一种定制的加密方法,然后使用该方法加密的语言与目标 LLMs 交互,从而绕过它们的防御机制。受先前工作的启发,我们发现 LLMs 的防御机制对结构化的非自然查询语言并不敏感。例如,将目标 LLM 视为知识数据库时,使用结构化查询语言(SQL)请求恶意知识(如图 1 所示),目标 LLM 不仅很好地识别了请求的意图,而且没有触发防御机制。相反,目标 LLM 正常地对整个提示以自然语言做出回应。
从这个新的角度来看,我们提出了一个名为 QueryAttack 的攻击,它首先使用结构化的非自然查询语言来越狱 LLMs。具体来说,我们将 QueryAttack 分解为三个主要组成部分:
1)从原始自然语言查询中提取三个关键组件:请求的内容、内容的修饰符以及内容所属的高级类别(可以找到内容的潜在来源)。
2)将查询组件填充到预定义的查询模板(例如 SQL 模板)中,生成结构化的非自然查询。
3)应用上下文学习,以帮助目标 LLM 理解模板的自然语义,并使用结构化的非自然查询提示目标 LLM。
这三个步骤定义了一个查询任务,类似于使用 SQL 从数据库中查询数据。此过程引入的额外成本仅限于将恶意查询翻译成指定格式,可以根据自然语言的任何查询轻松适应。鉴于编程语言广泛出现在 LLMs 的训练数据中,这些模型表现出对编程语言的出色语义理解能力(OpenAI,2023,2024a;Anthropic,2023;Touvron 等人,2023a),我们自然地采用编程语法来构建查询模板。我们在 AdvBench(Zou 等人,2023b)上测试了 QueryAttack,涵盖了知名开源和闭源 LLMs。实验结果表明,QueryAttack 有效地绕过了它们的安全防御,实现了最先进的攻击成功率(ASRs)。此外,我们还提供了对 QueryAttack 成功的视觉分析,并提出了针对 QueryAttack 的定制防御方法。我们的贡献可以总结如下:
- 我们首次观察到 LLMs 的防御机制对结构化的非自然查询语言并不敏感,并基于这一观察提出了 QueryAttack,这是一个新颖的越狱框架。
- 我们对主流 LLMs 的评估表明,QueryAttack 成功地绕过了它们的安全机制,并实现了最先进的平均攻击成功率。
- 我们提出了一种针对 QueryAttack 的定制防御方法,实验表明它可以帮助 LLMs 有效降低攻击成功率。
2 Background
大型语言模型(LLMs)在各个领域展现出了卓越的生成潜力。然而,它们仍然容易受到越狱攻击。针对LLMs的越狱攻击通常涉及精心设计输入内容,以诱导模型生成并输出有害响应,例如公然违反人类伦理的指令或披露敏感信息。由于自然语言样本在LLMs训练阶段被广泛用作安全对齐数据(OpenAI,2024a),潜在的恶意用户或对手可以通过设计基于非自然语言分布的提示来绕过这些模型的防御机制。
利用长尾编码分布进行攻击尤其有效,当目标LLMs的安全微调无法泛化到需要相应能力的领域时更是如此。例如,通过将敏感内容替换为Base64(Wei等人,2023a)、密文(Yuan等人,2024)或低资源语言(Deng等人,2024),此类攻击诱导目标LLMs出现不匹配的泛化。
尽管研究人员开发了多种防御方法来缓解越狱攻击,例如监督微调(Wei等人,2022;Ouyang等人,2022)和从人类反馈中进行强化学习(Sun等人,2023;Mehrabi等人,2024),但最近的研究表明,它们无法完全防御零日越狱攻击(Song等人,2025;Wu等人,2025)。因此,有必要继续研究LLMs的攻击向量,并为开发新的防御措施提供见解。