DOM4J及SAXReader解析xml文件数据_dom4j saxreader-CSDN博客

本文链接：https://blog.csdn.net/qq_45793102/article/details/122409864

本文介绍DOM4J库的应用及SAXReader解析XML文件的方法。通过实例演示如何读取XML数据，获取根元素及其子元素信息，并展示不同解析方式的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、DOM4J简介

DOM4J是 dom4j.org 出品的一个开源 XML 解析包。DOM4J应用于 Java 平台，采用了 Java 集合框架并完全支持 DOM，SAX 和 JAXP。DOM4J 使用起来非常简单。只要了解基本的 XML-DOM 模型，就能使用。Dom：把整个文档作为一个对象。DOM4J 最大的特色是使用大量的接口。主要接口都在org.dom4j里面定义，如下：

Attribute：定义了 XML 的属性。
Branch：指能够包含子节点的节点。如XML元素(Element)和文档(Docuemnts)定义了一个公共的行为
CDATA：定义了 XML CDATA 区域
CharacterData：是一个标识接口，标识基于字符的节点。如CDATA，Comment, Text.
Comment：定义了 XML 注释的行为
Document：定义了XML 文档
DocumentType：定义 XML DOCTYPE 声明
Element：定义XML 元素
ElementHandler：定义了Element 对象的处理器
ElementPath：被 ElementHandler 使用，用于取得当前正在处理的路径层次信息
Entity：定义 XML entity
Node：为dom4j中所有的XML节点定义了多态行为
NodeFilter：定义了在dom4j 节点中产生的一个滤镜或谓词的行为（predicate）
ProcessingInstruction：定义 XML 处理指令
Text：定义 XML 文本节点
Visitor：用于实现 Visitor模式
XPath：在分析一个字符串后会提供一个 XPath 表达式

2、SAXReader解析xml文件数据

2.1、加入jar包

xml文件解析时编码要一致（默认UTF-8），出现报错可以在记事本中另存为来更改编码格式。
jar包两个都需要

2.2、gao.xml数据

<?xml version="1.0" encoding="UTF-8"?>
<emps>
    <emp>
        <id>1</id>
        <name>张三</name>
        <age>26</age>
        <gender>男</gender>
        <salary>3000</salary>
    </emp>
    <emp>
        <id>2</id>
        <name>李四</name>
        <age>21</age>
        <gender>女</gender>
        <salary>2000</salary>
    </emp>
    <emp>
        <id>3</id>
        <name>王五</name>
        <age>28</age>
        <gender>女</gender>
        <salary>6500</salary>
    </emp>
    <emp>
        <id>4</id>
        <name>赵六</name>
        <age>28</age>
        <gender>男</gender>
        <salary>5500</salary>
    </emp>
    <emp>
        <id>5</id>
        <name>钱七</name>
        <age>53</age>
        <gender>男</gender>
        <salary>12000</salary>
    </emp>
    <cmp department="总经办">
        <id>007</id>
        <name>董事长</name>
        <age>52</age>
        <gender>男</gender>
        <salary>100000</salary>
    </cmp>
</emps>

2.3、XmlDemo.java代码

package me.gorden.xml;
 
import java.io.File;
import java.util.List;
 
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
 
public class XmlDemo {
    public static void main(String[] args) {
        try {
            // 创建SAXReader
            SAXReader reader = new SAXReader();
            //从xml文件获取数据  
            Document document = reader.read(new File("E:\\00_MeWockSpace\\MyEclipse 12\\xmlDemo\\src\\gao.xml"));
            // 获取根节点 emps
            Element root = document.getRootElement();
            // 查找指定节点名称QName的所有子节点elements
            List<Element> list = root.elements("emp");  //得到所有emp元素
            System.out.println("list==>"+list);
            
            for (Element element : list) { //循环输出全部emp的相关信息  
                System.out.println("element.getName()==>"+element.getName());
                
                List<Element> list2 = element.elements(); //得到emp元素下的子元素
                
                for (Element e : list2) {  //遍历emp元素下的子元素
                    System.out.print(e.getName()+":");  //获取子元素名称
                    System.out.print(e.getText()+" ");  //获取子元素的文本值
                }
                 System.out.println();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

2.4、运行结果

list==>[org.dom4j.tree.DefaultElement@168afdd [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@1f21056 [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@10e8647 [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@91cf0b [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@b00ec2 [Element: <emp attributes: []/>]]
element.getName()==>emp
id:1 name:张三 age:26 gender:男 salary:3000 
element.getName()==>emp
id:2 name:李四 age:21 gender:女 salary:2000 
element.getName()==>emp
id:3 name:王五 age:28 gender:女 salary:6500 
element.getName()==>emp
id:4 name:赵六 age:28 gender:男 salary:5500 
element.getName()==>emp
id:5 name:钱七 age:53 gender:男 salary:12000

2.5、ReadXml.java文件和上面的不一样，其余的都是一样的

package me.gorden.xml;
 
import java.io.File;
import java.util.List;
 
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
 
public class ReadXml {
    public static void main(String[] args) throws DocumentException {
        File file = new File("E:\\00_MeWockSpace\\MyEclipse 12\\xmlDemo\\src\\gao.xml");
        
        System.out.println("file===>"+file);
        // 创建SAXReader
        SAXReader reader = new SAXReader();
        // 用SAXReader来读取文件，并转换成Document
        Document document = reader.read(file);
        //用Document的selectNodes来读取节点，返回list
        List<Object> list = document.selectNodes("/emps/emp/name");
        Element e = null;
        if(list.size()>0){
            e = (Element) list.get(0);
        }
        
        System.out.println("list.size()==>"+list.size());
        
        if(null != e){
            Object obj = e.getData();
            System.out.println("Element内容为:  "+obj);
        }else{
            System.out.println("Element内容为空");
        }
        
    }
}

2.6、运行结果

file===>E:\00_MeWockSpace\MyEclipse 12\xmlDemo\src\gao.xml
list.size()==>5
Element内容为:  张三

3、总结

读取xml数据
SAXReader可以通过多种方式读取xml数据，并返回Document格式的对象。通过查看源码，可看出read()方法接收File，InputStream和URL等格式的参数来读取相应的xml数据。在代码里，读取xml文档和xml格式的字符串两种方式。字符串要根据相应的编码转成输入流才能被SAXReader读取。
解析xml数据
读取到Document对象后，使用getRootElement()方法获取根元素，返回的是一个Element对象。在本例中，该元素的name即为emps。
获取子元素数据
获取根元素后，便可以一层一层的去获取他的子元素信息。如果知道子元素的标签名称，便可以直接调用element(“name”)方法获取该子元素。如果不知道子元素的名称，或者想直接获取该元素下的全部子元素，可以调用elements()方法获取一个包括全部元素的list，然后进行下一步的处理。
输出元素信息
调用getName()方法获取当前元素的元素名，attributeValue()获取属性名。如果当前元素没有子元素，则调用getText()方法获取元素值。