DOM4J及SAXReader解析xml文件数据

本文介绍DOM4J库的应用及SAXReader解析XML文件的方法。通过实例演示如何读取XML数据,获取根元素及其子元素信息,并展示不同解析方式的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、DOM4J简介

DOM4J是 dom4j.org 出品的一个开源 XML 解析包。DOM4J应用于 Java 平台,采用了 Java 集合框架并完全支持 DOM,SAX 和 JAXP。DOM4J 使用起来非常简单。只要了解基本的 XML-DOM 模型,就能使用。Dom:把整个文档作为一个对象。DOM4J 最大的特色是使用大量的接口。主要接口都在org.dom4j里面定义,如下:

  • Attribute:定义了 XML 的属性。

  • Branch:指能够包含子节点的节点。如XML元素(Element)和文档(Docuemnts)定义了一个公共的行为

  • CDATA:定义了 XML CDATA 区域

  • CharacterData:是一个标识接口,标识基于字符的节点。如CDATA,Comment, Text.

  • Comment:定义了 XML 注释的行为

  • Document:定义了XML 文档

  • DocumentType:定义 XML DOCTYPE 声明

  • Element:定义XML 元素

  • ElementHandler:定义了Element 对象的处理器

  • ElementPath:被 ElementHandler 使用,用于取得当前正在处理的路径层次信息

  • Entity:定义 XML entity

  • Node:为dom4j中所有的XML节点定义了多态行为

  • NodeFilter:定义了在dom4j 节点中产生的一个滤镜或谓词的行为(predicate)

  • ProcessingInstruction:定义 XML 处理指令

  • Text:定义 XML 文本节点

  • Visitor:用于实现 Visitor模式

  • XPath:在分析一个字符串后会提供一个 XPath 表达式

2、SAXReader解析xml文件数据

2.1、加入jar包

  • xml文件解析时编码要一致(默认UTF-8),出现报错可以在记事本中另存为来更改编码格式。
  • jar包两个都需要

2.2、gao.xml数据

<?xml version="1.0" encoding="UTF-8"?>
<emps>
    <emp>
        <id>1</id>
        <name>张三</name>
        <age>26</age>
        <gender></gender>
        <salary>3000</salary>
    </emp>
    <emp>
        <id>2</id>
        <name>李四</name>
        <age>21</age>
        <gender></gender>
        <salary>2000</salary>
    </emp>
    <emp>
        <id>3</id>
        <name>王五</name>
        <age>28</age>
        <gender></gender>
        <salary>6500</salary>
    </emp>
    <emp>
        <id>4</id>
        <name>赵六</name>
        <age>28</age>
        <gender></gender>
        <salary>5500</salary>
    </emp>
    <emp>
        <id>5</id>
        <name>钱七</name>
        <age>53</age>
        <gender></gender>
        <salary>12000</salary>
    </emp>
    <cmp department="总经办">
        <id>007</id>
        <name>董事长</name>
        <age>52</age>
        <gender></gender>
        <salary>100000</salary>
    </cmp>
</emps>

2.3、XmlDemo.java代码

package me.gorden.xml;
 
import java.io.File;
import java.util.List;
 
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
 
public class XmlDemo {
    public static void main(String[] args) {
        try {
            // 创建SAXReader
            SAXReader reader = new SAXReader();
            //从xml文件获取数据  
            Document document = reader.read(new File("E:\\00_MeWockSpace\\MyEclipse 12\\xmlDemo\\src\\gao.xml"));
            // 获取根节点 emps
            Element root = document.getRootElement();
            // 查找指定节点名称QName的所有子节点elements
            List<Element> list = root.elements("emp");  //得到所有emp元素
            System.out.println("list==>"+list);
            
            for (Element element : list) { //循环输出全部emp的相关信息  
                System.out.println("element.getName()==>"+element.getName());
                
                List<Element> list2 = element.elements(); //得到emp元素下的子元素
                
                for (Element e : list2) {  //遍历emp元素下的子元素
                    System.out.print(e.getName()+":");  //获取子元素名称
                    System.out.print(e.getText()+" ");  //获取子元素的文本值
                }
                 System.out.println();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

2.4、运行结果

list==>[org.dom4j.tree.DefaultElement@168afdd [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@1f21056 [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@10e8647 [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@91cf0b [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@b00ec2 [Element: <emp attributes: []/>]]
element.getName()==>emp
id:1 name:张三 age:26 gender:男 salary:3000 
element.getName()==>emp
id:2 name:李四 age:21 gender:女 salary:2000 
element.getName()==>emp
id:3 name:王五 age:28 gender:女 salary:6500 
element.getName()==>emp
id:4 name:赵六 age:28 gender:男 salary:5500 
element.getName()==>emp
id:5 name:钱七 age:53 gender:男 salary:12000

2.5、ReadXml.java文件和上面的不一样,其余的都是一样的

package me.gorden.xml;
 
import java.io.File;
import java.util.List;
 
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
 
public class ReadXml {
    public static void main(String[] args) throws DocumentException {
        File file = new File("E:\\00_MeWockSpace\\MyEclipse 12\\xmlDemo\\src\\gao.xml");
        
        System.out.println("file===>"+file);
        // 创建SAXReader
        SAXReader reader = new SAXReader();
        // 用SAXReader来读取文件,并转换成Document
        Document document = reader.read(file);
        //用Document的selectNodes来读取节点,返回list
        List<Object> list = document.selectNodes("/emps/emp/name");
        Element e = null;
        if(list.size()>0){
            e = (Element) list.get(0);
        }
        
        System.out.println("list.size()==>"+list.size());
        
        if(null != e){
            Object obj = e.getData();
            System.out.println("Element内容为:  "+obj);
        }else{
            System.out.println("Element内容为空");
        }
        
    }
}

2.6、运行结果

file===>E:\00_MeWockSpace\MyEclipse 12\xmlDemo\src\gao.xml
list.size()==>5
Element内容为:  张三

3、总结

  • 读取xml数据
    SAXReader可以通过多种方式读取xml数据,并返回Document格式的对象。通过查看源码,可看出read()方法接收File,InputStreamURL等格式的参数来读取相应的xml数据。在代码里,读取xml文档和xml格式的字符串两种方式。字符串要根据相应的编码转成输入流才能被SAXReader读取。
  • 解析xml数据
    读取到Document对象后,使用getRootElement()方法获取根元素,返回的是一个Element对象。在本例中,该元素的name即为emps。
  • 获取子元素数据
    获取根元素后,便可以一层一层的去获取他的子元素信息。如果知道子元素的标签名称,便可以直接调用element(“name”)方法获取该子元素。如果不知道子元素的名称,或者想直接获取该元素下的全部子元素,可以调用elements()方法获取一个包括全部元素的list,然后进行下一步的处理。
  • 输出元素信息
    调用getName()方法获取当前元素的元素名,attributeValue()获取属性名。如果当前元素没有子元素,则调用getText()方法获取元素值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值