1、DOM4J简介
DOM4J是 dom4j.org 出品的一个开源 XML 解析包。DOM4J应用于 Java 平台,采用了 Java 集合框架并完全支持 DOM,SAX 和 JAXP。DOM4J 使用起来非常简单。只要了解基本的 XML-DOM 模型,就能使用。Dom:把整个文档作为一个对象。DOM4J 最大的特色是使用大量的接口。主要接口都在org.dom4j里面定义,如下:
-
Attribute:定义了 XML 的属性。
-
Branch:指能够包含子节点的节点。如XML元素(Element)和文档(Docuemnts)定义了一个公共的行为
-
CDATA:定义了 XML CDATA 区域
-
CharacterData:是一个标识接口,标识基于字符的节点。如CDATA,Comment, Text.
-
Comment:定义了 XML 注释的行为
-
Document:定义了XML 文档
-
DocumentType:定义 XML DOCTYPE 声明
-
Element:定义XML 元素
-
ElementHandler:定义了Element 对象的处理器
-
ElementPath:被 ElementHandler 使用,用于取得当前正在处理的路径层次信息
-
Entity:定义 XML entity
-
Node:为dom4j中所有的XML节点定义了多态行为
-
NodeFilter:定义了在dom4j 节点中产生的一个滤镜或谓词的行为(predicate)
-
ProcessingInstruction:定义 XML 处理指令
-
Text:定义 XML 文本节点
-
Visitor:用于实现 Visitor模式
-
XPath:在分析一个字符串后会提供一个 XPath 表达式
2、SAXReader解析xml文件数据
2.1、加入jar包
- xml文件解析时编码要一致(默认UTF-8),出现报错可以在记事本中另存为来更改编码格式。
- jar包两个都需要
2.2、gao.xml数据
<?xml version="1.0" encoding="UTF-8"?>
<emps>
<emp>
<id>1</id>
<name>张三</name>
<age>26</age>
<gender>男</gender>
<salary>3000</salary>
</emp>
<emp>
<id>2</id>
<name>李四</name>
<age>21</age>
<gender>女</gender>
<salary>2000</salary>
</emp>
<emp>
<id>3</id>
<name>王五</name>
<age>28</age>
<gender>女</gender>
<salary>6500</salary>
</emp>
<emp>
<id>4</id>
<name>赵六</name>
<age>28</age>
<gender>男</gender>
<salary>5500</salary>
</emp>
<emp>
<id>5</id>
<name>钱七</name>
<age>53</age>
<gender>男</gender>
<salary>12000</salary>
</emp>
<cmp department="总经办">
<id>007</id>
<name>董事长</name>
<age>52</age>
<gender>男</gender>
<salary>100000</salary>
</cmp>
</emps>
2.3、XmlDemo.java代码
package me.gorden.xml;
import java.io.File;
import java.util.List;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
public class XmlDemo {
public static void main(String[] args) {
try {
// 创建SAXReader
SAXReader reader = new SAXReader();
//从xml文件获取数据
Document document = reader.read(new File("E:\\00_MeWockSpace\\MyEclipse 12\\xmlDemo\\src\\gao.xml"));
// 获取根节点 emps
Element root = document.getRootElement();
// 查找指定节点名称QName的所有子节点elements
List<Element> list = root.elements("emp"); //得到所有emp元素
System.out.println("list==>"+list);
for (Element element : list) { //循环输出全部emp的相关信息
System.out.println("element.getName()==>"+element.getName());
List<Element> list2 = element.elements(); //得到emp元素下的子元素
for (Element e : list2) { //遍历emp元素下的子元素
System.out.print(e.getName()+":"); //获取子元素名称
System.out.print(e.getText()+" "); //获取子元素的文本值
}
System.out.println();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
2.4、运行结果
list==>[org.dom4j.tree.DefaultElement@168afdd [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@1f21056 [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@10e8647 [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@91cf0b [Element: <emp attributes: []/>], org.dom4j.tree.DefaultElement@b00ec2 [Element: <emp attributes: []/>]]
element.getName()==>emp
id:1 name:张三 age:26 gender:男 salary:3000
element.getName()==>emp
id:2 name:李四 age:21 gender:女 salary:2000
element.getName()==>emp
id:3 name:王五 age:28 gender:女 salary:6500
element.getName()==>emp
id:4 name:赵六 age:28 gender:男 salary:5500
element.getName()==>emp
id:5 name:钱七 age:53 gender:男 salary:12000
2.5、ReadXml.java文件和上面的不一样,其余的都是一样的
package me.gorden.xml;
import java.io.File;
import java.util.List;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
public class ReadXml {
public static void main(String[] args) throws DocumentException {
File file = new File("E:\\00_MeWockSpace\\MyEclipse 12\\xmlDemo\\src\\gao.xml");
System.out.println("file===>"+file);
// 创建SAXReader
SAXReader reader = new SAXReader();
// 用SAXReader来读取文件,并转换成Document
Document document = reader.read(file);
//用Document的selectNodes来读取节点,返回list
List<Object> list = document.selectNodes("/emps/emp/name");
Element e = null;
if(list.size()>0){
e = (Element) list.get(0);
}
System.out.println("list.size()==>"+list.size());
if(null != e){
Object obj = e.getData();
System.out.println("Element内容为: "+obj);
}else{
System.out.println("Element内容为空");
}
}
}
2.6、运行结果
file===>E:\00_MeWockSpace\MyEclipse 12\xmlDemo\src\gao.xml
list.size()==>5
Element内容为: 张三
3、总结
- 读取xml数据
SAXReader可以通过多种方式读取xml数据,并返回Document格式的对象。通过查看源码,可看出read()方法接收File,InputStream和URL等格式的参数来读取相应的xml数据。在代码里,读取xml文档和xml格式的字符串两种方式。字符串要根据相应的编码转成输入流才能被SAXReader读取。 - 解析xml数据
读取到Document对象后,使用getRootElement()方法获取根元素,返回的是一个Element对象。在本例中,该元素的name即为emps。 - 获取子元素数据
获取根元素后,便可以一层一层的去获取他的子元素信息。如果知道子元素的标签名称,便可以直接调用element(“name”)方法获取该子元素。如果不知道子元素的名称,或者想直接获取该元素下的全部子元素,可以调用elements()方法获取一个包括全部元素的list,然后进行下一步的处理。 - 输出元素信息
调用getName()方法获取当前元素的元素名,attributeValue()获取属性名。如果当前元素没有子元素,则调用getText()方法获取元素值。