使用 awk 和 sed 等工具解析 XML 的解决方案并不完美。您不能依赖 XML 始终具有人类可读的布局。例如,某些 Web 服务会省略换行,从而导致整个 XML 文档出现在一行中。
我建议使用 xmllint,它能够使用 XPATH(一种为 XML 设计的查询语言)选择节点。
xmllint --xpath "//city" data.xml
XPath 非常有用。它使 XML 文档的每个部分都可寻址:
xmllint --xpath "string(//city[1]/@id)" data.xml
格式不正确的 XML 数据
这次返回“city”标签的第一次出现。xmllint 也可以用来漂亮地打印结果:
$ xmllint --xpath "//city[1]" data.xml | xmllint -format -
<?xml version="1.0"?>
<city id="AT">
<description> Home of the University of Georgia</description>
<location>Located about 60 miles Northeast of Atlanta</location>
<latitude>33 57' 39" N</latitude>
<longitude>83 22' 42" W</longitude>
在同一数据中,第一个“城市”标签全部出现在一行上。这是有效的 XML。
<city id="AT"> <cityname>Athens</cityname> <state>GA</state> <description> Home of the University of Georgia</description> <population>100,000</population> <location>Located about 60 miles Northeast of Atlanta</location> <latitude>33 57' 39" N</latitude> <longitude>83 22' 42" W</longitude> </city>
<city id="DUB">
<description> Dublin</description>