python - 使用lxml提取预先不知道所有元素的数据

Question

我有一些大致标准化的 sgml 文件。但是，在我打开文件并亲自阅读之前，标签中可能包含我不知道存在的数据。例如，文件有地址，通常地址有街道、城市、州、邮编和电话。地址的每个元素都用标签表示

 <ADDRESS>
 <STREET>One Main Street
 <CITY>Gotham City
 <ZIP>99999 0123
 <PHONE>555-123-5467
 </ADDRESS>

但是，例如，我发现有 Country、STREET1、STREET2 的标签。我有超过 200K 的文件要处理，我想知道是否可以提取地址的所有元素而不必担心知道未知标签的存在。

到目前为止我所做的是

h=fromstring(my_data_in_a_string)
for each in h.cssselect('mail_address'):
    each.text_content()

但是我得到的是有问题的，因为我无法确定一个元素在哪里结束，而下一个元素在哪里开始

One Main StreetGotham City99999 0123555-123-5467

score 2 · Accepted Answer

要获取所有标签，我们像这样遍历文档：

假设您的 XML 结构是这样的：

<ADDRESS>
 <STREET>One Main Street</STREET>
 <CITY>Gotham City</CITY>
 <ZIP>99999 0123</ZIP>
 <PHONE>555-123-5467</PHONE>
 </ADDRESS>

我们解析它：

>>> from lxml import etree
>>> f = etree.parse('foo.xml')  # path to XML file
>>> root = f.getroot() # get the root element
>>> for tags in root.iter(): # iter through the root element
...     print tags.tag       # print all the tags
... 
ADDRESS
STREET
CITY
ZIP
PHONE

现在假设您的 XML 也有额外的标签；您不知道的标签。由于我们正在遍历 XML，上面的代码也将返回这些标签。

<ADDRESS>
         <STREET>One Main Street</STREET>
         <STREET1>One Second Street</STREET1>
        <CITY>Gotham City</CITY>
         <ZIP>99999 0123</ZIP>
         <PHONE>555-123-5467</PHONE>         
         <COUNTRY>USA</COUNTRY>    
</ADDRESS>

上面的代码返回：

ADDRESS
STREET
STREET1
CITY
ZIP
PHONE
COUNTRY

现在如果我们想得到标签的文本，过程是一样的。只需像这样打印 tag.text ：

>>> for tags in root.iter():
...     print tags.text
... 

One Main Street
One Second Street
Gotham City
99999 0123
555-123-5467
USA

python - 使用lxml提取预先不知道所有元素的数据

1 回答 1

Related

Reference