python-3.x - Python 3.3：处理 inlineXML

Question

在尝试使用 stanford NRE 工具标记命名实体时，我得到了这种输出：

A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.

当然，处理任何没有根的 XML 是行不通的，所以我添加了这个：

<root>A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.</root>

我尝试使用这种方法构建一棵树：使用 python 的 lxml 剥离内联标签，但它不起作用......它在行上产生了这个错误tree = etree.fromstring(text)：

lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 1, column 1793

有谁知道这个的解决方案？或者也许是另一种方法，它允许我从任何带有 inlineXML 标记的文本构建树，只保留标记的标记并删除/忽略文本的其余部分。

score 0 · Accepted Answer

最后，我没有使用解析器或树，而是使用了正则表达式。这是运行良好且快速的代码：

import re
NER = ['TIME','LOCATION','ORGANISATION','PERSON','MONEY','PERCENT','DATA']
entities = {}
for cat in NER:
    regex_cat = re.compile('<'+cat+'>(.*?)</'+cat+'>')
    entities[cat] = re.findall(regex_cat,data)

这里data只是一串文本。它使用正则表达式查找指定类别的所有实体，NER并将其作为列表存储在字典中。这可以用于所有 inlineXML 字符串，其中NER只是字符串中所有可能标记的列表。

python-3.x - Python 3.3：处理 inlineXML

1 回答 1

Related

Reference