0

在尝试使用 stanford NRE 工具标记命名实体时,我得到了这种输出:

A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.

当然,处理任何没有根的 XML 是行不通的,所以我添加了这个:

<root>A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.</root>

我尝试使用这种方法构建一棵树:使用 python 的 lxml 剥离内联标签,但它不起作用......它在行上产生了这个错误tree = etree.fromstring(text)

lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 1, column 1793

有谁知道这个的解决方案?或者也许是另一种方法,它允许我从任何带有 inlineXML 标记的文本构建树,只保留标记的标记并删除/忽略文本的其余部分。

4

1 回答 1

0

最后,我没有使用解析器或树,而是使用了正则表达式。这是运行良好且快速的代码:

import re
NER = ['TIME','LOCATION','ORGANISATION','PERSON','MONEY','PERCENT','DATA']
entities = {}
for cat in NER:
    regex_cat = re.compile('<'+cat+'>(.*?)</'+cat+'>')
    entities[cat] = re.findall(regex_cat,data)

这里data只是一串文本。它使用正则表达式查找指定类别的所有实体,NER并将其作为列表存储在字典中。这可以用于所有 inlineXML 字符串,其中NER只是字符串中所有可能标记的列表。

于 2013-04-16T09:39:49.730 回答