在尝试使用 stanford NRE 工具标记命名实体时,我得到了这种输出:
A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.
当然,处理任何没有根的 XML 是行不通的,所以我添加了这个:
<root>A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.</root>
我尝试使用这种方法构建一棵树:使用 python 的 lxml 剥离内联标签,但它不起作用......它在行上产生了这个错误tree = etree.fromstring(text)
:
lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 1, column 1793
有谁知道这个的解决方案?或者也许是另一种方法,它允许我从任何带有 inlineXML 标记的文本构建树,只保留标记的标记并删除/忽略文本的其余部分。