0

在语法网上解析文本时,我想忽略注释字符。

例如,在下面的情况下,我想忽略<X></X>注释字符。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.

所以,我期待下一个输出。

_    <PERSON>    _     ...
1    Michael     _     ...
2    Jordan      _     ...
_    </PERSON>   _     ...
3    is          _     ...
...

SyntaxNet 不是有这样的功能吗?

4

1 回答 1

0

不,SyntaxNet 没有操作 xml 标签的特定功能。但是,您可以使用 Python 轻松地预处理数据,例如:

import xml.etree.ElementTree as ET
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a "
    "professor at <LOC>Berkeley</LOC>.</DOC>")
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

另请参阅Python 从文档中剥离 XML 标记

于 2016-08-31T20:12:56.773 回答