syntaxnet - 如何忽略 SyntaxNet 上的注释字符？

Question

在语法网上解析文本时，我想忽略注释字符。

例如，在下面的情况下，我想忽略<X>和</X>注释字符。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.

所以，我期待下一个输出。

_    <PERSON>    _     ...
1    Michael     _     ...
2    Jordan      _     ...
_    </PERSON>   _     ...
3    is          _     ...
...

SyntaxNet 不是有这样的功能吗？

score 0 · Accepted Answer

不，SyntaxNet 没有操作 xml 标签的特定功能。但是，您可以使用 Python 轻松地预处理数据，例如：

import xml.etree.ElementTree as ET
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a "
    "professor at <LOC>Berkeley</LOC>.</DOC>")
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

另请参阅Python 从文档中剥离 XML 标记。

syntaxnet - 如何忽略 SyntaxNet 上的注释字符？

1 回答 1

Related

Reference