xml - 转换 XML 以用作命名实体识别 (NER) 的训练集

Question

我想利用我拥有的 XML 形式的结构化信息来为斯坦福 NLP 包训练 CRF 模型。XML 看起来像：

<dates>
   <date>Advance Access publication on 
      <month>July</month>
      <day>11</day>, 
      <year>2007</year>
   </date>
</dates>

根据http://nlp.stanford.edu/software/crf-faq.shtml#a我可以使用

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok

得到我的代币。但是我如何利用 XML 封装来自动用适当的类标记我的令牌呢？

斯坦福 NLP 包中是否有这样的支持/流程，还是我应该手动编写我的令牌文件（例如使用 XSLT）？

score 0 · Accepted Answer

我不知道这种 XML 格式。如果它是一个通用标准，你也许可以找到一个转换器——你想转换成“IO”或“IOB”编码，这是斯坦福 NER 使用的。否则，您将不得不手动进行。

下面是一个 IO 编码的例子：每行一个单词，每个单词都有一个对应的 NER 标签。此标签是“O”（无标签）或某些特定的 NER 标签。请注意，句子之间用空行分隔。

I   O
complained  O
to  O
Microsoft   ORGANIZATION
about   O
Bill    PERSON
Gates   PERSON
.   O

They    O
told    O
me  O
to  O
see O
the O
mayor   O
of  O
New LOCATION
York    LOCATION
.   O

xml - 转换 XML 以用作命名实体识别 (NER) 的训练集

1 回答 1

Related

Reference