1

我想利用我拥有的 XML 形式的结构化信息来为斯坦福 NLP 包训练 CRF 模型。XML 看起来像:

<dates>
   <date>Advance Access publication on 
      <month>July</month>
      <day>11</day>, 
      <year>2007</year>
   </date>
</dates>

根据http://nlp.stanford.edu/software/crf-faq.shtml#a我可以使用

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok

得到我的代币。但是我如何利用 XML 封装来自动用适当的类标记我的令牌呢?

斯坦福 NLP 包中是否有这样的支持/流程,还是我应该手动编写我的令牌文件(例如使用 XSLT)?

4

1 回答 1

0

我不知道这种 XML 格式。如果它是一个通用标准,你也许可以找到一个转换器——你想转换成“IO”或“IOB”编码,这是斯坦福 NER 使用的。否则,您将不得不手动进行。

下面是一个 IO 编码的例子:每行一个单词,每个单词都有一个对应的 NER 标签。此标签是“O”(无标签)或某些特定的 NER 标签。请注意,句子之间用空行分隔。

I   O
complained  O
to  O
Microsoft   ORGANIZATION
about   O
Bill    PERSON
Gates   PERSON
.   O

They    O
told    O
me  O
to  O
see O
the O
mayor   O
of  O
New LOCATION
York    LOCATION
.   O
于 2015-03-20T20:11:33.307 回答