我想利用我拥有的 XML 形式的结构化信息来为斯坦福 NLP 包训练 CRF 模型。XML 看起来像:
<dates>
<date>Advance Access publication on
<month>July</month>
<day>11</day>,
<year>2007</year>
</date>
</dates>
根据http://nlp.stanford.edu/software/crf-faq.shtml#a我可以使用
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok
得到我的代币。但是我如何利用 XML 封装来自动用适当的类标记我的令牌呢?
斯坦福 NLP 包中是否有这样的支持/流程,还是我应该手动编写我的令牌文件(例如使用 XSLT)?