我有带有.train
文件的数据集,它的文件非常大,比如 100MB 文件。我想执行 NER 来提取组织名称。我使用 OpenNLP 进行了培训。
示例代码:
TokenNameFinderModel model=NameFinderME.train("en","organization",
sampleStream,Collections.<String, Object>emptyMap());
但我得到一个错误:ArrayIndexOutofBoundException
。
有没有办法使用 openNLP 为 NER 训练大型数据集?你能发布示例代码吗?
当我用 Google 搜索时,我发现 Class GIS 和 DataIndexer 接口可用于训练大型数据集,但我知道怎么做吗?你能发布示例代码吗?