1

我有带有.train文件的数据集,它的文件非常大,比如 100MB 文件。我想执行 NER 来提取组织名称。我使用 OpenNLP 进行了培训。

示例代码:

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap()); 

但我得到一个错误:ArrayIndexOutofBoundException

有没有办法使用 openNLP 为 NER 训练大型数据集?你能发布示例代码吗?

当我用 Google 搜索时,我发现 Class GIS 和 DataIndexer 接口可用于训练大型数据集,但我知道怎么做吗?你能发布示例代码吗?

4

1 回答 1

2

我可以毫无问题地创建具有更大数据的模型。您的 .train 文件中的标记可能有问题。另外,如果您可以发布完整的例外情况会有所帮助吗?

为了训练更大的模型,我只需校准截止并增加 Java 内存。

于 2012-12-05T20:58:18.130 回答