java - LingPipe 字典大小

Question

我创建了一个基于 LingPipe DictionaryChunker 示例的测试程序。我正在从文件中将字典值读入 MapDictionary。当文件超过 100,000 个条目时，解析器开始返回垃圾：

10k 行（tail -10000 nameList.txt > shortNameList.txt）

TEXT=现在是所有好人来援助他们的国家的时候了佐伊罗杰斯现在是所有好人来帮助他们的国家的时候了

大块头。所有匹配=false 区分大小写=false 短语=|Zoe Rogers| 开始=69 结束=79 类型= PLAYER 分数=1.0

100k 行 (tail -100000 nameList.txt > shortNameList.txt)

TEXT=现在是所有好人来援助他们的国家的时候了佐伊罗杰斯现在是所有好人来帮助他们的国家的时候了

创建 MapDictionary 是否有更好的选择？

我已经调整了 VM 上的内存限制，但这似乎没有帮助。

有任何想法吗？

score 0 · Accepted Answer

事实证明，允许 MapDictionary 中的任何值为 null 会破坏分块器。删除任何具有空白值的行后，分块器工作正常。

1 回答 1