0

我创建了一个基于 LingPipe DictionaryChunker 示例的测试程序。我正在从文件中将字典值读入 MapDictionary。当文件超过 100,000 个条目时,解析器开始返回垃圾:

10k 行(tail -10000 nameList.txt > shortNameList.txt)

TEXT=现在是所有好人来援助他们的国家的时候了佐伊罗杰斯现在是所有好人来帮助他们的国家的时候了

大块头。所有匹配=false 区分大小写=false 短语=|Zoe Rogers| 开始=69 结束=79 类型= PLAYER 分数=1.0

100k 行 (tail -100000 nameList.txt > shortNameList.txt)

TEXT=现在是所有好人来援助他们的国家的时候了佐伊罗杰斯现在是所有好人来帮助他们的国家的时候了

大块头。所有匹配=假区分大小写=假短语=|现在是所有好人的时候了| start=0 end=32 type= PLAYER score=1.0 词组=|援国| start=33 end=68 type= PLAYER score=1.0 短语=|Zoe Rogers 现在是时候了| 开始=69 结束=103 类型= PLAYER 分数=1.0 词组=|好人来相助| 开始=104 结束=134 类型= 玩家分数=1.0

创建 MapDictionary 是否有更好的选择?

我已经调整了 VM 上的内存限制,但这似乎没有帮助。

有任何想法吗?

4

1 回答 1

0

事实证明,允许 MapDictionary 中的任何值为 null 会破坏分块器。删除任何具有空白值的行后,分块器工作正常。

于 2013-01-11T21:38:53.110 回答