我正在尝试对几个文本文档进行索引。
它们的内容只是字段制表符分隔的字符串:
WORD<\t>w1<\t>w2<\t>...<\t>wn
POS<\t>pos1<\t>pos2_a:pos2_b:pos2_c<\t>...<\t>posn_a:posn_b
...
对于 POS 字段,':'-
分隔的标记对应于相同的歧义词。
有 5 个文档,总大小为 10 MB。在编制索引时,java 使用了大约 2 GB 的 RAM,最终引发 OOM 错误。
String join_token = tok.nextToken();
// atomic tokens correspond to separate parses
String[] atomic_tokens = StringUtils.split(join_token, ':');
// marking each token with the parse number
for (int token_index = 0; token_index < atomic_tokens.length; ++token_index) {
atomic_tokens[token_index] += String.format("|%d", token_index);
}
String join_token_with_payloads = StringUtils.join(atomic_tokens, " ");
TokenStream stream = new WhitespaceTokenizer(Version.LUCENE_41, // OOM exception appears here
new StringReader(join_token_with_payloads));
// all these parses belong to the same position in the document
stream = new PositionFilter(stream, 0);
stream = new DelimitedPayloadTokenFilter(stream, '|', new IntegerEncoder());
stream.addAttribute(OffsetAttribute.class);
stream.addAttribute(CharTermAttribute.class);
feature = new Field(name,
join_token,
attributeFieldType);
feature.setTokenStream(stream);
inDocument.add(feature);
从内存的角度来看,这段代码有什么问题,以及如何用 RAM 中尽可能少的数据进行索引?