在索引方法中,我使用以下行:
Field contentsField = new Field("contents", new FileReader(f), Field.TermVector.YES);
但是,在 Lucene 4.0 中,此构造函数已被弃用,new TextField
应使用new Field
.
但问题TextField
在于它不接受TermVector
其构造函数。
有没有办法使用新的构造函数在我的 Lucene 4.0 索引中包含术语向量?
谢谢
我遇到了同样的问题,所以我只是简单地创建了自己的字段:
public class VecTextField extends Field {
/* Indexed, tokenized, not stored. */
public static final FieldType TYPE_NOT_STORED = new FieldType();
/* Indexed, tokenized, stored. */
public static final FieldType TYPE_STORED = new FieldType();
static {
TYPE_NOT_STORED.setIndexed(true);
TYPE_NOT_STORED.setTokenized(true);
TYPE_NOT_STORED.setStoreTermVectors(true);
TYPE_NOT_STORED.setStoreTermVectorPositions(true);
TYPE_NOT_STORED.freeze();
TYPE_STORED.setIndexed(true);
TYPE_STORED.setTokenized(true);
TYPE_STORED.setStored(true);
TYPE_STORED.setStoreTermVectors(true);
TYPE_STORED.setStoreTermVectorPositions(true);
TYPE_STORED.freeze();
}
// TODO: add sugar for term vectors...?
/** Creates a new TextField with Reader value. */
public VecTextField(String name, Reader reader, Store store) {
super(name, reader, store == Store.YES ? TYPE_STORED : TYPE_NOT_STORED);
}
/** Creates a new TextField with String value. */
public VecTextField(String name, String value, Store store) {
super(name, value, store == Store.YES ? TYPE_STORED : TYPE_NOT_STORED);
}
/** Creates a new un-stored TextField with TokenStream value. */
public VecTextField(String name, TokenStream stream) {
super(name, stream, TYPE_NOT_STORED);
}
}
希望这可以帮助
我被这件事难住了一段时间。这里的其他答案很有帮助,但即使有他们,情况对我来说并不明显。因此,在我终于亮起灯后,我决定添加这个额外的答案,以便让下一个人更清楚。
Field
支持术语向量的签名被贬值的原因是因为它使用了Field.TermVector enum
从 Lucene 4.0 开始贬值的签名。
Field
在 Lucene 4.0 中,向支持传递 a 的类添加了一个新的方法签名FieldType
。该类FieldType
比旧enum
方法更灵活,并且提供了设置比以前可用的更多字段选项的能力。
FieldType
下面是一个示例,说明如何通过在实例化对象时传递对象来创建支持术语向量的非存储文本字段Field
。
FieldType specialTextFieldType = new FieldType(TextField.TYPE_NOT_STORED);
specialTextFieldType.StoreTermVectors = true;
Document exampleDoc = new Document();
exampleDoc.Add(new Field("SomeField", someData, specialTextFieldType ));