我有一个包含多值字段的 Solr 模式。我在 Solr 外部解析文档并使用http://wiki.apache.org/solr/UpdateJSON更新索引(另请参见http://wiki.apache.org/solr/UpdateXmlMessages)。下面是一个演示我要解决的问题的玩具示例。
{
"add": {
"doc": {
"id": "MyDocumentID",
"user": "MyUserID",
"meals": ["pizza", "pizza", "pizza", "burger"]
}
}
}
我希望找到某种语法,可以让我指出“披萨”出现了 3 次,而实际上没有写出 3 次。问题是这些频率中的一些可能是数千或数万。(我正在使用存储的词频对搜索结果进行过滤和排名。)这样的语法存在吗?我正在编造这个,但这里有一个例子来说明这可能看起来如何。
{
"add": {
"doc": {
"id": "MyDocumentID",
"user": "MyUserID",
"meals": ["pizza"*3, "burger"]
}
}
}
我怀疑答案是,如果我想要这样的行为,我需要自己编写一些 Solr 代码。我希望避免这种情况,但如果是这种情况,您仍然可以通过将我指向要处理的代码的正确区域来帮助我。
这是一个相关的 Lucene 问题:我可以在不生成 TokenStream 的情况下将文档插入 Lucene 吗?