我已经运行 Lucene/Solr 4 来测试不同的特性,也就是“集群”。目前,有 100 万份文档被索引。每个文档都有以下字段:
ID (unique Key) Example1: 10245
Example2: 24974
TOPIC (Keywords of the document) Example1: "disaster/japan/nuclear power station"
Example2: "world/japan/nuclear power"
HEADLINE (1 line of text): Example1: "explosion at nuclear power plant in japan"
Example2: "news about japans nuclear power plant"
TEXT (the full text): "In the Japanese nuclear power plant in Fukushima..."
所有字段都被索引和存储,例如 TEXT,它只被索引,不被存储。我使用以下具体配置:
<str name="carrot.title">TOPIC</str>
<str name="carrot.snippet">HEADLINE</str>
如果你看你看到的例子,主题是不同的,但日本是一样的。是否可以以这种方式配置 solr/carrot,example1 和 example2 将在一个集群中?因为匹配“日本”?!
此外,可能还有第三个主题,如“新闻/核能”,里面没有“日本”,但标题和文本使用的词是:日本发电厂。为了在一个集群中接收这 3 个消息,什么 solr/carrot 配置是相关的?
谢谢!