我如何在 Solr 中查询最常见的索引词?例如,给定每个文档的这些字段:
- 有一位女士确信所有的闪光都是金色的。
- 黄金比白银更值钱。
- 这位女士戴着金手镯。
我希望 Solr 以任何格式返回给我以下输出:
- 金 (3)
- 女士 (2)
- (2) // 作为停用词,这并不是必需的
- ...
谢谢。
我如何在 Solr 中查询最常见的索引词?例如,给定每个文档的这些字段:
我希望 Solr 以任何格式返回给我以下输出:
谢谢。
使用卢克请求处理程序
http://wiki.apache.org/solr/LukeRequestHandler
例子:
http://localhost:8983/solr/admin/luke?fl=Your_Indexed_Field&numTerms=500
条款组件似乎非常适合这项任务。这是一篇关于自我更新 Solr 停用词的文章,它使用术语组件查找 1000 个最常见的索引词并将它们添加到停用词文件中。
查找 1000 个索引关键字(按频率降序排序):
http://url.to.solr/solr/terms?terms.fl=MY_FIELD&terms.limit=1000
据我所知,这并不完全是 Solr 的用例,但可以通过 faceting 来完成。但是不能保证性能。确保您的字段设置为正确标记,然后像往常一样运行查询,但最后使用以下附加参数:
&facet=true&facet.field=yourfield
替换yourfield
为您存储数据的字段的名称。