5

我如何在 Solr 中查询最常见的索引词?例如,给定每个文档的这些字段:

  • 有一位女士确信所有的闪光都是金色的。
  • 黄金比白银更值钱。
  • 这位女士戴着金手镯。

我希望 Solr 以任何格式返回给我以下输出:

  • 金 (3)
  • 女士 (2)
  • (2) // 作为停用词,这并不是必需的
  • ...

谢谢。

4

3 回答 3

8

使用卢克请求处理程序

http://wiki.apache.org/solr/LukeRequestHandler

例子:

http://localhost:8983/solr/admin/luke?fl=Your_Indexed_Field&numTerms=500

于 2012-08-29T15:30:58.567 回答
4

条款组件似乎非常适合这项任务。这是一篇关于自我更新 Solr 停用词的文章,它使用术语组件查找 1000 个最常见的索引词并将它们添加到停用词文件中。

查找 1000 个索引关键字(按频率降序排序):

http://url.to.solr/solr/terms?terms.fl=MY_FIELD&terms.limit=1000
于 2012-09-10T10:49:20.783 回答
0

据我所知,这并不完全是 Solr 的用例,但可以通过 faceting 来完成。但是不能保证性能。确保您的字段设置为正确标记,然后像往常一样运行查询,但最后使用以下附加参数:

&facet=true&facet.field=yourfield

替换yourfield为您存储数据的字段的名称。

于 2012-08-28T16:57:37.393 回答