我知道 SOLR 可以进行自由文本搜索,但是在 SOLR 文本字段中对常用术语进行分面的最佳做法是什么?
例如,我们有一大堆文本(对房产的描述),其中包含有用的文本,例如“私人车库”、“私人花园”、“私人停车场”、“地下停车场”、“硬木地板”、 “两层楼”,……还有几十个这样的。
我想创建一个视图,让用户查看每个术语的属性数量,并允许用户深入了解相关属性。
一个明显的解决方案是预处理数据,解析文本,并使用布尔值是/否为这些关键短语中的每一个创建构面。
理想情况下,我希望将其自动化,所以我想 SOLR 自由文本搜索引擎可能允许这样做?例如,我可以使用自由文本搜索引擎来删除停用词并收集常用短语的数量,然后我们可以将其呈现给用户吗?
如果预处理是唯一的方法,是否有对此或任何执行此功能的开源库的通用/最佳实践方法?
从 SOLR 中的文本字段计算和分组常用短语的最佳实践是什么?