我正在做一个项目,我使用弹性搜索来分析推文。我正在制作他们最常发推文的热门话题(人们的兴趣)列表。
由于大多数时间推文都有词,需要先进行词干才能用作列表(兴趣)名称。
Elasticsearch 擅长从它处理停用词删除的数据库中进行搜索;词干; 等等,但我想知道是否有一种方法可以从弹性搜索 api 的推文中获取词干。
我认为 apache lucene 可以做到这一点,但我想坚持使用 elasticsearch。
任何人都可以建议我在弹性搜索中实现这一目标的方法。
提前致谢!!!
- 编辑:-
假设我们有 3 个单词,例如。玩,玩,玩等等。
所有这些词在词干后都是相同的(播放),所以我想在这里增加仅播放(词干)的计数,而不是 3 个非词干词的单个计数。
希望这个例子能让我的目的更清楚。