2

我正在做一个项目,我使用弹性搜索来分析推文。我正在制作他们最常发推文的热门话题(人们的兴趣)列表。

由于大多数时间推文都有词,需要先进行词干才能用作列表(兴趣)名称。

Elasticsearch 擅长从它处理停用词删除的数据库中进行搜索;词干; 等等,但我想知道是否有一种方法可以从弹性搜索 api 的推文中获取词干。

我认为 apache lucene 可以做到这一点,但我想坚持使用 elasticsearch。

任何人都可以建议我在弹性搜索中实现这一目标的方法。

提前致谢!!!

  • 编辑:-

假设我们有 3 个单词,例如。玩,玩,玩等等。

所有这些词在词干后都是相同的(播放),所以我想在这里增加仅播放(词干)的计数,而不是 3 个非词干词的单个计数。

希望这个例子能让我的目的更清楚。

4

2 回答 2

1

使用雪球分析器可以实现这一点。

https://gist.github.com/jiren/7263138

于 2013-11-01T09:43:23.963 回答
1

使用 Elasticsearch 的分析 API 怎么样?http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/indices-analyze.html

于 2013-10-25T12:13:50.163 回答