如何获得与http://developer.yahoo.com/search/content/V1/termExtraction.html相同的结果
这个问题之前已经被问过好几次了。
尝试使用现有解决方案解决此问题时,我偶然发现 Solr 在索引之前对文档执行“文本分析”,如http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中所述- 其中也包括词干提取。
所以最终的索引将主要由用于描述文档的术语组成。
是否有提供分析器、标记器和标记过滤器以供直接使用的解决方案?如果 solr 是出路,那么从 solr 的索引中获取这些数据的最佳方法是什么?