5

如何获得与http://developer.yahoo.com/search/content/V1/termExtraction.html相同的结果

这个问题之前已经被问过好几次了。

尝试使用现有解决方案解决此问题时,我偶然发现 Solr 在索引之前对文档执行“文本分析”,如http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中所述- 其中也包括词干提取。

所以最终的索引将主要由用于描述文档的术语组成。

是否有提供分析器、标记器和标记过滤器以供直接使用的解决方案?如果 solr 是出路,那么从 solr 的索引中获取这些数据的最佳方法是什么?

4

2 回答 2

4

Solr 是一种创建自定义搜索引擎的方法。它似乎不是这项工作的正确工具。维基百科关于术语提取的文章在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。OpenNLP有一个可能有用的工具列表。它的 Chunker可能会有所帮助。

于 2009-07-09T09:04:15.270 回答
1

只需询问已解析的术语,例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

有关详细信息,请参阅术语组件

于 2016-02-29T14:57:40.927 回答