parsing - 术语提取：从文本中生成标签

Question

这个问题之前已经被问过好几次了。

尝试使用现有解决方案解决此问题时，我偶然发现 Solr 在索引之前对文档执行“文本分析”，如http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中所述- 其中也包括词干提取。

所以最终的索引将主要由用于描述文档的术语组成。

是否有提供分析器、标记器和标记过滤器以供直接使用的解决方案？如果 solr 是出路，那么从 solr 的索引中获取这些数据的最佳方法是什么？

score 4 · Accepted Answer

Solr 是一种创建自定义搜索引擎的方法。它似乎不是这项工作的正确工具。维基百科关于术语提取的文章在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。OpenNLP有一个可能有用的工具列表。它的 Chunker可能会有所帮助。

score 1 · Accepted Answer

只需询问已解析的术语，例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

有关详细信息，请参阅术语组件。

2 回答 2