使用http://wiki.apache.org/solr/TermVectorComponent,我可以获得存储在我的索引中的任何文档的索引术语及其频率。如何在不将文本存储在索引中的情况下获得相同的文本信息?我只希望 SOLR 处理文本并返回信息,但不必将文档存储在我的索引中。
问问题
2061 次
4 回答
1
几年前,我用 Java 编写了一个基于 Lucene 进行大量文本分析的应用程序。我必须自定义编写搜索功能来查找彼此相距一定距离内的单词。您可以将文本文档导入软件并让它计算术语频率,或者您可以获取代码并根据您的需要定制它。
免费下载: http: //www.minoesoftware.com/download.php
来源: https ://github.com/danspiteri/MINOE/blob/master/src/minoe/SearchFiles.java
于 2013-08-23T23:16:01.530 回答
1
如果您使用 Solr4 并且不存储文本,则可以在文本字段上使用Solr 轴。但是,显然你会在分析器处理后得到术语:
http://192.168.0.202:8080/solr/fr_00_0425_sem/select?q=renault&wt=xml&facet=true&facet.pivot=uniqueKey,yourText
这是一个相当繁重的查询,我希望您没有太多匹配的文档......
于 2013-08-24T04:53:08.850 回答
1
根据您的要求,我得出结论,您实际上需要一个搜索库,而不是一个完整的搜索引擎(服务)。该库是Lucene。也许,这对初学者有帮助:How to extract Document Term Vector in Lucene 3.5.0。您可以将索引存储在 RAM 中以便计算必要的位,然后删除索引。
于 2013-08-20T19:29:55.783 回答