0

如果 Lucene ShingleFilter 可用于将字符串标记为不同大小的 shingles 或 ngram,例如:

"please divide this sentence into shingles"

变成:

shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"

有谁知道这是否可以与其他分析器结合使用以返回找到的二元组或三元组的频率,例如:

"please divide this please divide sentence into shingles"

会为“请除”返回 2 吗?

我应该补充一点,我的字符串是从数据库构建的,然后由内存中的 Lucene 索引并且不会持久化。不打算使用 Solr 等其他产品。

4

1 回答 1

0

我最终将我的 snowballAnalyzer 和 standardAnalyzers 作为参数传递给 ShingleFilterWrappers 并通过 TermVectorMapper 处理输出。

于 2012-09-06T23:48:21.930 回答