如果 Lucene ShingleFilter 可用于将字符串标记为不同大小的 shingles 或 ngram,例如:
"please divide this sentence into shingles"
变成:
shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"
有谁知道这是否可以与其他分析器结合使用以返回找到的二元组或三元组的频率,例如:
"please divide this please divide sentence into shingles"
会为“请除”返回 2 吗?
我应该补充一点,我的字符串是从数据库构建的,然后由内存中的 Lucene 索引并且不会持久化。不打算使用 Solr 等其他产品。