我想获得长查询和集合中文档之间的余弦相似度。我正在使用 Lucence 来索引集合并提交查询以检索文档。
但是,对于某些查询,我收到以下错误。
"Caused by: org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024"
我复制了查询中的一些术语以增加它们的权重。但似乎 lucene 只是进行简单的布尔检索,而不是使用 tf-idf 计算文档和查询的余弦相似度。
有人可以证实这一点吗?