0

我正在使用 Lucene 的 Term Freq 向量来计算文档之间的余弦相似度,假设我的文档有这 3 个术语,“owe”“owed”“owing”。Lucene 将此视为 3 个单独的术语,但其中 3 个表示相同的“欠”。Lucene 中是否有任何功能可用于按语义进行索引?以便它将“欠”“欠”“欠”索引为一个词“欠”,词频=3?

如果不是,我欢迎任何建议来完成这项任务?

4

1 回答 1

1

您可以将 SnowballFilter 与 EnglishStemmer 一起使用。它将用根动词词替换这些动词(在您的示例中,它将是owe,或者可能是ow)。

于 2012-04-28T03:14:17.597 回答