Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Lucene 的 Term Freq 向量来计算文档之间的余弦相似度,假设我的文档有这 3 个术语,“owe”“owed”“owing”。Lucene 将此视为 3 个单独的术语,但其中 3 个表示相同的“欠”。Lucene 中是否有任何功能可用于按语义进行索引?以便它将“欠”“欠”“欠”索引为一个词“欠”,词频=3?
如果不是,我欢迎任何建议来完成这项任务?
您可以将 SnowballFilter 与 EnglishStemmer 一起使用。它将用根动词词替换这些动词(在您的示例中,它将是owe,或者可能是ow)。