我想构建一个能够将查询映射到概念的内部搜索引擎(我有一个非常大的数千个 XML 文件集合)。例如,如果我搜索“大猫”,我希望排名靠前的结果也能返回带有“大猫”的文档。但我可能也有兴趣让它返回“巨大的动物”,尽管相关性分数要低得多。
我目前正在阅读 Python 中的自然语言处理一书,似乎 WordNet 有一些可能被证明有用的单词映射,但我不确定如何将其集成到搜索引擎中。我可以使用 Lucene 来做到这一点吗?如何?
从进一步的研究来看,“潜在语义分析”似乎与我正在寻找的内容相关,但我不确定如何实现它。
关于如何完成这项工作的任何建议?