0

我正在申请,我有一个问题。

描述应用程序:用户写,让我们在文本框中说一个句子,然后点击进入。该应用程序应搜索文本文件文件夹中的句子并根据该句子返回最相关的文本文件的标题。

那么,我应该根据什么标准选择包含该句子或该句子一部分的最佳文件?我有一些想法,基于出现次数,我正在搜索的文本文件的长度等。这是一个非常有趣的问题。

在互联网上,我找到的最佳链接是:http ://www.seomoz.org/blog/search-engine-algorithm-basics 。

请帮忙提供一些想法...

谢谢!

4

1 回答 1

2

传统的方法是使用tf-idf 模型来确定关键字(术语)与文档的相关程度。

这个想法是:如果它多次出现在文档中 - 文档会得到提升。但是,非常常用的词 - 会被降低(对文档的分数不太重要),因为它们很可能出现在所有文档中。

您还想看看Lucene.NET,它是lucene的 .NET 版本,它是一个常用的开源搜索引擎。

您可能还想阅读有关信息检索的信息。我推荐斯坦福大学的信息检索导论作为学习该领域的良好来源。

于 2012-09-10T10:47:34.483 回答