-3

我不知道我问的问题是否正确,但我被困得很厉害。我想为我最后一年的项目制作自己的搜索引擎。此外,我对网络引擎进行了大约一个月的研究。我遇到了 nutch、lucene、solr、xapian、yaCy。但这还不够。我也知道我需要一个解析器、一个索引器、一个爬虫和一个页面排名算法,但是有很多东西要开始,我不知道从哪里开始。

我所需要的只是某种教程或书籍,我可以在其中找到有关这些术语(索引器、爬虫等)以及如何逐步实现这些 apache 项目以及我应该选择使用哪个 apache 项目的信息。

4

3 回答 3

2

试试这个http://blog.building-blocks.com/building-a-search-engine-with-nutch-and-solr-in-10-minutes

于 2012-04-16T11:14:57.120 回答
0

如果您需要搜索引擎,请查看OpenSearchServer,这是一个基于 lucene 的搜索引擎,具有许多功能。阅读文档。

如果你打算自己写。您正在尝试重新发明轮子。请尝试阅读《 信息检索简介》一书。.

于 2012-04-16T14:30:46.437 回答
0

您将需要类似 solr 的东西来执行搜索,然后您可以将权重应用于不同的字段,例如元标题。您需要查看部分文档的添加和更新。

您还需要一些东西来抓取网站以创建索引。您可以按照 siva 帖子中的示例进行操作。

如果您想自己编写,可以使用 python 或 curl 站点。找到所有链接并启动更多流程来收集信息。

solr http://wiki.apache.org/solr/SolrInstall安装然后创建一个 schema.xml http://wiki.apache.org/solr/SchemaXml - 想想你需要哪些字段,哪些是可搜索的等. 然后您可以使用 apache solr 进行 php 或许多查询的替代方案。

请享用

于 2012-04-16T15:27:38.140 回答