我不知道我问的问题是否正确,但我被困得很厉害。我想为我最后一年的项目制作自己的搜索引擎。此外,我对网络引擎进行了大约一个月的研究。我遇到了 nutch、lucene、solr、xapian、yaCy。但这还不够。我也知道我需要一个解析器、一个索引器、一个爬虫和一个页面排名算法,但是有很多东西要开始,我不知道从哪里开始。
我所需要的只是某种教程或书籍,我可以在其中找到有关这些术语(索引器、爬虫等)以及如何逐步实现这些 apache 项目以及我应该选择使用哪个 apache 项目的信息。
我不知道我问的问题是否正确,但我被困得很厉害。我想为我最后一年的项目制作自己的搜索引擎。此外,我对网络引擎进行了大约一个月的研究。我遇到了 nutch、lucene、solr、xapian、yaCy。但这还不够。我也知道我需要一个解析器、一个索引器、一个爬虫和一个页面排名算法,但是有很多东西要开始,我不知道从哪里开始。
我所需要的只是某种教程或书籍,我可以在其中找到有关这些术语(索引器、爬虫等)以及如何逐步实现这些 apache 项目以及我应该选择使用哪个 apache 项目的信息。
如果您需要搜索引擎,请查看OpenSearchServer,这是一个基于 lucene 的搜索引擎,具有许多功能。阅读文档。
如果你打算自己写。您正在尝试重新发明轮子。请尝试阅读《 信息检索简介》一书。.
您将需要类似 solr 的东西来执行搜索,然后您可以将权重应用于不同的字段,例如元标题。您需要查看部分文档的添加和更新。
您还需要一些东西来抓取网站以创建索引。您可以按照 siva 帖子中的示例进行操作。
如果您想自己编写,可以使用 python 或 curl 站点。找到所有链接并启动更多流程来收集信息。
solr http://wiki.apache.org/solr/SolrInstall安装然后创建一个 schema.xml http://wiki.apache.org/solr/SchemaXml - 想想你需要哪些字段,哪些是可搜索的等. 然后您可以使用 apache solr 进行 php 或许多查询的替代方案。
请享用