2

我已经设置了“Nutch 搜索引擎”来抓取网站。现在,我需要编写一个 php API 来与 Nutch 搜索引擎对话。我需要做两件事:

  1. 使用 PHP 脚本,我需要向 Nutch 指定要抓取的 URL(为此,我有一些来自 http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2的指针.html

  2. 使用 PHP 脚本,我需要从 Nutch 抓取数据库中检索抓取结果。我似乎找不到任何帮助(或者如果答案已经存在,我可能太笨了,看不到答案:()

如果有人使用 PHP API 读取 Nutch 抓取结果,请与我分享一些指针。

绝望地等待一些帮助。

4

4 回答 4

0

对于您的问题 #1,您需要将这些 URL 注入爬虫。相对简单:+ 使用要添加的 URL 创建文件 + 使用这些 URL 发出注入命令(可能需要等待上一个爬取/获取/索引周期结束)+ 开始新的爬取

注意:您需要确保网址也没有被过滤掉

于 2011-01-07T07:06:26.670 回答
0

我也在寻找一个真正的好方法来做到这一点。但截至目前,我使用 JSP API 来显示搜索结果。 应该让你开始。

您也可以使用 php 将结果作为 JSON 对象接收。

为了让您朝着这个方向迈进,有一个有趣的页面可以让您开始使用 jquery 进行 JSON。谷歌关于 JSON 的其他教程。他们有很多。

于 2011-05-26T19:21:58.627 回答
0

您需要使用 solr 进行搜索或其他搜索平台,nutch 只是一个爬虫,想法很简单:

  • ==> nutch 爬行
  • ==> solr 创建索引
  • ==> 建立一个在索引内搜索的接口(第 2 步)。这一步我使用 SolariumBundle‎
于 2014-01-23T15:03:51.377 回答
-1

关于#2,Nutch 是用 JSP 和 Java 编写的,我不知道任何 PHP 实现(如果你发现我感兴趣的话)。所以基本上你需要在你的 PHP 脚本和 Nutch 服务器之间创建一种 AJAX 或 SOAP 类型的通信方案。您是否尝试过 nutch 邮件列表寻求帮助?

于 2011-01-07T07:09:57.073 回答