0

使用爬虫我们可以搜索任何特定站点,但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则,我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索。任何人都可以根据上述问题部分帮助我解决这个问题?

如果特定站点不允许在 robots.txt 中使用 Nutch bot,那么如何使用 Nutch 搜索该站点?我们是否需要事先获得许可。

4

1 回答 1

0

在 Nutch 中,您可以配置可以向特定主机发送多少并发请求。

您可以在 conf/nutch-site.xml 文件中覆盖此属性。默认情况下,Nutch 只会每 5 秒向服务器发送一次请求。

<property>
  <name>fetcher.server.delay</name>
  <value>5.0</value>
  <description>The number of seconds the fetcher will delay between 
   successive requests to the same server.</description>
</property>

在 robots.txt 文件中,您可以为特定的用户代理字符串配置网站的排除项,而不是相反。如果网站所有者没有明确禁止网站访问搜索引擎,您可以使用 Nutch 对其进行抓取。

例如排除所有搜索机器人:

User-Agent: *
Disallow: /
于 2013-05-14T19:54:41.553 回答