使用爬虫我们可以搜索任何特定站点,但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则,我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索。任何人都可以根据上述问题部分帮助我解决这个问题?
如果特定站点不允许在 robots.txt 中使用 Nutch bot,那么如何使用 Nutch 搜索该站点?我们是否需要事先获得许可。
使用爬虫我们可以搜索任何特定站点,但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则,我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索。任何人都可以根据上述问题部分帮助我解决这个问题?
如果特定站点不允许在 robots.txt 中使用 Nutch bot,那么如何使用 Nutch 搜索该站点?我们是否需要事先获得许可。
在 Nutch 中,您可以配置可以向特定主机发送多少并发请求。
您可以在 conf/nutch-site.xml 文件中覆盖此属性。默认情况下,Nutch 只会每 5 秒向服务器发送一次请求。
<property>
<name>fetcher.server.delay</name>
<value>5.0</value>
<description>The number of seconds the fetcher will delay between
successive requests to the same server.</description>
</property>
在 robots.txt 文件中,您可以为特定的用户代理字符串配置网站的排除项,而不是相反。如果网站所有者没有明确禁止网站访问搜索引擎,您可以使用 Nutch 对其进行抓取。
例如排除所有搜索机器人:
User-Agent: *
Disallow: /