问题标签 [nutch2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
53 浏览

web-crawler - 仅将 Nutch 限制为种子路径及其以下网页

我已经设置了 Nutch 2.x 来抓取一些多语言的域。我可以将 Nutch 限制为仅链接,但不能限制子文件夹。例如,对于跟随种子,

https://www.bbc.com/urdu

我只想抓取 /urdu 中的 URL,因为该网站还包含其他语言的网页。现在,我如何配置或自定义 Nutch 来处理这些情况?

0 投票
1 回答
136 浏览

hadoop - Nutch 1.17 网络爬取与存储优化

我正在使用 Nutch 1.17 来抓取超过百万个网站。我必须为此执行以下操作。

  1. 一次将爬虫作为深度爬虫运行,以便它应该从给定的(100 万)域中获取最大的 URL。第一次,您最多可以运行 48 小时。
  2. 在此之后,在 5 到 6 小时后使用相同的 100 万个域运行爬虫,并且只选择那些域上的新 URL。
  3. 作业完成后,在 Solr 中索引 URL
  4. 稍后,不需要存储原始 HTML,因此节省存储空间(HDFS),仅删除原始数据并维护每个页面元数据,以便在下一个作业中,我们应该避免再次重新获取页面(在其预定时间之前) )。

没有任何其他处理或后期分析。现在,我可以选择使用中等大小的 Hadoop 集群(最多 30 台机器)。每台机器都有 16GB RAM、12 核和 2 TB 存储。Solr 机器也具有相同的空间。现在,为了保持上述状态,我对以下内容感到好奇:

0 投票
1 回答
70 浏览

web-crawler - nutch fetch 失败,协议状态:异常(16),lastModified=0:Http code=403,url=https://www.nicobuyscars.com

我正在为 url 做 parsechecker:https ://www.nicobuyscars.com o/p Fetch failed with protocol status: exception(16), lastModified=0: Http code=403, url=https://www.nicobuyscars.com

我可以知道是什么问题以及如何解决它。我尝试更改代理名称,但没有成功。请帮我。

0 投票
0 回答
227 浏览

nutch - org.apache.tika.utils.XMLReaderUtils 获取 SAXParser 警告:争用等待 SAXParser。考虑增加 XMLReaderUtils.POOL_SIZE

运行 nutch 作业时,它显示为

2020 年 10 月 13 日上午 8:46:18 org.apache.tika.utils.XMLReaderUtils 获取 SAXParser 警告:争用等待 SAXParser。考虑增加 XMLReaderUtils.POOL_SIZE 我可以知道这意味着什么。我使用 num 个线程作为 150 并且 numfetchers 是 3。我是否需要更改此参数。让我知道。

0 投票
1 回答
34 浏览

nutch - Nutch http.redirect.max 我可以知道它是什么意思吗

例如,我正在抓取 1000 个网站。当我为某些网站读取数据库时,它显示 db_redirect_temp 和 db_redirect_moved,如果我设置 http.redirect.max=10 是每个网站的这个值,或者它只处理整个抓取网站的 10 个重定向。

0 投票
1 回答
27 浏览

nutch - 我对 db_redir_temp 有一些疑问

我已经注入了一些 url 来抓取一轮,我发现一些 url 为 db_redir_temp。{"url":"http://www.universityhealth.org","pst":"temp_moved(13), lastModified=0: https://www.universityhealth.org/"} {"url":"http ://silvercappartners.com","pst":"temp_moved(13), lastModified=0: http://silvercappartners.com/index.html"}

我可以知道http://www.universityhealth.org指向相同的 url 为什么显示 db_redir_temp。这个 url 指向 http://silvercappartners.com到这个 url http://silvercappartners.com/index.html 如果我认为 pst 列将给出重定向的 url 页面。

0 投票
0 回答
16 浏览

nutch2 - Nutch 问题:使用 nutch 抓取 PDF 时,PDF 正确获取但无法解析

我将 nutch-2.3.1 与 Hbase-0.98.8-hadoop2 一起使用,并且对于 HTML 页面的爬网运行良好,但是当尝试对 PDF URL 运行爬网时,只有其中一些似乎解析了它们中的大多数没有爬网到 solr . 我尝试对 URL 使用 parsechecker,它工作正常。但是,在抓取 PDF 时,它并不仅仅是解析。获取步骤也工作正常。在这种情况下我可以检查什么