问题标签 [nutch2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

27 问题

0 投票

2 回答

53 浏览

web-crawler - 仅将 Nutch 限制为种子路径及其以下网页

我已经设置了 Nutch 2.x 来抓取一些多语言的域。我可以将 Nutch 限制为仅链接，但不能限制子文件夹。例如，对于跟随种子，

https://www.bbc.com/urdu

我只想抓取 /urdu 中的 URL，因为该网站还包含其他语言的网页。现在，我如何配置或自定义 Nutch 来处理这些情况？

2020-09-17T07:59:37.137

0 投票

1 回答

136 浏览

hadoop - Nutch 1.17 网络爬取与存储优化

我正在使用 Nutch 1.17 来抓取超过百万个网站。我必须为此执行以下操作。

一次将爬虫作为深度爬虫运行，以便它应该从给定的（100 万）域中获取最大的 URL。第一次，您最多可以运行 48 小时。
在此之后，在 5 到 6 小时后使用相同的 100 万个域运行爬虫，并且只选择那些域上的新 URL。
作业完成后，在 Solr 中索引 URL
稍后，不需要存储原始 HTML，因此节省存储空间（HDFS），仅删除原始数据并维护每个页面元数据，以便在下一个作业中，我们应该避免再次重新获取页面（在其预定时间之前））。

没有任何其他处理或后期分析。现在，我可以选择使用中等大小的 Hadoop 集群（最多 30 台机器）。每台机器都有 16GB RAM、12 核和 2 TB 存储。Solr 机器也具有相同的空间。现在，为了保持上述状态，我对以下内容感到好奇：

hadoop solr hdfs nutch nutch2

2020-09-25T05:09:12.527

0 投票

1 回答

70 浏览

web-crawler - nutch fetch 失败，协议状态：异常（16），lastModified=0：Http code=403，url=https://www.nicobuyscars.com

我正在为 url 做 parsechecker：https ://www.nicobuyscars.com o/p Fetch failed with protocol status: exception(16), lastModified=0: Http code=403, url=https://www.nicobuyscars.com

我可以知道是什么问题以及如何解决它。我尝试更改代理名称，但没有成功。请帮我。

web-crawler nutch nutch2

2020-09-25T07:05:22.197

0 投票

0 回答

227 浏览

nutch - org.apache.tika.utils.XMLReaderUtils 获取 SAXParser 警告：争用等待 SAXParser。考虑增加 XMLReaderUtils.POOL_SIZE

运行 nutch 作业时，它显示为

2020 年 10 月 13 日上午 8:46:18 org.apache.tika.utils.XMLReaderUtils 获取 SAXParser 警告：争用等待 SAXParser。考虑增加 XMLReaderUtils.POOL_SIZE 我可以知道这意味着什么。我使用 num 个线程作为 150 并且 numfetchers 是 3。我是否需要更改此参数。让我知道。

nutch apache-tika tika-server nutch2

2020-10-13T10:50:26.050

0 投票

1 回答

34 浏览

nutch - Nutch http.redirect.max 我可以知道它是什么意思吗

例如，我正在抓取 1000 个网站。当我为某些网站读取数据库时，它显示 db_redirect_temp 和 db_redirect_moved，如果我设置 http.redirect.max=10 是每个网站的这个值，或者它只处理整个抓取网站的 10 个重定向。

nutch nutch2

2020-10-16T10:30:43.937

0 投票

1 回答

27 浏览

nutch - 我对 db_redir_temp 有一些疑问

我已经注入了一些 url 来抓取一轮，我发现一些 url 为 db_redir_temp。{"url":"http://www.universityhealth.org","pst":"temp_moved(13), lastModified=0: https://www.universityhealth.org/"} {"url":"http ://silvercappartners.com","pst":"temp_moved(13), lastModified=0: http://silvercappartners.com/index.html"}

我可以知道http://www.universityhealth.org指向相同的 url 为什么显示 db_redir_temp。这个 url 指向 http://silvercappartners.com到这个 url http://silvercappartners.com/index.html 如果我认为 pst 列将给出重定向的 url 页面。

nutch nutch2

2020-10-26T11:45:36.887

0 投票

0 回答

16 浏览

nutch2 - Nutch 问题：使用 nutch 抓取 PDF 时，PDF 正确获取但无法解析

我将 nutch-2.3.1 与 Hbase-0.98.8-hadoop2 一起使用，并且对于 HTML 页面的爬网运行良好，但是当尝试对 PDF URL 运行爬网时，只有其中一些似乎解析了它们中的大多数没有爬网到 solr . 我尝试对 URL 使用 parsechecker，它工作正常。但是，在抓取 PDF 时，它并不仅仅是解析。获取步骤也工作正常。在这种情况下我可以检查什么

nutch2

2021-09-09T10:23:05.923

1 2 3 4 5 6 7 8 9 10

问题标签 [nutch2]

Reference