问题标签 [heritrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
394 浏览

java - 增加线程数

我正在尝试使用 Heritrix 从一个特定域中抓取页面。

爬行速度似乎真的很慢。我注意到的一件事是,虽然有 25 个线程,但其中 24 个始终处于空闲状态。似乎只有一个线程主动从队列中获取 URI 并从服务器获取数据。

我可以使用任何配置来使用所有 25 个线程吗?我已经发现并更改了与礼貌相关的配置(最小/最大延迟)谢谢!

0 投票
1 回答
145 浏览

web - 在 heritrix 中查找到 Web 列表的 Web 跟踪

我最近在我工作的公司中一直在使用网络爬虫 Heritrix,经过一段时间的搜索和测试,我找不到如何解决我们的需求。

我们希望每天在 cron 中自动运行 heritrix 以抓取网页列表,我们要做的是检查该网站的任何链接是否指向我们域列表中的网站。困难的部分并且找不到方法是将所有跟踪记录到指向我们域的那个链接。

由于作业的日志文件存储了带有一些信息但不包含跟踪的所有链接。一个示例是在对列表中的域的 grep brazzers 完成作业时运行脚本,因此如果它在爬网日志中找到“brazzers”,它应该在另一个日志中显示结果,其中包含从头到尾的整个跟踪:

2015-10-25T20:18:58.369Z 200 91 http://cdn1.ads.brazzers.com/robots.txt XLEP http://cdn1.ads.brazzers.com/text/plain #021 20151025201857643+726 sha1: CPA63O5POU3CVLCH3VDDIMBJCCWRVLPC - -

有可能这样做吗?或其他方式?对这些东西感觉很愚蠢,我的编程不太好

非常感谢您提前

恩里克。

0 投票
1 回答
87 浏览

web-crawler - Heritrix Crawl 是确定性的吗?

假设有一个网站 abc.com,我们抓取 abc.com 的 100 个页面如下。

第 1 天:通过将 maxDocumentsToDownload 指定为 100 在 heritrix 中创建爬网作业 第 2 天:在 heritrix 中克隆上述作业并运行。

如果网站在两天内没有变化,我会得到相同的 100 页还是不同的 100 页?

如果需要更多信息,请告诉我

谢谢,哈雷什

0 投票
1 回答
225 浏览

heritrix - 我们如何知道 Heritrix 何时完成爬网作业?

在我们的应用程序中,Heritrix 被用作抓取引擎,一旦抓取工作完成,我们将手动启动端点以从网站下载 PDF。我们希望在抓取作业完成后立即自动执行此下载 pdf 任务。HEritrix 是否提供任何 URI/webservice 方法 - 返回作业状态?(或)我们是否需要创建一个轮询应用程序来持续监控作业的状态?

0 投票
2 回答
407 浏览

heritrix - Heritrix 3.2.x,如何从 warc 文件中读取内容?

使用 Heritrix 3.2.x,我抓取了一个网站,现在我想从创建的 warc 文件中读取 HTML 内容。任何人都可以帮忙吗?我尝试使用 python warc 工具和基于 java 的 warc-tools.jar。

0 投票
0 回答
96 浏览

java - 如何为 Heritrix3 网络爬虫编写 cron 作业?

我通过 Heritrix3.0 构建了一个抓取 Web 数据的作业。但它必须Heritrix.java作为Java 应用程序运行,然后构建服务器。我必须打开浏览器来输入https://localhost:8443来构建我的工作,然后启动工作。然后取消暂停作业。如何自动进行网络爬网的 cron 作业?请使用 Java 语言。

0 投票
2 回答
3060 浏览

web-crawler - Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

我们需要每两周抓取大量(约 15 亿)网页。速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终花费了我们超过 2 万美元。

有没有关于哪个爬虫在分布式环境中表现最好的数据?

0 投票
0 回答
271 浏览

java - Heritrix 3.2.0 找不到文件,无法执行

我正在尝试使用Heritrix 3.2.0并遵循此处此处提供的步骤 2 。但是每次我尝试执行如下命令时:

我总是遇到同样的错误:

尾部:无法打开“heritrix-3.2.0/heritrix_out.log”进行读取。找不到文件或目录

我没有安装java所需的文件,例如 :java -version不返回任何内容,但我下载并解压缩了 ajre-8u151-linux-x64并将此文件夹设置为$JAVA_HOME. 这可能是问题吗?

实际上,提取的文件3.2.0 version没有附带该heritrix_out.log文件,只有3.1.0版本(最初有效,现在不再有效)。我试图将该文件从 3.1 复制到 3.2 文件夹,但仍然存在相同的错误。

来自 3.1.0 文件夹的日志文件:

0 投票
1 回答
33 浏览

heritrix - 如何正确配置我的爬虫程序 crawl-beans.cxml

当我开始爬行时,我意识到它应该花费更多的时间但仍未完成

我试图检查进程 pid 以查看另一个终端发生了什么,但输出对我来说并不清楚,它们都是这种形式:

由 Not SEED、Prod 或 Cat 移除 **** https://(希望被抓取页面的 URL)

也许如果有人理解他们,让我知道会很酷!如果有人知道如何处理它,我高度怀疑这是爬行配置代码(crawl-beans.cxml)请告诉我

0 投票
0 回答
12 浏览

heritrix - 从 Heritrix 网络爬虫获取 URL 图

对于我正在做的一门课程,我需要使用某些算法分析图表。我正在尝试使用网络爬虫Heritrix 3获取图表。

问题是我无法在输出文件中找到创建此类图表所需的信息。

我试图做的事情是不可能的,还是 Heritrix 中有一些功能可以做到这一点?