“heritrix”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

72 浏览

java - Heritrix 3.2.0 活动线程中的 MirrorWriterProcessor

当我使用 MirrorWriterProcessor 类时，我一直只得到 1 个活动线程，因为它不会接受例如增加最大活动线程的 de-outcomment 属性。我根本不是Java程序员，所以如果有人可以帮助我，我会很高兴。

java heritrix

2014-11-10T23:20:24.990

0 投票

0 回答

116 浏览

java - Heritrix：如何在单个域上每秒获得更多 uri？

如何使用 Heritrix 3.2.0 获得每个域的更多 uri/sec？我已经将并行选项设置为 maxToeThreads 之类的最大数量，并且通常在单个域爬网中它仍然停留在 5 个活动线程上。

2014-11-16T00:10:29.830

0 投票

1 回答

258 浏览

ssl - 使用python的请求模块抓取一个heritrix页面

我想使用 pythons requests模块抓取 Heritrix 主页。当我尝试在 chrome 上打开此页面时，出现错误：

但我可以进入页面。当我尝试使用requests抓取同一页面时，出现 SSL 错误，经过一番挖掘，我使用了 SO questionr=requests.get(url,auth=(username, password),verify=False中的以下代码：那是给我以下警告/usr/lib/python2.6/site-packages/requests/packages/urllib3/connectionpool.py:734: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.org/en/latest/security.html，并返回 401 状态码。如何解决这个问题？

ssl python-requests heritrix

2015-02-20T19:34:23.963

0 投票

1 回答

386 浏览

java - Heritrix3.2.0 是否能够爬取基于 ajax 的网站？

是否可以使用 Heritrix-3.2.0 抓取基于 ajax 的网站？

java web-crawler heritrix

2015-04-05T15:27:05.863

0 投票

0 回答

126 浏览

java - Heritrix3 将图像、视频和档案排除在爬网之外

我正在使用 Heritrix3，我们试图从使用 a 抓取的 URI 集中排除图像、视频和档案MatchesListRegexDecideRule，我已将其设置在 crawler-beans.cxml 配置文件中，该文件在创建作业时在启动时创建：

但是，这似乎不起作用：图像仍然出现在爬网日志中。有人对为什么会发生这种情况有任何建议吗？

java xml heritrix

2015-05-07T07:35:41.190

0 投票

1 回答

99 浏览

linux - 无法在 Heritrix3 Web Crawler 中运行并行作业

我在Heritrix 3.2.0中创建了 2 个作业，并在构建后启动了这两个作业，都开始运行，但 15 到 20 秒后，一个作业停止，另一个继续，当一个作业停止时，作业日志中的状态如下：

2015-05-12T06:40:33.715Z 信息为空 20150512063923

因此无法对作业进行多处理。如何解决？

linux bash web-crawler heritrix

2015-05-12T06:51:13.790

0 投票

1 回答

543 浏览

java - Heritrix 单站点抓取，包括所需的异地资产

我相信需要帮助编译 Heritrix 决定规则，尽管我对其他 Heritrix 建议持开放态度：https ://webarchive.jira.com/wiki/display/Heritrix/Configuring+Crawl+Scope+Using+DecideRules

我需要抓取网站的整个副本（在 crawler-beans.cxml 种子列表中），但不抓取任何外部（场外）页面。应下载呈现当前网站所需的任何外部资源，但不要跟随任何指向场外页面的链接 - 只有当前页面/域的资产。

例如，渲染页面所需的 CDN 内容可能托管在外部域（可能是 AWS 或 Cloudflare）上，因此我需要下载该内容，并关注所有域内链接，但不要关注任何链接到当前域范围之外的页面。

java web-crawler heritrix

2015-05-26T15:49:06.880

0 投票

1 回答

576 浏览

heritrix - Heritrix：仅忽略一个站点的 robots.txt

我正在使用 Heritrix 3.2.0。

我想从一个站点获取所有内容，包括通常受 robots.txt 保护的页面。

但是，我不想忽略其他网站的 robots.txt 。（不希望 Facebook 或 Google 生我们的气，你知道的）

我试图设置一个覆盖层，非常类似于 3.0/3.1 手册中的那个（在帖子的末尾）

作业构建没有注释，但似乎没有触发覆盖，仍然遵守本地 robots.txt。

那么，我做错了什么？

斯蒂格黑默

heritrix

2015-06-09T08:49:31.290

0 投票

1 回答

120 浏览

java - Heritrix 在条件注释块中找不到 CSS 文件

问题/证据

Heritrix 没有检测到在一个字符串中打开和关闭的条件注释中是否存在文件，例如：

然而，像这样的标准条件块可以正常工作：

我已经确定问题出在评论的这一部分：

在测试用例中删除该块然后允许 Heritrix 发现 css 文件。

问题

我应该如何克服这个？它是 Heritrix 错误，还是我们可以通过爬虫声明解决的问题？我知道评论块是用来“欺骗”某些浏览器版本的，更改网站代码不是一种选择。Heritrix 可以适应否定评论吗？

java web-crawler heritrix

2015-06-18T10:19:08.890

0 投票

1 回答

683 浏览

web-crawler - Heritrix 内容过滤

我需要从几个不同的网站（主要是 HTML 页面和 PDF 文档）聚合内容。我目前正在试验 Heritrix (3.2.0)，看看它是否能满足我的需求。

虽然文档非常详细，但引擎似乎并没有像我预期的那样工作。我已经设置了一些简单的工作，并以多种不同的方式配置了 DecideRules，但无论我做什么，我发现 Heritrix 要么拉下太多内容，要么什么都没有。

这是我正在尝试做的一个例子。我将 Heritrix 指向这样的 URL...example.com/news/speeches。这是一个网页，其中包含一个 HTML 表格，其中包含指向各个演讲的链接（例如..example.com/news/speech/speech1.html、xample.com/news/speech/speech2.html 等）。我真的只需要比父页面低一级的 HTML 和 PDF 文档。我想防止 Heritrix 导航超过 1 级，如果不在 example.com 域上的此特定路径下方，防止它拉取内容，防止它导航到另一个域，并将其限制为 html 和 pdf 内容。

以下配置是我认为应该工作但没有

我希望我的爬虫只下载十几个 html 文档，因为这就是 /speech 路径中包含的所有内容。大约半小时后，我停止了爬网，因为它正在下载 800 多个文档，因为我发现它正在向后遍历到父级路径。我还尝试了 RegEx 规则，但没有成功。任何帮助，将不胜感激。

web-crawler heritrix

2015-08-14T18:27:15.783

问题标签 [heritrix]

Reference