问题标签 [heritrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Heritrix 3.2.0 活动线程中的 MirrorWriterProcessor
当我使用 MirrorWriterProcessor 类时,我一直只得到 1 个活动线程,因为它不会接受例如增加最大活动线程的 de-outcomment 属性。我根本不是Java程序员,所以如果有人可以帮助我,我会很高兴。
java - Heritrix:如何在单个域上每秒获得更多 uri?
如何使用 Heritrix 3.2.0 获得每个域的更多 uri/sec?我已经将并行选项设置为 maxToeThreads 之类的最大数量,并且通常在单个域爬网中它仍然停留在 5 个活动线程上。
ssl - 使用python的请求模块抓取一个heritrix页面
我想使用 pythons requests模块抓取 Heritrix 主页。当我尝试在 chrome 上打开此页面时,出现错误:
但我可以进入页面。当我尝试使用requests抓取同一页面时,出现 SSL 错误,经过一番挖掘,我使用了 SO questionr=requests.get(url,auth=(username, password),verify=False
中的以下代码:那是给我以下警告/usr/lib/python2.6/site-packages/requests/packages/urllib3/connectionpool.py:734: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.org/en/latest/security.html
,并返回 401 状态码。如何解决这个问题?
java - Heritrix3.2.0 是否能够爬取基于 ajax 的网站?
是否可以使用 Heritrix-3.2.0 抓取基于 ajax 的网站?
java - Heritrix3 将图像、视频和档案排除在爬网之外
我正在使用 Heritrix3,我们试图从使用 a 抓取的 URI 集中排除图像、视频和档案MatchesListRegexDecideRule
,我已将其设置在 crawler-beans.cxml 配置文件中,该文件在创建作业时在启动时创建:
但是,这似乎不起作用:图像仍然出现在爬网日志中。有人对为什么会发生这种情况有任何建议吗?
linux - 无法在 Heritrix3 Web Crawler 中运行并行作业
我在Heritrix 3.2.0中创建了 2 个作业,并在构建后启动了这两个作业,都开始运行,但 15 到 20 秒后,一个作业停止,另一个继续,当一个作业停止时,作业日志中的状态如下:
2015-05-12T06:40:33.715Z 信息为空 20150512063923
因此无法对作业进行多处理。如何解决?
java - Heritrix 单站点抓取,包括所需的异地资产
我相信需要帮助编译 Heritrix 决定规则,尽管我对其他 Heritrix 建议持开放态度:https ://webarchive.jira.com/wiki/display/Heritrix/Configuring+Crawl+Scope+Using+DecideRules
我需要抓取网站的整个副本(在 crawler-beans.cxml 种子列表中),但不抓取任何外部(场外)页面。应下载呈现当前网站所需的任何外部资源,但不要跟随任何指向场外页面的链接 - 只有当前页面/域的资产。
例如,渲染页面所需的 CDN 内容可能托管在外部域(可能是 AWS 或 Cloudflare)上,因此我需要下载该内容,并关注所有域内链接,但不要关注任何链接到当前域范围之外的页面。
heritrix - Heritrix:仅忽略一个站点的 robots.txt
我正在使用 Heritrix 3.2.0。
我想从一个站点获取所有内容,包括通常受 robots.txt 保护的页面。
但是,我不想忽略其他网站的 robots.txt 。(不希望 Facebook 或 Google 生我们的气,你知道的)
我试图设置一个覆盖层,非常类似于 3.0/3.1 手册中的那个(在帖子的末尾)
作业构建没有注释,但似乎没有触发覆盖,仍然遵守本地 robots.txt。
那么,我做错了什么?
斯蒂格黑默
java - Heritrix 在条件注释块中找不到 CSS 文件
问题/证据
Heritrix 没有检测到在一个字符串中打开和关闭的条件注释中是否存在文件,例如:
然而,像这样的标准条件块可以正常工作:
我已经确定问题出在评论的这一部分:
在测试用例中删除该块然后允许 Heritrix 发现 css 文件。
问题
我应该如何克服这个?它是 Heritrix 错误,还是我们可以通过爬虫声明解决的问题?我知道评论块是用来“欺骗”某些浏览器版本的,更改网站代码不是一种选择。Heritrix 可以适应否定评论吗?
web-crawler - Heritrix 内容过滤
我需要从几个不同的网站(主要是 HTML 页面和 PDF 文档)聚合内容。我目前正在试验 Heritrix (3.2.0),看看它是否能满足我的需求。
虽然文档非常详细,但引擎似乎并没有像我预期的那样工作。我已经设置了一些简单的工作,并以多种不同的方式配置了 DecideRules,但无论我做什么,我发现 Heritrix 要么拉下太多内容,要么什么都没有。
这是我正在尝试做的一个例子。我将 Heritrix 指向这样的 URL...example.com/news/speeches。这是一个网页,其中包含一个 HTML 表格,其中包含指向各个演讲的链接(例如..example.com/news/speech/speech1.html、xample.com/news/speech/speech2.html 等)。我真的只需要比父页面低一级的 HTML 和 PDF 文档。我想防止 Heritrix 导航超过 1 级,如果不在 example.com 域上的此特定路径下方,防止它拉取内容,防止它导航到另一个域,并将其限制为 html 和 pdf 内容。
以下配置是我认为应该工作但没有
我希望我的爬虫只下载十几个 html 文档,因为这就是 /speech 路径中包含的所有内容。大约半小时后,我停止了爬网,因为它正在下载 800 多个文档,因为我发现它正在向后遍历到父级路径。我还尝试了 RegEx 规则,但没有成功。任何帮助,将不胜感激。