问题标签 [heritrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
496 浏览

java - Java 和 Heritrix 3.1.x:Web 内容解析?

由于 Heritrix 3.x 的开发人员文档在很大程度上已经过时(其中大部分与 Heritrix 1.x 有关,因为大多数类已更改或代码已被大幅重写/重构),任何人都可以指出相关的处理实际网页内容提取的系统的类(或类)?

我想要做的是获取Heritrix即将抓取的网页内容,然后将分类器应用于网页内容?(分析结构特征等)我认为这个功能可能分布在 ContentExtractor 类及其许多子类中,但我想做的是找到我拥有整个网页内容或在一个可读/可解析的流。Heritrix 应用正则表达式的内容(html)在哪里(以查找链接、某些文件类型等)?

0 投票
1 回答
529 浏览

spring - Heritrix 的 HtmlFormCredential 和 CredentialStore 的使用

我正在尝试向我的 Heritrix 配置添加身份验证。我的 .cxml 文件具有以下内容:

我还将 FetchHTTP 和 PreconditionEnforcer 的日志记录设置为 FINE,但似乎没有发生任何事情。任何一个模块都没有出现日志记录输出,并且被拉下的页面显然是未经身份验证的视图的页面。我发现关于如何使用 CredentialStore 有点不清楚,考虑到我已经花了很多时间阅读规范,这些规范充其量在身份验证和网站方面是不完整的。任何人都知道如何在 Heritrix 中设置身份验证,请帮助。

更新: 日志不起作用,因为 eclipse 不知道我的 HERITRIX_HOME 变量,所以它甚至从未读取日志配置文件。我将 bean exampleCredential 的域属性从:

到:

现在登录页面已入队,但现在记录器为所有排队的文件吐出以下内容:

并且没有下载或抓取任何文件。因此,尽管我取得了进步,但它并没有把我带到任何地方。没有太多的日志信息可以关闭。

0 投票
1 回答
284 浏览

web-crawler - 如何从 heritrix 爬网中排除除链接/外链之外的所有内容?

我正在与 Heritrix 合作,但我有点难以管理它的输出。

我正在研究 PageRank,我需要 Heritrix 生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链接。

我想(尽可能)避免后处理。是否可以通过指定应包含哪些内容和不应包含哪些内容来自定义 Heritrix 的输出?我已经尝试修改 cxml 文件,但输出中仍然有很多无用的信息(如内容页面)。

0 投票
1 回答
908 浏览

java - 在 Heritrix 爬虫工具中如何从爬取的 url 中提取内容

我是 heritrix 工具的新手,现在我可以从 www 抓取网页,现在想要提取抓取的 url 的内容。

请帮助我任何人。请。在此先感谢。

0 投票
1 回答
141 浏览

java - Heritrix 检索 gzip CSS + JS

当我运行 Heritrix 时,我的网络服务器 gzip 的 JS + CSS 资产。

这是一个问题,因为当通过 Wayback 加载 .warc 文件时,它仍然被编码为 gzip。

我无法在浏览器中正确查看 .css + .js 文件。

0 投票
1 回答
513 浏览

java - 在 Java 上运行 web-spider

在 Windovs 8.1 64 位上启动网络蜘蛛。试图不连接额外的库,最终爬错了。

我应该在哪里输入密码并登录?

0 投票
1 回答
999 浏览

java - 如何使用带有 Heritrix 3.1 的 HeaderedArchiveRecord 循环浏览 WARC 文件

我正在使用 Heritrix 3.1 Java 库。为了清楚起见,我对抓取不感兴趣,而只对处理来自另一个团队生成的压缩 WARC (*.warc.gz) 文件的数据感兴趣。对于存储在 WARC 文件中的每个 WWW 文档,我需要一些来自记录头的信息,一些来自 HTTP 头的信息,以及 HTTP 有效负载/正文的完整内容,所以我认为我需要使用 HeaderedArchiveRecord 类。

当我运行它时,我得到了一个异常

我的第 754 行如上所示。我的makeDocumentHeritrix(...)方法中的代码曾经引发类似的异常,但Failed to find WARC_MAGIC直到我将行hrecord.skipHttpHeader();移到它之前Header[] httpHeader = record.getContentHeaders();

我试图在网上搜索代码示例以循环遍历 WARC 文件中的记录,但没有找到任何代码示例,我记得几年前我使用 heritrix 1.14 做类似的事情时,我不得不做一些奇怪的事情来操作文件中的偏移量,但是 WARCReader 中的相关方法现在都是私有的或受保护的,所以我不希望用较新的库来做这件事。

0 投票
1 回答
156 浏览

http - 了解爬网输出中 PDF 的“内容类型”

使用heritrix,我抓取了一个包含一些PDF文件的网站。爬取日志显示 pdf 链接的内容类型为“application/pdf”,而 .warc 文件中的响应(爬取输出)显示内容类型为“application/http”以及“application/pdf”(请参见下面的示例:)。

我不明白这是怎么回事。谁能解释一下?

0 投票
1 回答
263 浏览

regex - Heritrix DecidingScope 正则表达式 URI

我正在使用 HERITRIX 抓取一个名为 octetfarm.com 的网站。我希望爬虫对 URI(或 URL)执行正则表达式,如果存在字符串“octetfarm”,则爬虫应该接受它。

我制定了两条规则

1 MatchesRegExpDecideRule "ACCEPT" 和正则表达式 " .octetfarm. "

2 拒绝默认

当我在 octetfarm.com(我的非常简单的测试站点)上启动爬虫时,第一页只是一个链接,如下所示:

为什么爬虫不遵循包含字符串“octetfarm”的简单链接。

这是我在 xml 中的规则

0 投票
1 回答
229 浏览

spring - Heritrix 3.2.0:编写和添加扩展

我目前正在使用 Heritrix,并且我有一个标准安装(这个:http ://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ )并且工作正常。

但是现在我想编写并添加我自己的扩展,例如更改应该被抓取的 url 的优先级或只是一个简单的提取器。我可以检查现有提取器的 Java 代码,但如何将其添加到爬虫中?

我试图将我的 java 测试项目导出到一个 jar 文件中,并将这个文件放在 Heritrix 的 lib 文件夹中(其他库所在的位置)。此外,我在工作的 cxml 文件中添加了一个 bean。

但是在开始之后我得到了这个错误:2014-11-07T19:51:40.296Z SEVERE 无法实例化 bean 类 [myModule.TestClass]: No default constructor found; 嵌套异常是 java.lang.NoSuchMethodException: myModule.TestClass.(); 无法创建 bean 'myModule.TestClass#0'

它只是将 extractorHTML 重命名并在一个新项目中并导出到一个 jar 文件。

知道有什么问题吗?我阅读了所有文档,但只有说明如何编写扩展而不是如何添加它?

问候和谢谢你:-)