问题标签 [heritrix]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

42 问题

0 投票

1 回答

496 浏览

java - Java 和 Heritrix 3.1.x：Web 内容解析？

由于 Heritrix 3.x 的开发人员文档在很大程度上已经过时（其中大部分与 Heritrix 1.x 有关，因为大多数类已更改或代码已被大幅重写/重构），任何人都可以指出相关的处理实际网页内容提取的系统的类（或类）？

我想要做的是获取Heritrix即将抓取的网页内容，然后将分类器应用于网页内容？（分析结构特征等）我认为这个功能可能分布在 ContentExtractor 类及其许多子类中，但我想做的是找到我拥有整个网页内容或在一个可读/可解析的流。Heritrix 应用正则表达式的内容（html）在哪里（以查找链接、某些文件类型等）？

2013-07-19T15:54:48.267

0 投票

1 回答

529 浏览

spring - Heritrix 的 HtmlFormCredential 和 CredentialStore 的使用

我正在尝试向我的 Heritrix 配置添加身份验证。我的 .cxml 文件具有以下内容：

我还将 FetchHTTP 和 PreconditionEnforcer 的日志记录设置为 FINE，但似乎没有发生任何事情。任何一个模块都没有出现日志记录输出，并且被拉下的页面显然是未经身份验证的视图的页面。我发现关于如何使用 CredentialStore 有点不清楚，考虑到我已经花了很多时间阅读规范，这些规范充其量在身份验证和网站方面是不完整的。任何人都知道如何在 Heritrix 中设置身份验证，请帮助。

更新： 日志不起作用，因为 eclipse 不知道我的 HERITRIX_HOME 变量，所以它甚至从未读取日志配置文件。我将 bean exampleCredential 的域属性从：

到：

现在登录页面已入队，但现在记录器为所有排队的文件吐出以下内容：

并且没有下载或抓取任何文件。因此，尽管我取得了进步，但它并没有把我带到任何地方。没有太多的日志信息可以关闭。

spring web-crawler heritrix

2013-07-19T22:33:10.537

0 投票

1 回答

284 浏览

web-crawler - 如何从 heritrix 爬网中排除除链接/外链之外的所有内容？

我正在与 Heritrix 合作，但我有点难以管理它的输出。

我正在研究 PageRank，我需要 Heritrix 生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链接。

我想（尽可能）避免后处理。是否可以通过指定应包含哪些内容和不应包含哪些内容来自定义 Heritrix 的输出？我已经尝试修改 cxml 文件，但输出中仍然有很多无用的信息（如内容页面）。

web-crawler heritrix

2013-07-25T12:24:58.350

0 投票

1 回答

908 浏览

java - 在 Heritrix 爬虫工具中如何从爬取的 url 中提取内容

我是 heritrix 工具的新手，现在我可以从 www 抓取网页，现在想要提取抓取的 url 的内容。

请帮助我任何人。请。在此先感谢。

java spring heritrix

2013-08-28T11:04:01.943

0 投票

1 回答

141 浏览

java - Heritrix 检索 gzip CSS + JS

当我运行 Heritrix 时，我的网络服务器 gzip 的 JS + CSS 资产。

这是一个问题，因为当通过 Wayback 加载 .warc 文件时，它仍然被编码为 gzip。

我无法在浏览器中正确查看 .css + .js 文件。

java javascript css heritrix

2013-09-17T19:04:22.197

0 投票

1 回答

513 浏览

java - 在 Java 上运行 web-spider

在 Windovs 8.1 64 位上启动网络蜘蛛。试图不连接额外的库，最终爬错了。

我应该在哪里输入密码并登录？

java windows web web-crawler heritrix

2013-12-08T20:05:31.820

0 投票

1 回答

999 浏览

java - 如何使用带有 Heritrix 3.1 的 HeaderedArchiveRecord 循环浏览 WARC 文件

我正在使用 Heritrix 3.1 Java 库。为了清楚起见，我对抓取不感兴趣，而只对处理来自另一个团队生成的压缩 WARC (*.warc.gz) 文件的数据感兴趣。对于存储在 WARC 文件中的每个 WWW 文档，我需要一些来自记录头的信息，一些来自 HTTP 头的信息，以及 HTTP 有效负载/正文的完整内容，所以我认为我需要使用 HeaderedArchiveRecord 类。

当我运行它时，我得到了一个异常

我的第 754 行如上所示。我的makeDocumentHeritrix(...)方法中的代码曾经引发类似的异常，但Failed to find WARC_MAGIC直到我将行hrecord.skipHttpHeader();移到它之前Header[] httpHeader = record.getContentHeaders();。

我试图在网上搜索代码示例以循环遍历 WARC 文件中的记录，但没有找到任何代码示例，我记得几年前我使用 heritrix 1.14 做类似的事情时，我不得不做一些奇怪的事情来操作文件中的偏移量，但是 WARCReader 中的相关方法现在都是私有的或受保护的，所以我不希望用较新的库来做这件事。

java heritrix warc

2014-02-09T20:36:40.690

0 投票

1 回答

156 浏览

http - 了解爬网输出中 PDF 的“内容类型”

使用heritrix，我抓取了一个包含一些PDF文件的网站。爬取日志显示 pdf 链接的内容类型为“application/pdf”，而 .warc 文件中的响应（爬取输出）显示内容类型为“application/http”以及“application/pdf”（请参见下面的示例:)。

我不明白这是怎么回事。谁能解释一下？

http pdf web-crawler content-type heritrix

2014-05-29T11:33:47.180

0 投票

1 回答

263 浏览

regex - Heritrix DecidingScope 正则表达式 URI

我正在使用 HERITRIX 抓取一个名为 octetfarm.com 的网站。我希望爬虫对 URI（或 URL）执行正则表达式，如果存在字符串“octetfarm”，则爬虫应该接受它。

我制定了两条规则

1 MatchesRegExpDecideRule "ACCEPT" 和正则表达式 " .octetfarm. "

2 拒绝默认

当我在 octetfarm.com（我的非常简单的测试站点）上启动爬虫时，第一页只是一个链接，如下所示：

为什么爬虫不遵循包含字符串“octetfarm”的简单链接。

这是我在 xml 中的规则

regex heritrix

2014-10-01T03:05:40.800

0 投票

1 回答

229 浏览

spring - Heritrix 3.2.0：编写和添加扩展

我目前正在使用 Heritrix，并且我有一个标准安装（这个：http ://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ ）并且工作正常。

但是现在我想编写并添加我自己的扩展，例如更改应该被抓取的 url 的优先级或只是一个简单的提取器。我可以检查现有提取器的 Java 代码，但如何将其添加到爬虫中？

我试图将我的 java 测试项目导出到一个 jar 文件中，并将这个文件放在 Heritrix 的 lib 文件夹中（其他库所在的位置）。此外，我在工作的 cxml 文件中添加了一个 bean。

但是在开始之后我得到了这个错误：2014-11-07T19:51:40.296Z SEVERE 无法实例化 bean 类 [myModule.TestClass]: No default constructor found; 嵌套异常是 java.lang.NoSuchMethodException: myModule.TestClass.(); 无法创建 bean 'myModule.TestClass#0'

它只是将 extractorHTML 重命名并在一个新项目中并导出到一个 jar 文件。

知道有什么问题吗？我阅读了所有文档，但只有说明如何编写扩展而不是如何添加它？

问候和谢谢你:-)

spring jar web-crawler heritrix

2014-11-07T20:59:39.953

1 2 3 4 5 6 7 8 9 10

问题标签 [heritrix]

1 MatchesRegExpDecideRule "ACCEPT" 和正则表达式 " .octetfarm. "

2 拒绝默认

Reference