问题标签 [heritrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2941 浏览

indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容?

上:Heritrix用例有一个“仅存储成功的 HTML 页面”的用例

我的问题:我不知道如何在我的 cxml 文件中实现它。特别是:将 ContentTypeRegExpFilter 添加到 ARCWriterProcessor => 将其正则表达式设置设置为 text/html.*。...示例 cxml 文件中没有 ContentTypeRegExpFilter。

0 投票
1 回答
1679 浏览

java - 如何将 maven.xml 升级到 pom.xml?

我正在使用Heritrix的 1.14.4 分支,不幸的是我暂时被困在该分支中。我遇到的问题是,它的 maven.xml 依赖于 Maven 1.1,它太老了甚至找不到依赖项来构建它。

此外,因为它是 maven.xml 而不是 pom.xml,所以没有相当旧或最近的 IDE 可以加载项目 - 我必须手动运行“maven”脚本来构建它。

我会坦率地承认我对 Java 和 maven 相当无知,但肯定有人必须对我如何升级到更新版本的 Maven 有一些指示。

帮帮我欧比旺!你是我唯一的希望!

尴尬的5分钟后更新..

在浪费了 3 个小时之后,我在这里偶然发现了答案

  • 安装maven2
  • cd 项目目录
  • mvn one:convert(自动将 1.x 转换为 2.x)
  • mvn3 应该是向后兼容的.. 所以我应该好好去!

几个小时后..现实开始了..

升级到 maven-2 或 maven-3 引入了一个新的新模块,这些模块与从我的 maven.xml 升级到 pom.xml 的内容完全不同。此外,“项目”没有 pom.xml,这似乎也有点麻烦。

所以,如果我想这样玩,我必须不断地玩——升级我的模块,格式化所有东西,就好像它是一个新项目一样。升级技术让我有了一点进展,但我认为这需要一段时间。接受蒂姆的迅速而详细的回答,再次感谢。我在某种程度上意识到“海家伙让 maven 为我工作?” 有点像要求某人修复您的makefile..如果它被破坏了,它就被破坏了。:D

0 投票
1 回答
486 浏览

solr - 从 Lucene Index 更新 Solr

我目前正在做一个网络归档项目。基本上,我们尝试做的是归档一组网站(使用heritrix crawler)并通过 Web 界面提供对归档内容的访问。

我们还提供整个档案的全文搜索。目前,索引是使用nutchwax(apache Nutch 的定制版本,针对索引.warc文件量身定制,由heritrix生成)生成的。Nutchwax 转储出一个 Lucene 索引并在 Solr 中使用它,所要做的就是生成一个正确的模式。

这一切都完成了,它应该像它应该的那样运行,但是存档不是静态的,并且会.warc定期生成新文件。

我现在能做的是生成一个新索引,将它与现有索引合并,然后将其导入回 Solr。但是,要做到这一点,必须重新启动 Solr。如果索引可以“即时”更新,那就太好了,因为通常是这种情况(通过 http 请求更新索引时)

有谁知道,如何做到这一点?我的第一个.xml尝试是从 Lucene 索引文件中生成文件并将它们发布到 Solr。这值得一试还是有更优雅的解决方案?

0 投票
1 回答
774 浏览

java - 是否可以将 Nutch Crawler 与我现有的 Lucene 项目集成?

我已经有一个使用 Lucene3.5 的项目。

现在我需要提供网络搜索功能,但我不想导入整个 Nutch 项目。

所以我想知道,可能我只能使用 Nutch 的爬虫部分来爬取网站并将它们索引到 Lucene 样式中。

然后使用我现有的 Lucene 搜索器搜索索引文件。

是否可以这样做或者您有什么建议(Heritrix 怎么样)?

0 投票
2 回答
330 浏览

linux - 如何远程使用 Heritrix 的 webUI

您好,我一直在玩 Heritrix,并希望将其包含在网站上/允许远程 Web 访问它。

我有一个基于 Linux 的服务器,其中有一个托管网页,并且我构建了一个 Heritrix 版本。

问题是我现在在家,希望能够通过托管网页提供对 Heritrix 中 webUI 的访问。

我查看了手册并发现了将其绑定到远程主机的 -b 命令,但是文档可能会更好。

所以我希望的是关于这个命令如何工作以及是否可以将 webUI 绑定到现有网页的一些解释/详细说明

提前感谢您的时间

(这里是我工作的文档的链接:https ://webarchive.jira.com/wiki/display/Heritrix/HOWTO+Launch+Heritrix )

0 投票
0 回答
329 浏览

java - 使用 ARCReader 从 arc 文件(commoncrawl 数据集)中读取

好吧,这个问题听起来可能很愚蠢,但我做了几个小时的研究来找到解决方案,但如果有人知道,我做不到,那太好了!!!

我成功读取了 arc 文件(来自 commoncrawl 数据集)。随着arcHeader.getUrl();我得到所有的网址。但是我不明白,是否存在来自该特定 URL 的“传出”链接,如果存在,如何获取这些链接?

[PS] 通过“传出”,我的意思是,在整个页面中,它包含哪个 URL,例如广告、内容等。该 commoncrawl arc 文件是否包含,如果是,如何获取这些?

提前致谢!

编辑:我解决了这个问题,阅读了 HTML 内容并得到了所有!没那么难!

0 投票
1 回答
266 浏览

cxml - Heritrix:如何从镜像中排除除 pdf 之外的所有内容?

我找到了这个主题如何从 heritrix 爬网中排除除 text/html 之外的所有内容?

我已经把 bean 改成了这个

但是 heritrix 仍然将每个文件保存到镜像目录。

0 投票
1 回答
810 浏览

java - 对于有关构建搜索引擎的学术项目,什么是好的基于 Java 的爬虫?

好的,所以我最近两天一直在寻找适合我需要的爬虫。我想建立一个搜索引擎,我想自己做索引。这将是一个学术项目的一部分。虽然我没有爬取整个网络的处理能力,但我想使用一个实际上能够做到这一点的爬虫。所以我正在寻找的是一个爬虫:

  1. 支持多线程
  2. 不错过很多链接
  3. 让我有机会(重写一个方法,以便我可以)访问爬取的页面的内容,以便我可以保存它、解析它等。
  4. 服从 robots.txt 文件
  5. 抓取 html 页面(还有 php、jsp 等)。
  6. 识别具有相同内容的页面并且只返回一个。

它不需要(必须)做的是:

  1. 支持页面排名。
  2. 指数结果。
  3. 抓取图像/音频/视频/pdf等。

我发现了一些非常接近我需要的库/项目,但据我所知,它们并不支持我需要的一切:

  1. 首先我遇到了crawler4j。这个唯一的问题是它不支持每个主机的礼貌间隔。因此,通过将礼貌级别设置为 1000 毫秒的合适值,会使爬虫变得非常缓慢。
  2. 我还找到了 flaxcrawler。这确实支持多线程,但在网页中查找和跟踪链接似乎存在问题。

我还研究了更完整和更复杂的“爬虫”,例如 Heritrix 和 Nutch。虽然我不太擅长处理更复杂的东西,但如果我确定它能够完成我需要它做的事情,我肯定愿意使用它:抓取网络并给我所有页面以便我可以阅读他们。

长话短说:我正在寻找一个爬虫,它可以非常快速地浏览网络上的所有页面,并让我有机会对它们做一些事情。

0 投票
1 回答
475 浏览

heritrix - 无法运行 heritrix 作业

我是 Heritrix 3.1.1 的新手。我在启动 Heritrix 后运行作业时收到一些错误消息。

我的工作配置:

metadata.operatorContactUrl="http://localhost"
metadata.jobName=basic
metadata.description=从有用的默认值开始的基本爬取

种子.textSource.value
http://www.sina.com.cn

当我在控制台上运行作业时:我收到错误消息:

0 投票
1 回答
250 浏览

spring - 在 Heritrix 3.1.0 中更改 MirrorWriterProcessor 的路径

我正在使用 Heritrix 3.1.0 爬行。我正在尝试使用 MirrorWriterProcessor 保存文件。但是,此选项在 crawler-beans.cxml 中不可用。

我所做的是将“warcWriter”“org.archive.modules.writer.WARCWriterProcessor”替换为“org.archive.modules.writer.MirrorWriterProcessor”

但是,此处理器将镜像内容写入 $HERITRIX_HOME/mirror

我将“路径”配置为“${launchId}/mirror”,希望Heritrix将镜像目录写入job目录下。

我应该怎么做才能将 MirrorWriterProcessor 的路径更改为作业目录下?