“heritrix”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

2941 浏览

indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容？

上：Heritrix用例有一个“仅存储成功的 HTML 页面”的用例

我的问题：我不知道如何在我的 cxml 文件中实现它。特别是：将 ContentTypeRegExpFilter 添加到 ARCWriterProcessor => 将其正则表达式设置设置为 text/html.*。...示例 cxml 文件中没有 ContentTypeRegExpFilter。

2010-08-16T13:53:17.093

0 投票

1 回答

1679 浏览

java - 如何将 maven.xml 升级到 pom.xml？

我正在使用Heritrix的 1.14.4 分支，不幸的是我暂时被困在该分支中。我遇到的问题是，它的 maven.xml 依赖于 Maven 1.1，它太老了甚至找不到依赖项来构建它。

此外，因为它是 maven.xml 而不是 pom.xml，所以没有相当旧或最近的 IDE 可以加载项目 - 我必须手动运行“maven”脚本来构建它。

我会坦率地承认我对 Java 和 maven 相当无知，但肯定有人必须对我如何升级到更新版本的 Maven 有一些指示。

帮帮我欧比旺！你是我唯一的希望！

尴尬的5分钟后更新..

在浪费了 3 个小时之后，我在这里偶然发现了答案

安装maven2
cd 项目目录
mvn one:convert（自动将 1.x 转换为 2.x）
mvn3 应该是向后兼容的.. 所以我应该好好去！

几个小时后..现实开始了..

升级到 maven-2 或 maven-3 引入了一个新的新模块，这些模块与从我的 maven.xml 升级到 pom.xml 的内容完全不同。此外，“项目”没有 pom.xml，这似乎也有点麻烦。

所以，如果我想这样玩，我必须不断地玩——升级我的模块，格式化所有东西，就好像它是一个新项目一样。升级技术让我有了一点进展，但我认为这需要一段时间。接受蒂姆的迅速而详细的回答，再次感谢。我在某种程度上意识到“海家伙让 maven 为我工作？” 有点像要求某人修复您的makefile..如果它被破坏了，它就被破坏了。:D

java maven pom.xml heritrix

2012-01-25T02:44:47.393

0 投票

1 回答

486 浏览

solr - 从 Lucene Index 更新 Solr

我目前正在做一个网络归档项目。基本上，我们尝试做的是归档一组网站（使用heritrix crawler）并通过 Web 界面提供对归档内容的访问。

我们还提供整个档案的全文搜索。目前，索引是使用nutchwax（apache Nutch 的定制版本，针对索引.warc文件量身定制，由heritrix生成）生成的。Nutchwax 转储出一个 Lucene 索引并在 Solr 中使用它，所要做的就是生成一个正确的模式。

这一切都完成了，它应该像它应该的那样运行，但是存档不是静态的，并且会.warc定期生成新文件。

我现在能做的是生成一个新索引，将它与现有索引合并，然后将其导入回 Solr。但是，要做到这一点，必须重新启动 Solr。如果索引可以“即时”更新，那就太好了，因为通常是这种情况（通过 http 请求更新索引时）

有谁知道，如何做到这一点？我的第一个.xml尝试是从 Lucene 索引文件中生成文件并将它们发布到 Solr。这值得一试还是有更优雅的解决方案？

solr lucene indexing heritrix

2012-03-27T13:09:23.090

0 投票

1 回答

774 浏览

java - 是否可以将 Nutch Crawler 与我现有的 Lucene 项目集成？

我已经有一个使用 Lucene3.5 的项目。

现在我需要提供网络搜索功能，但我不想导入整个 Nutch 项目。

所以我想知道，可能我只能使用 Nutch 的爬虫部分来爬取网站并将它们索引到 Lucene 样式中。

然后使用我现有的 Lucene 搜索器搜索索引文件。

是否可以这样做或者您有什么建议（Heritrix 怎么样）？

java lucene web-crawler nutch heritrix

2012-04-06T07:30:37.670

0 投票

2 回答

330 浏览

linux - 如何远程使用 Heritrix 的 webUI

您好，我一直在玩 Heritrix，并希望将其包含在网站上/允许远程 Web 访问它。

我有一个基于 Linux 的服务器，其中有一个托管网页，并且我构建了一个 Heritrix 版本。

问题是我现在在家，希望能够通过托管网页提供对 Heritrix 中 webUI 的访问。

我查看了手册并发现了将其绑定到远程主机的 -b 命令，但是文档可能会更好。

所以我希望的是关于这个命令如何工作以及是否可以将 webUI 绑定到现有网页的一些解释/详细说明

提前感谢您的时间

（这里是我工作的文档的链接：https ://webarchive.jira.com/wiki/display/Heritrix/HOWTO+Launch+Heritrix ）

linux remote-access web-crawler heritrix

2012-10-05T00:39:14.603

0 投票

0 回答

329 浏览

java - 使用 ARCReader 从 arc 文件（commoncrawl 数据集）中读取

好吧，这个问题听起来可能很愚蠢，但我做了几个小时的研究来找到解决方案，但如果有人知道，我做不到，那太好了！！！

我成功读取了 arc 文件（来自 commoncrawl 数据集）。随着arcHeader.getUrl();我得到所有的网址。但是我不明白，是否存在来自该特定 URL 的“传出”链接，如果存在，如何获取这些链接？

[PS] 通过“传出”，我的意思是，在整个页面中，它包含哪个 URL，例如广告、内容等。该 commoncrawl arc 文件是否包含，如果是，如何获取这些？

提前致谢！

编辑：我解决了这个问题，阅读了 HTML 内容并得到了所有！没那么难！

java web-crawler heritrix

2012-11-15T21:52:26.367

0 投票

1 回答

266 浏览

cxml - Heritrix：如何从镜像中排除除 pdf 之外的所有内容？

我找到了这个主题如何从 heritrix 爬网中排除除 text/html 之外的所有内容？

我已经把 bean 改成了这个

但是 heritrix 仍然将每个文件保存到镜像目录。

cxml heritrix

2012-11-25T10:50:51.427

0 投票

1 回答

810 浏览

java - 对于有关构建搜索引擎的学术项目，什么是好的基于 Java 的爬虫？

好的，所以我最近两天一直在寻找适合我需要的爬虫。我想建立一个搜索引擎，我想自己做索引。这将是一个学术项目的一部分。虽然我没有爬取整个网络的处理能力，但我想使用一个实际上能够做到这一点的爬虫。所以我正在寻找的是一个爬虫：

支持多线程
不错过很多链接
让我有机会（重写一个方法，以便我可以）访问爬取的页面的内容，以便我可以保存它、解析它等。
服从 robots.txt 文件
抓取 html 页面（还有 php、jsp 等）。
识别具有相同内容的页面并且只返回一个。

它不需要（必须）做的是：

支持页面排名。
指数结果。
抓取图像/音频/视频/pdf等。

我发现了一些非常接近我需要的库/项目，但据我所知，它们并不支持我需要的一切：

首先我遇到了crawler4j。这个唯一的问题是它不支持每个主机的礼貌间隔。因此，通过将礼貌级别设置为 1000 毫秒的合适值，会使爬虫变得非常缓慢。
我还找到了 flaxcrawler。这确实支持多线程，但在网页中查找和跟踪链接似乎存在问题。

我还研究了更完整和更复杂的“爬虫”，例如 Heritrix 和 Nutch。虽然我不太擅长处理更复杂的东西，但如果我确定它能够完成我需要它做的事情，我肯定愿意使用它：抓取网络并给我所有页面以便我可以阅读他们。

长话短说：我正在寻找一个爬虫，它可以非常快速地浏览网络上的所有页面，并让我有机会对它们做一些事情。

java multithreading web-crawler nutch heritrix

2013-01-30T11:51:29.990

0 投票

1 回答

475 浏览

heritrix - 无法运行 heritrix 作业

我是 Heritrix 3.1.1 的新手。我在启动 Heritrix 后运行作业时收到一些错误消息。

我的工作配置：

metadata.operatorContactUrl="http://localhost"
metadata.jobName=basic
metadata.description=从有用的默认值开始的基本爬取

种子.textSource.value
http://www.sina.com.cn

当我在控制台上运行作业时：我收到错误消息：

heritrix

2013-04-11T10:18:06.510

0 投票

1 回答

250 浏览

spring - 在 Heritrix 3.1.0 中更改 MirrorWriterProcessor 的路径

我正在使用 Heritrix 3.1.0 爬行。我正在尝试使用 MirrorWriterProcessor 保存文件。但是，此选项在 crawler-beans.cxml 中不可用。

我所做的是将“warcWriter”“org.archive.modules.writer.WARCWriterProcessor”替换为“org.archive.modules.writer.MirrorWriterProcessor”

但是，此处理器将镜像内容写入 $HERITRIX_HOME/mirror

我将“路径”配置为“${launchId}/mirror”，希望Heritrix将镜像目录写入job目录下。

我应该怎么做才能将 MirrorWriterProcessor 的路径更改为作业目录下？

spring heritrix

2013-07-03T21:00:49.570

问题标签 [heritrix]

Reference