0

我正在与 Heritrix 合作,但我有点难以管理它的输出。

我正在研究 PageRank,我需要 Heritrix 生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链接。

我想(尽可能)避免后处理。是否可以通过指定应包含哪些内容和不应包含哪些内容来自定义 Heritrix 的输出?我已经尝试修改 cxml 文件,但输出中仍然有很多无用的信息(如内容页面)。

4

1 回答 1

0

不编写代码就不可能直接做你描述的事情。如果您准备编写代码,则可以编写一个非常简单的处理器或 ScriptedProcessor,以您喜欢的任何格式转储 CrawlURI.getOutLinks()。

但我建议后处理。我不确定你为什么要避免它。您可以使用https://github.com/internetarchive/warctools中的“warcfilter”工具。运行“ warcfilter --type metadata ”以仅过滤掉包含外链列表的元数据记录。您可以使用 grep 进一步减少它。

链接是一个更大的问题。您必须搜索所有 warcs 的外链接,以获取到任何给定 url 的链接。

于 2013-12-18T02:48:09.590 回答