0

我正在使用 Nutch 抓取深度为 100 且 topN 为 10,000 的种子文件中指定的 URL 列表,以确保完全抓取。另外,我正在尝试使用 regex-urlfilter http://rubular.com/r/oSkwqGHrri忽略路径中具有重复字符串的 url

但是,我很想知道在抓取过程中哪些 url 被忽略了。无论如何,我可以在 Nutch 爬行时记录被 Nutch “忽略”的 url 列表吗?

4

1 回答 1

1

可以使用以下命令找到链接

bin/nutch readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER -format csv

这将在 dump_folder 中生成 part-00000 文件,该文件将分别包含 url 列表及其状态。

状态为 db_unfetched 的已被爬虫忽略。

于 2013-03-24T11:21:41.673 回答