我正在使用 Nutch 抓取深度为 100 且 topN 为 10,000 的种子文件中指定的 URL 列表,以确保完全抓取。另外,我正在尝试使用 regex-urlfilter http://rubular.com/r/oSkwqGHrri忽略路径中具有重复字符串的 url
但是,我很想知道在抓取过程中哪些 url 被忽略了。无论如何,我可以在 Nutch 爬行时记录被 Nutch “忽略”的 url 列表吗?
我正在使用 Nutch 抓取深度为 100 且 topN 为 10,000 的种子文件中指定的 URL 列表,以确保完全抓取。另外,我正在尝试使用 regex-urlfilter http://rubular.com/r/oSkwqGHrri忽略路径中具有重复字符串的 url
但是,我很想知道在抓取过程中哪些 url 被忽略了。无论如何,我可以在 Nutch 爬行时记录被 Nutch “忽略”的 url 列表吗?