heritrix - 如何正确配置我的爬虫程序 crawl-beans.cxml

Question

当我开始爬行时，我意识到它应该花费更多的时间但仍未完成

我试图检查进程 pid 以查看另一个终端发生了什么，但输出对我来说并不清楚，它们都是这种形式：

由 Not SEED、Prod 或 Cat 移除 **** https://（希望被抓取页面的 URL）

也许如果有人理解他们，让我知道会很酷！如果有人知道如何处理它，我高度怀疑这是爬行配置代码（crawl-beans.cxml）请告诉我

score 0 · Accepted Answer

再深入一点，我认为我很愚蠢，这是一个 php 网站，所以我应该花点时间，所以事情根本没有问题所以如果

1 回答 1