java - 将 URL 限制为仅种子 URL 域 crawler4j

Question

我希望 crawler4j 以它们仅属于种子域的方式访问页面。种子中有多个域。我该怎么做？

假设我要添加种子 URL：

shouldVisit()现在我开始爬网，但我希望我的爬虫只访问以上三个域中的页面（就像）。显然有外部链接，但我希望我的爬虫仅限于这些域。子域、子文件夹都可以，但不在这些域之外。

score 1 · Accepted Answer

代表 OP 发布：

score 0 · Accepted Answer

如果您试图将爬虫限制为仅与种子 url 具有相同域的 url，那么：

2 回答 2