0

我们如何在流中禁用注入子域?现在,如果我们注入www.ebay.com流而不是注入,我们就有子域页面:my.ebay.com, community.ebay.com, ...

4

1 回答 1

1

您可以通过在urlfilters.json 中将 ignoreOutsideHost设置为 true来配置 HostURLFilter 以排除种子主机名之外的 URL

{
  "class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
  "name": "HostURLFilter",
  "params": {
    "ignoreOutsideHost": true,
    "ignoreOutsideDomain": true
  }
}
于 2018-03-21T14:27:53.600 回答