我正在尝试使用开源 crawler4j 在 mystore411.com 上抓取一个网站。
爬虫在有限的时间内(比如 20-30 秒)正常工作,然后网站在我可以再次爬取之前禁止我的地址几分钟。我想不出可能的解决方案。
我浏览了它的 robots.txt,这是我从中得到的:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /js/
Disallow: /css/
Disallow: /images/
User-agent: Slurp
Crawl-delay: 1
User-agent: Baiduspider
Crawl-delay: 1
User-agent: MaxPointCrawler
Disallow: /
User-agent: YandexBot
Disallow: /
请建议是否有任何替代方案。