我正在尝试从各种网站获取数据。在堆栈溢出搜索后,我正在使用 crawler4j,正如许多人所建议的那样。以下是我的理解/设计:
1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly.
3. Now, get the list of all URL's from sitemap.xml
4. Now, fetch the content for all above URL's
5. If sitemap.xml is also not available, then scan entire website.
现在,请您告诉我,crawler4J 可以执行步骤 1、2 和 3 吗?请建议任何更好的设计可用(假设没有可用的提要)如果可以,请指导我如何做。
谢谢文卡特