Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
有谁知道我可以在其中输入域名的任何程序,该程序将爬取整个域并能够为我下载所有 HTML 源代码 - 所以如果该站点在页面上有链接,它只会爬取到域名上的页面,显然不是外部域名。
看看python的scrapy:
http://www.scrapy.org
或 java 的 crawler4j:
http://code.google.com/p/crawler4j/