我正在寻找一个好的 Java api 来进行网络抓取。我尝试了 WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我认为它有点笨拙。还有其他建议吗?
问问题
3007 次
3 回答
0
我在生产中使用 httpunit 来完成这项任务。
于 2011-03-09T18:32:30.777 回答
0
http://hc.apache.org/httpcomponents-client-ga/
(Maven依赖)
<dependency>
<groupId>commons-httpclient</groupId>
<artifactId>commons-httpclient</artifactId>
<version>3.1</version>
</dependency>
于 2011-03-09T19:04:07.977 回答
0
我用这个:https ://github.com/subes/invesdwin-webproxy
它支持 HttpClient 和 HtmlUnit(支持 javascript 的无头浏览器),并在需要时通过大量代理将其并行化。我还可以推荐 JSoup 用于静态 html 处理。
于 2017-06-09T19:05:56.943 回答