3

我正在寻找一个好的 Java api 来进行网络抓取。我尝试了 WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我认为它有点笨拙。还有其他建议吗?

4

3 回答 3

0

我在生产中使用 httpunit 来完成这项任务。

于 2011-03-09T18:32:30.777 回答
0

http://hc.apache.org/httpcomponents-client-ga/

(Maven依赖)

<dependency>
  <groupId>commons-httpclient</groupId> 
  <artifactId>commons-httpclient</artifactId> 
  <version>3.1</version> 
</dependency>
于 2011-03-09T19:04:07.977 回答
0

我用这个:https ://github.com/subes/invesdwin-webproxy

它支持 HttpClient 和 HtmlUnit(支持 javascript 的无头浏览器),并在需要时通过大量代理将其并行化。我还可以推荐 JSoup 用于静态 html 处理。

于 2017-06-09T19:05:56.943 回答