1

我将如何编写一个可以从 Google 新闻中获取文章并将其下载到我的计算机的程序?

我发现 Google 新闻已经内置了 RSS 功能,但我需要实际下载整篇文章(文本和所有内容),而不仅仅是标题。

我最好将这些文章下载为 PDF 或 HTML 文件,但对于初学者来说,只需获取一些 URL 就可以了。

这里有一些关于从谷歌新闻中获取文章的问题,但到目前为止我发现没有什么特别有用的。任何帮助将不胜感激。

谢谢!

4

1 回答 1

1

除了法律问题,这是可能的,请参阅Apache HttpComponents。这是一个如何使用它的示例(取自此处):

DefaultHttpClient httpclient = new DefaultHttpClient();
if ( useProxy == true ) {
    HttpHost proxy = new HttpHost(proxyStr, 80, "http");
    httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy);
}

HttpGet httpget = new HttpGet(urlStr);
httpget.addHeader("Authorization", "Basic " + encodedAuth);

HttpResponse response = httpclient.execute(httpget);

但在你做这样的事情之前,请注意 Google TOS。

于 2014-09-12T03:38:12.033 回答