我将如何编写一个可以从 Google 新闻中获取文章并将其下载到我的计算机的程序?
我发现 Google 新闻已经内置了 RSS 功能,但我需要实际下载整篇文章(文本和所有内容),而不仅仅是标题。
我最好将这些文章下载为 PDF 或 HTML 文件,但对于初学者来说,只需获取一些 URL 就可以了。
这里有一些关于从谷歌新闻中获取文章的问题,但到目前为止我发现没有什么特别有用的。任何帮助将不胜感激。
谢谢!
我将如何编写一个可以从 Google 新闻中获取文章并将其下载到我的计算机的程序?
我发现 Google 新闻已经内置了 RSS 功能,但我需要实际下载整篇文章(文本和所有内容),而不仅仅是标题。
我最好将这些文章下载为 PDF 或 HTML 文件,但对于初学者来说,只需获取一些 URL 就可以了。
这里有一些关于从谷歌新闻中获取文章的问题,但到目前为止我发现没有什么特别有用的。任何帮助将不胜感激。
谢谢!
除了法律问题,这是可能的,请参阅Apache HttpComponents。这是一个如何使用它的示例(取自此处):
DefaultHttpClient httpclient = new DefaultHttpClient();
if ( useProxy == true ) {
HttpHost proxy = new HttpHost(proxyStr, 80, "http");
httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy);
}
HttpGet httpget = new HttpGet(urlStr);
httpget.addHeader("Authorization", "Basic " + encodedAuth);
HttpResponse response = httpclient.execute(httpget);
但在你做这样的事情之前,请注意 Google TOS。