有谁知道是否以及如何以编程方式搜索 Google - 特别是如果有 Java API 的话?
7 回答
一些事实:
Google 提供了一个返回JSON的公共搜索网络服务 API:http : //ajax.googleapis.com/ajax/services/search/web。文档在这里
Java 提供
java.net.URL
并java.net.URLConnection
触发和处理 HTTP 请求。可以使用任意 Java JSON API 将 Java 中的 JSON 转换为完全有价值的 Javabean 对象。最好的之一是Google Gson。
现在做数学:
public static void main(String[] args) throws Exception {
String google = "http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=";
String search = "stackoverflow";
String charset = "UTF-8";
URL url = new URL(google + URLEncoder.encode(search, charset));
Reader reader = new InputStreamReader(url.openStream(), charset);
GoogleResults results = new Gson().fromJson(reader, GoogleResults.class);
// Show title and URL of 1st result.
System.out.println(results.getResponseData().getResults().get(0).getTitle());
System.out.println(results.getResponseData().getResults().get(0).getUrl());
}
这个 Javabean 类表示 Google 返回的最重要的 JSON 数据(它实际上返回更多数据,但作为练习,您可以相应地扩展此 Javabean 代码):
public class GoogleResults {
private ResponseData responseData;
public ResponseData getResponseData() { return responseData; }
public void setResponseData(ResponseData responseData) { this.responseData = responseData; }
public String toString() { return "ResponseData[" + responseData + "]"; }
static class ResponseData {
private List<Result> results;
public List<Result> getResults() { return results; }
public void setResults(List<Result> results) { this.results = results; }
public String toString() { return "Results[" + results + "]"; }
}
static class Result {
private String url;
private String title;
public String getUrl() { return url; }
public String getTitle() { return title; }
public void setUrl(String url) { this.url = url; }
public void setTitle(String title) { this.title = title; }
public String toString() { return "Result[url:" + url +",title:" + title + "]"; }
}
}
###也可以看看:
自 2010 年 11 月更新(上述答案后 2 个月),公共搜索网络服务已被弃用(提供该服务的最后一天是 2014 年 9 月 29 日)。现在最好的办法是使用诚实的用户代理直接查询http://www.google.com/search,然后使用HTML 解析器解析结果。如果省略用户代理,则会返回 403。如果您躺在用户代理中并模拟 Web 浏览器(例如 Chrome 或 Firefox),那么您会得到一个更大的 HTML 响应返回,这是对带宽和性能的浪费。
这是一个使用Jsoup作为 HTML 解析器的启动示例:
String google = "http://www.google.com/search?q=";
String search = "stackoverflow";
String charset = "UTF-8";
String userAgent = "ExampleBot 1.0 (+http://example.com/bot)"; // Change this to your company's name and bot homepage!
Elements links = Jsoup.connect(google + URLEncoder.encode(search, charset)).userAgent(userAgent).get().select(".g>.r>a");
for (Element link : links) {
String title = link.text();
String url = link.absUrl("href"); // Google returns URLs in format "http://www.google.com/url?q=<url>&sa=U&ei=<someKey>".
url = URLDecoder.decode(url.substring(url.indexOf('=') + 1, url.indexOf('&')), "UTF-8");
if (!url.startsWith("http")) {
continue; // Ads/news/etc.
}
System.out.println("Title: " + title);
System.out.println("URL: " + url);
}
要使用 API 搜索谷歌,您应该使用谷歌自定义搜索,不允许抓取网页
在 Java 中,您可以使用适用于 Java 的 CustomSearch API 客户端库
maven依赖是:
<dependency>
<groupId>com.google.apis</groupId>
<artifactId>google-api-services-customsearch</artifactId>
<version>v1-rev57-1.23.0</version>
</dependency>
使用 Google CustomSearch API 客户端库进行示例代码搜索
public static void main(String[] args) throws GeneralSecurityException, IOException {
String searchQuery = "test"; //The query to search
String cx = "002845322276752338984:vxqzfa86nqc"; //Your search engine
//Instance Customsearch
Customsearch cs = new Customsearch.Builder(GoogleNetHttpTransport.newTrustedTransport(), JacksonFactory.getDefaultInstance(), null)
.setApplicationName("MyApplication")
.setGoogleClientRequestInitializer(new CustomsearchRequestInitializer("your api key"))
.build();
//Set search parameter
Customsearch.Cse.List list = cs.cse().list(searchQuery).setCx(cx);
//Execute search
Search result = list.execute();
if (result.getItems()!=null){
for (Result ri : result.getItems()) {
//Get title, link, body etc. from search
System.out.println(ri.getTitle() + ", " + ri.getLink());
}
}
}
如您所见,您需要请求一个 api 密钥并设置一个自己的搜索引擎 ID,cx。
请注意,您可以在设置 cx 期间通过在基本选项卡设置中选择“搜索整个网络”来搜索整个网络,但结果与普通浏览器 google 搜索不完全相同。
目前(回答日期)您每天免费获得 100 个 api 调用,然后谷歌喜欢分享您的利润。
Google TOS 在 2014 年 4 月有所放宽。现在它声明:
“不要滥用我们的服务。例如,不要干扰我们的服务或尝试使用我们提供的界面和说明以外的方法访问它们。”
所以关于“自动化手段”和脚本的段落现在已经消失了。显然,它仍然不是访问他们服务的理想(谷歌)方式,但我认为现在正式开放解释“接口”到底是什么,以及它是否对返回的 HTML 的处理方式有任何影响(渲染或解析)。无论如何,我已经编写了一个 Java 便利库,您可以决定是否使用它:
确实有一个 API 可以以编程方式搜索谷歌。该 API 称为 google 自定义搜索。要使用此 API,您需要一个 Google Developer API 密钥和一个 cx 密钥。我的博客中解释了一个从 java 程序访问 google 搜索的简单过程。
现在死了,这是Wayback Machine 链接。
作为 BalusC 答案的替代方案,因为它已被弃用并且您必须使用代理,您可以使用此包。代码示例:
Map<String, String> parameter = new HashMap<>();
parameter.put("q", "Coffee");
parameter.put("location", "Portland");
GoogleSearchResults serp = new GoogleSearchResults(parameter);
JsonObject data = serp.getJson();
JsonArray results = (JsonArray) data.get("organic_results");
JsonObject first_result = results.get(0).getAsJsonObject();
System.out.println("first coffee: " + first_result.get("title").getAsString());
GitHub 上的库
鉴于去年的 TOS 变更,我们构建了一个 API,可以访问 Google 的搜索。它仅供我们自己使用,但经过一些请求,我们决定将其打开。我们计划在未来添加更多的搜索引擎!
如果有人正在寻找一种简单的方法来实现/获取搜索结果,您可以免费注册并尝试 REST API:https ://searchapi.io
它返回 JSON 结果,并且应该很容易使用详细的文档来实现。
遗憾的是,必应和雅虎在这方面比谷歌遥遥领先。他们的 API 并不便宜,但至少是可用的。