2

我想在网页中获取 html 内容进行处理。然后使用该网页中的这些关键字在 Google 上进行搜索。您能告诉我如何获取以下示例的 html 代码:

<html>
<head>
<script>

  //Here I would like to read news.yahoo.com page and get the html content of that page for further processing

var a = window.open("https://www.google.com/#q=keyword1");  // search keyword in google
setTimeout(function() { a.close() }, 100);

var b = window.open("https://www.google.com/#q=keyword2");  // search keyword in google
setTimeout(function() { b.close() }, 100);

</script>
</head>
<body>
</body>
</html>
4

3 回答 3

1

您通常希望在某种后台作业中在服务器上执行此类操作。如果您在客户端上执行此操作,您的用户将不得不等待您的网页加载,然后等待每个后续网页加载(在 Windowsab您的示例中),然后让您处理这些脚本等。

您可以使用各种不同的库获取页面的 html,具体取决于您使用的服务器端语言。根据您的问题历史,我假设您使用的是 PHP;以这个问题(及其答案)为例。

于 2013-09-30T23:47:12.053 回答
0

解决此类问题最优雅的方法是使用服务器端 Web 服务来检索和处理您的网页数据(来自 news.yahoo.com 等),并使用 XML 或 JSON 将其呈现给客户端。

JQuery AJAX研究

于 2013-10-01T01:14:21.410 回答
0

正如 zzzBov 所指出的,如果你想使用 javascript,你需要将 node.js 与 PhantomJS 或 CasperJS 结合使用。

PhantomJS 和 CasperJS 是无头浏览器,允许您使用 javascript 选择器来抓取网站做任何您想做的事情。

您还可以使用 PHP、Python、Ruby 或任何您精通的编程语言,但您需要使用服务器端语言。

于 2013-10-01T00:00:08.967 回答