javascript - 如何阅读网页以获取其 html 内容

Question

我想在网页中获取 html 内容进行处理。然后使用该网页中的这些关键字在 Google 上进行搜索。您能告诉我如何获取以下示例的 html 代码：

<html>
<head>
<script>

  //Here I would like to read news.yahoo.com page and get the html content of that page for further processing

var a = window.open("https://www.google.com/#q=keyword1");  // search keyword in google
setTimeout(function() { a.close() }, 100);

var b = window.open("https://www.google.com/#q=keyword2");  // search keyword in google
setTimeout(function() { b.close() }, 100);

</script>
</head>
<body>
</body>
</html>

score 1 · Accepted Answer

您通常希望在某种后台作业中在服务器上执行此类操作。如果您在客户端上执行此操作，您的用户将不得不等待您的网页加载，然后等待每个后续网页加载（在 Windowsa和b您的示例中），然后让您处理这些脚本等。

您可以使用各种不同的库获取页面的 html，具体取决于您使用的服务器端语言。根据您的问题历史，我假设您使用的是 PHP；以这个问题（及其答案）为例。

score 0 · Accepted Answer

解决此类问题最优雅的方法是使用服务器端 Web 服务来检索和处理您的网页数据（来自 news.yahoo.com 等），并使用 XML 或 JSON 将其呈现给客户端。

JQuery AJAX研究

score 0 · Accepted Answer

正如 zzzBov 所指出的，如果你想使用 javascript，你需要将 node.js 与 PhantomJS 或 CasperJS 结合使用。

PhantomJS 和 CasperJS 是无头浏览器，允许您使用 javascript 选择器来抓取网站做任何您想做的事情。

您还可以使用 PHP、Python、Ruby 或任何您精通的编程语言，但您需要使用服务器端语言。

javascript - 如何阅读网页以获取其 html 内容

3 回答 3

Related

Reference