我需要使用 JavaScript 获取页面的 html 内容,该页面也可以在另一个域上,类似于 wget 的功能,但在 JavaScript 中。我想将它用于一种网络爬虫。
使用 JavaScript,如果我有一个 URL,我如何获取页面的内容并将其转换为字符串?
我需要使用 JavaScript 获取页面的 html 内容,该页面也可以在另一个域上,类似于 wget 的功能,但在 JavaScript 中。我想将它用于一种网络爬虫。
使用 JavaScript,如果我有一个 URL,我如何获取页面的内容并将其转换为字符串?
通过 JavaScript 通过 HTTP 加载内容的一般方法是使用 XMLHttpRequest 对象。这受制于同源策略,因此要访问其他域上的内容,您必须绕过它。
这假设您在 Web 浏览器中运行 JS(暗示“该页面也可能在另一个域上”)。如果您不是,那么其他选择将向您开放。例如,对于nodejs ,您可以使用它拥有的 http 客户端。
如果您还想捕获 hmtl 标签,您可以将它们连接到 html,如下所示:
function getPageHTML() {
return "<html>" + $("html").html() + "</html>";
}