5

一些背景知识:
我正在使用 JavaScript 开发一个基于 Web 的移动应用程序。HTML 渲染是基于 Safari 的。跨域策略已禁用,因此我可以使用 XmlHttpRequests 调用其他域。这个想法是解析外部 HTML 并获取特定元素的文本内容。
过去我逐行解析文本,找到我需要的行。然后获取标签的内容,它是该行的子字符串。这很麻烦,每次目标html更改时都需要大量维护。
所以现在我想将 html 文本解析为 DOM 并在其上运行 css 或 xpath 查询。
它运作良好:

$('<div></div>').append(htmlBody).find('#theElementToFind').text()

唯一的问题是,当我使用浏览器将 html 文本加载到 DOM 元素中时,它会尝试加载所有外部资源(图像、js 文件等)。虽然它没有造成任何严重的问题,但我想避免这种情况。

现在的问题是:
如何在浏览器不加载外部资源或运行 js 脚本的情况下将 html 文本解析为 DOM?
我一直在思考的一些想法:

  • 使用 createDocument 调用 ( document.implementation.createDocument()) 创建新的文档对象,但我不确定它是否会跳过外部资源的加载。
  • 在 JS 中使用第三方 DOM 解析器 - 我尝试过的唯一一个在处理错误方面非常糟糕
  • 使用 iframe 创建新文档,使具有相对路径的外部资源不会在控制台中抛出错误
4

2 回答 2

5

似乎以下代码效果很好:

var doc = document.implementation.createHTMLDocument("");
doc.documentElement.innerHTML = htmlBody;
var text = $(doc).find('#theElementToFind').text();

未加载外部资源,未评估脚本。

在这里找到它: https ://stackoverflow.com/a/9251106/95624

来源: https ://developer.mozilla.org/en/DOMParser#DOMParser_HTML_extension_for_other_browsers

于 2012-08-15T11:49:54.960 回答
1

您可以构造任何 html 字符串的 jQuery 对象,而无需将其附加到 DOM:

$(htmlBody).find('#theElementToFind').text();
于 2012-08-15T09:34:47.683 回答