一些背景知识:
我正在使用 JavaScript 开发一个基于 Web 的移动应用程序。HTML 渲染是基于 Safari 的。跨域策略已禁用,因此我可以使用 XmlHttpRequests 调用其他域。这个想法是解析外部 HTML 并获取特定元素的文本内容。
过去我逐行解析文本,找到我需要的行。然后获取标签的内容,它是该行的子字符串。这很麻烦,每次目标html更改时都需要大量维护。
所以现在我想将 html 文本解析为 DOM 并在其上运行 css 或 xpath 查询。
它运作良好:
$('<div></div>').append(htmlBody).find('#theElementToFind').text()
唯一的问题是,当我使用浏览器将 html 文本加载到 DOM 元素中时,它会尝试加载所有外部资源(图像、js 文件等)。虽然它没有造成任何严重的问题,但我想避免这种情况。
现在的问题是:
如何在浏览器不加载外部资源或运行 js 脚本的情况下将 html 文本解析为 DOM?
我一直在思考的一些想法:
- 使用 createDocument 调用 (
document.implementation.createDocument()
) 创建新的文档对象,但我不确定它是否会跳过外部资源的加载。 - 在 JS 中使用第三方 DOM 解析器 - 我尝试过的唯一一个在处理错误方面非常糟糕
- 使用 iframe 创建新文档,使具有相对路径的外部资源不会在控制台中抛出错误