0

我试图想出一种方法来获取用户在任何给定 URL 上看到的所有 HTML/文本,即使他们看到的大部分内容可能是动态生成的(例如,在页面加载时)不在DOM,然后手动加载 javascripts 并将结果数据放回页面中。

我的想法是这样的:

  1. (天真地)通过抓取所有<script>标签 src 属性返回所有 javascript 文件的数组。

  2. 返回所有页面上硬编码 javascript 的数组,例如:<script> var example = true; </script>

  3. 创建一个函数来确定在内部和外部页面 javascripts 中遇到的真实 URL。例如,当遇到 example 时$.ajax({ url: '/relative-js-file.js',它​​会计算出绝对 URL,以便 PHP 可以访问该页面。

  4. 使用 PHP,以类似于在实际页面本身(它来自的页面)上加载的方式加载页面上找到的所有 javascript。

  5. 获取 javascript 返回的任何数据(纯文本、html 等),并将这个新的纯文本和/或 HTML 注入原始页面<body>

我确实意识到这在很多时候都行不通,但我希望它至少是一个很好的起点,直到我找到更好的解决方案或创建更高级的函数来处理无法识别/无法访问的 javascript。例如,javascript 本身阻止它被加载到它自己以外的任何页面上。

我的问题

您认为这是获取不在 DOM 中的动态内容并将其强制在 DOM 中的好方法吗?或者你能想出更好的方法吗?感谢您的反馈和想法。

4

0 回答 0