我经常通过在公共网页上运行某种 XPath/XQuery 来编译非正式数据集。通常 HTML 的结构足够规则,可以很容易地提取有用的信息。
但是今天我遇到了tunefind.com。本网站大量使用了REACTJS 框架,因此页面的大部分结构都是由 Javascript 客户端配置的。这些页面在最初下载时非常基本,并且缺少很多信息。这些页面由一个脚本填充,该脚本在页面底部使用了一堆乱七八糟的 JSON 数据。
我能想到的解决这个问题的唯一方法是使用某种基于 GUI 的 Web 引擎,而不是显示 GUI 部分。但对于我用来收集信息的这些随意的小 CLI 工具来说,这是一项荒谬的工作。
有没有办法在不处理不必要的图形的情况下执行 javascript 预处理?