听起来您将需要一个可以在尝试提取 HTML 之前呈现 JS 的工具。可能有很多选择,唯一想到的工具是PhantomJS,一个支持站点报废的无头 WebKit。查看有关DOM 操作的部分,了解有关您可以使用它做什么的一些想法。
来自网站的示例:
以下 useragent.js 示例演示了读取 id 为 myagent 的元素的 innerText 属性:
var page = require('webpage').create();
console.log('The default user agent is ' + page.settings.userAgent);
page.settings.userAgent = 'SpecialAgent';
page.open('http://www.httpuseragent.org', function (status) {
if (status !== 'success') {
console.log('Unable to access network');
} else {
var ua = page.evaluate(function () {
return document.getElementById('myagent').innerText;
});
console.log(ua);
}
phantom.exit();
});