可能是关于 nodejs/jsdom 的新手问题
我正在尝试使用 node.js 抓取网站。我正在使用 jsdom 和 jquery 来获取 html 并解析所需的内容。但是,不知何故,我得到的值不是网站上显示的值。基本上这些值是由 javascript 动态更改的,我想要这些值。我使用 nodejs/jsdom 进行抓取的全部原因是 js 将被执行,并且我在该事件之后获得了值。
有没有办法告诉 jsdom 等到 javascript 执行?还是我错了?我在这件事上搜索了很多。
可能是关于 nodejs/jsdom 的新手问题
我正在尝试使用 node.js 抓取网站。我正在使用 jsdom 和 jquery 来获取 html 并解析所需的内容。但是,不知何故,我得到的值不是网站上显示的值。基本上这些值是由 javascript 动态更改的,我想要这些值。我使用 nodejs/jsdom 进行抓取的全部原因是 js 将被执行,并且我在该事件之后获得了值。
有没有办法告诉 jsdom 等到 javascript 执行?还是我错了?我在这件事上搜索了很多。
您最好使用 casperjs http://casperjs.org/之类的东西。它是一个基于 phantomjs 的测试工具。它基本上就像在 webkit 浏览器中打开页面一样,只是没有 GUI。你可以写类似的东西。我认为它不适用于节点,但运行 casper 脚本并将输出通过管道传回节点应该很容易:
var casper = require('casper').create({
loadImages: true,
loadPlugins: true,
verbose: true,
//logLevel: 'info',
clientScripts: [
'jquery-1.7.1.min.js',
],
viewportSize: {
width: 1366,
height: 768,
},
pageSettings: {
javascriptEnabled: true,
userAgent: 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',
},
});
casper.start(url);
casper.thenEvaluate(function () {
//javascript code to run in the scope of the page
});
首先,你是如何使用 jsdom 的?显然,jsdom.env
不执行 DOM 中的脚本,只执行您在调用中添加的脚本jsdom.env
。如果你想执行脚本,我认为你应该使用jsdom.jsdom
.
其次,您需要指定一个onload
处理程序。这应该在文档准备好之后执行,并且希望任何脚本都会根据您的喜好更改 DOM。
像这样的东西:
var jsdom = require('jsdom').jsdom
, document = jsdom(html)
, window = document.createWindow();
document.onload = function() {
// Do your stuff
}