网页使用 JavaScript 将内容放在页面上,所以我得到了纯 HTML,页面上没有数据。我需要的东西不仅能读取 HTML,还能执行 JavaScript 并将其应用于 DOM,然后才以 HTML 文本的形式返回结果。
该任务与此问题中的任务完全相同,但我正在寻找 .NET 的解决方案。
网页使用 JavaScript 将内容放在页面上,所以我得到了纯 HTML,页面上没有数据。我需要的东西不仅能读取 HTML,还能执行 JavaScript 并将其应用于 DOM,然后才以 HTML 文本的形式返回结果。
该任务与此问题中的任务完全相同,但我正在寻找 .NET 的解决方案。
如果您发现 .NET 有类似的东西,我会感到惊讶。我会使用PhantomJS打开页面并与 DOM 交互。它是一个高度可编写脚本的无头 WebKit 浏览器,可以轻松完成您想要的工作。有关示例,请参阅如何使用 phantomjs 将 html 源代码打印到控制台。
var page = require('webpage').create();
page.open('http://google.com', function () {
console.log(page.content);
phantom.exit();
});
您必须安装 PhantomJS,然后启动一个单独的进程来运行您的脚本,但是 PhantomJS 可能会比您为 .NET 编写的任何东西做得更好。