0

网页使用 JavaScript 将内容放在页面上,所以我得到了纯 HTML,页面上没有数据。我需要的东西不仅能读取 HTML,还能执行 JavaScript 并将其应用于 DOM,然后才以 HTML 文本的形式返回结果。

该任务与此问题中的任务完全相同,但我正在寻找 .NET 的解决方案。

4

1 回答 1

1

如果您发现 .NET 有类似的东西,我会感到惊讶。我会使用PhantomJS打开页面并与 DOM 交互。它是一个高度可编写脚本的无头 WebKit 浏览器,可以轻松完成您想要的工作。有关示例,请参阅如何使用 phantomjs 将 html 源代码打印到控制台。

var page = require('webpage').create();
page.open('http://google.com', function () {
    console.log(page.content);
    phantom.exit();
});

您必须安装 PhantomJS,然后启动一个单独的进程来运行您的脚本,但是 PhantomJS 可能会比您为 .NET 编写的任何东西做得更好。

于 2013-08-08T05:17:44.310 回答