0

有一个名为“www.localbanya.com”的网站,我想从该网站获取 HTML 信息,他们列出产品,他们的显示结构是:

  1. 首先,他们在页面加载时显示大约 8-10 个产品,并且
  2. 稍后当用户向下滚动时,它会生成更多产品。

现在,由于这是基于 javascript 发生的,我无法使用 WebClient 获取整个页面源。

我想知道在.net 中使用 WebClient 类来检索整个页面信息或我可以用来一次获取整个页面 HTML 信息的任何其他替代方法时,有什么方法可以更新页面源。

您可以参考这里以供参考localbanya 产品页面

任何帮助将不胜感激。

4

1 回答 1

0

WebClient 显然不运行 javascript。

所以你需要某种无头浏览器来做到这一点。

它有很多选择,虽然我不知道任何 C# 或 .NET 实现..

您可以查看Phantom JS和其他无头浏览器,它们复制了普通浏览器的功能,您可以为其编写脚本。

另请参阅此问题 Headless browser for C# (.NET)?

您还可以运行Fiddler之类的工具,以查看向下滚动时从页面发出的请求,对如何检索数据进行逆向工程,并WebClient在可能的情况下复制它。

希望这可以帮助。

于 2014-03-07T10:39:14.960 回答