0

我正在尝试从以下站点http://bit.ly/16jFeyA中提取图像和一些文本

Web 窗体,C#,Visual Studio,HtmlAgilityPack

编码仅适用于 WebClient ,浏览器wb.Document.Encoding = "GB2312";不起作用,不重要。

该网站对图像使用延迟加载。WebBrowser 正确加载,带有信息的图像,但是当我使用 Web 客户端 / wb.DocumentText 提取时,它不会下载“完整信息”,某些信息丢失,尤其是图像链接等。

有没有办法解决?我正在尝试提取图像和产品信息。

向下滚动以强制加载图像后使用 wb.DocumentText 提取(由于延迟加载) - http://notepad.cc/share/EjW3tFCffO

wb = 网络浏览器

提前致谢!

4

1 回答 1

2

您需要使用知道如何评估和执行客户端 JavaScript 的东西,例如无头浏览器。PhantomJS应该足够了。

于 2013-03-10T16:57:52.570 回答